网站数据采集|埋点设计|nginx日志文件
优采云 发布时间: 2020-08-26 20:53网站数据采集|埋点设计|nginx日志文件
数据获取的方法主要可以分为两种:
优缺点:
1.网站日志文件
记录网站日志文件的方法是最原创的数据获取方法,主要在服务端完成,在网站的应用服务器配置相应的写日志的功能能够够实现,很多web应用服务器自带日志的记录功能。如Nginx的access.log日志等。
优点是获取数据时不需要对页面做相关处理,可以直接开始统计相关恳求信息,缺点在于有些信息难以采集,比如用户在页面端的操作(如点击、ajax的使用等)无法记录。限制了一些指标的统计和估算。
2.页面埋点js自定义采集
自定义采集用户行为数据,通过在页面嵌入自定义的javascript代码来获取用户的访问行为(比如键盘悬停的位置,点击的页面组件等),然后通过ajax恳求到后台记录日志,这种方法所能采集的信息会愈发全面。
在实际操作中,有以下几个方面的数据可以自定义的采集:
系统特点:比如所采用的操作系统、浏览器、域名和访问速率等。
访问特点:包括逗留时间、点击的URL、所点击的“页面标签”及标签的
属性等。
来源特点:包括来访URL,来访IP等。
产品特点:包括所访问的产品编号、产品类别、产品颜色、产品价钱、产品收益、产品数目和特惠等级等。
以某电商网站为例,当用户点击相关产品页面时,其自定义采集系统都会搜集相关的行为数据,发到前端的服务器,采集的数据日志格式如下: