seo网站日志分析工具(网站分析工具的数据收集方法(一)_2.1.1日志方法)
优采云 发布时间: 2021-12-29 10:06seo网站日志分析工具(网站分析工具的数据收集方法(一)_2.1.1日志方法)
第二章网站分析基础
本章解释了网站分析的主要组成部分,例如网站分析工具衡量数据的机制,以及实际使用网站分析工具时需要掌握的术语。
2.1 网站分析工具的数据采集方法
网站分析主要基于网站分析工具获取的各种数据。因此,了解网站分析工具的特点以及可以获得的数据类型是非常有必要的。虽然统称为网站分析工具,但采集
数据的方式有很多种。因此,网站分析的第一步是了解网站分析工具如何用于采集
数据。清楚了这一点,您可以更深入地了解网站分析工具中显示的数字是如何计算的。
网站分析工具的数据采集方式可以分为四种方式:“Apache日志”、“网络信标”、“Apache模块”和“数据包嗅探”。这些方法各有优缺点。一个工具还可以使用多种数据采集
方法。
2.1.1Apache日志方法
Apache 日志法是一种基于最流行的Web 服务器软件Apache HTTP Server 生成的访问日志来统计和显示数据的方法。这是最早的数据采集
方法之一。它在10年前就被普遍使用,直到现在才被广泛使用。
使用Apache日志方法采集
数据
{%}
以下两类信息无法使用后面介绍的其他方法获取,但可以使用Apache log方法获取,可以说是Apache log方法的特点。第一类是请求页面外的信息。Apache 日志方法可以获取图片(gif、jpg 等)或视频(fla、wmv 等)的请求信息。只是网站分析很少使用这些信息。第二类是爬虫的请求信息 1. Apache日志方式在访问日志中记录爬虫爬取的页面为1次访问。由于用户并未实际浏览页面,因此在分析网站时信息会成为干扰2。
1 爬虫是指由搜索引擎等运行以获取网站信息的程序。爬虫会遍历世界各地的网站,并根据抓取的信息生成搜索结果。
2 有时会记录此信息,以查看爬虫是否访问过该网站。
Apache日志记录方法的优缺点
Apache 日志记录方法具有以下优点。
获取数据时无需在对应页面做任何处理,直接开始统计即可
能够从搜索引擎获取爬虫信息
如果保存之前的日志文件,还可以统计之前的访问次数
另一方面,Apache 的日志记录方法也有以下缺点。
分析时需要读取日志文件,因此在访问次数较多时读取文件比较耗时(可能需要几个小时到几天)
因为每个web服务器都会生成日志文件,如果有多台服务器,统计起来会比较麻烦
因为它收录
了页面外的请求信息,所以在进行网站分析的时候需要去掉这个信息(有工具可以在阅读的时候自动过滤这个信息)
无法正确定义信息是否属于同一用户(准确率低)
无法获取访问日志时无法使用(租用服务器等)
从以上的优缺点可以看出,Apche log方法不适合日常分析。因此,建议使用一般使用其他数据获取方法的网站分析工具。如果想知道爬虫访问信息、图片等的请求次数,或者想重新统计之前的数据,就用这个方法。
如何描述访问日志
生成的访问日志保存在服务器日志目录下的access.log文件中(初始设置)。每行记录1次访问的信息。获取的条目可以按照CustomLog指令的格式(描述方法)进行记录。
以下是设置为组合日志格式的常用访问日志。这些是日志中的 1 行数据(此处由于纸张空间有限而换行)。
127.0.0.1 弗兰克 [10/Oct/2000:13:55:36 -0700]
"GET /apache_pb.gif HTTP/1.0"