seo网站日志分析工具(网站分析工具测量数据的机制、实际使用的4种方法)
优采云 发布时间: 2021-09-21 23:00seo网站日志分析工具(网站分析工具测量数据的机制、实际使用的4种方法)
第2章网站分析的基础
本章解释网站分析的主要元素,如网站分析工具测量数据的机制,使用网站分析工具时需要掌握的术语
2.1网站分析工具的@数据采集方法
网站分析主要基于网站分析工具获得的各种数据。因此,了解网站分析工具的特点以及可以获得的数据类型是非常必要的。虽然统称为网站分析工具,但数据采集方法多种多样。因此,网站分析的第一步是了解使用的网站分析工具是如何采集数据的。通过明确这一点,我们可以更深入地了解网站分析工具中显示的数字是如何计算的
网站analysis tools的数据采集方法可分为四种:“Apache日志”、“网络信标”、“Apache模块”和“包嗅探”。这些方法各有优缺点。工具还可以使用多种数据采集方法
2.@1.1Apache日志法
Apache log method是一种基于最流行的web服务器软件Apache HTTP server生成的访问日志来计算和显示数据的方法。这是最早的数据采集方法之一,在10年前非常普遍,至今已被广泛使用
使用Apache日志记录方法采集数据
{%}
以下两种类型的信息不能通过使用后面描述的其他方法获得,但可以通过使用Apache log方法获得,这可以说是Apache log方法的特性。第一种类型是页面外部的请求信息。Apache log方法可以获取图像(GIF、JPG等)或视频(FLA、WMV等)的请求信息。但是网站analysis很少使用这些信息。第二种类型是爬虫程序的请求信息1。Apache日志方法还将在访问日志中将爬虫爬网的页面记录为访问日志。事实上,用户并不是在浏览页面,所以在进行网站分析时,这些信息会成为干扰
爬虫是搜索引擎运行以获取网站信息的程序。爬虫将穿越世界上的网站,并根据捕获的信息生成搜索结果
有时会记录此信息,以查看爬虫是否已在网站处出现@
Apache日志记录方法的优缺点
Apache日志记录方法具有以下优点
获取数据时,不需要在相应页面上进行任何处理,可以直接开始统计
能够获取搜索引擎的爬虫信息
如果保存了以前的日志文件,还可以计算以前的访问次数
另一方面,Apache日志记录方法也有以下缺点
在分析过程中需要读取日志文件,因此在多次访问时读取文件将非常耗时(可能需要几个小时到几天)
因为每个web服务器都会生成日志文件,所以如果有多个服务器,统计数据将更加麻烦
因为它收录页面之外的请求信息,所以需要在网站analysis期间将其删除(有一些工具可以在读取时自动过滤此信息)
无法正确定义信息是否属于同一用户(准确性低)
无法获取访问日志(租用服务器等)时不能使用
从上述优缺点可以看出,apche日志法不适合日常分析。因此,建议通常使用使用其他数据采集方法的网站分析工具。如果您想知道爬虫程序访问信息、图像等的请求数量,或者想重新计算以前的数据,可以再次使用此方法
访问日志的描述方法
生成的访问日志保存在服务器日志目录(初始设置)的access.log文件中。每行记录一次就诊的信息。获取的条目可以以CustomLog指令的格式记录(描述方法)
以下是常用的组合日志格式访问日志集。这些是日志中1行的数据(由于纸张面积有限,此处执行换行)
127.0.@0.1弗兰克[10/Oct/2000:13:55:36-0700]
“GET/apache_pb.gif HTTP/1.0"