seo网站日志分析工具(网站分析工具的数据收集方法(一)_2.1.1日志方法)

优采云发布时间: 2021-12-29 10:06

　　第二章网站分析基础

　　本章解释了网站分析的主要组成部分，例如网站分析工具衡量数据的机制，以及实际使用网站分析工具时需要掌握的术语。

　　2.1 网站分析工具的数据

" target="_blank">采集方法

　　网站分析主要基于网站分析工具获取的各种数据。因此，了解网站分析工具的特点以及可以获得的数据类型是非常有必要的。虽然统称为网站分析工具，但采集

数据的方式有很多种。因此，网站分析的第一步是了解网站分析工具如何用于采集

数据。清楚了这一点，您可以更深入地了解网站分析工具中显示的数字是如何计算的。

　　网站分析工具的数据采集方式可以分为四种方式：“Apache日志”、“网络信标”、“Apache模块”和“数据包嗅探”。这些方法各有优缺点。一个工具还可以使用多种数据采集

方法。

　　2.1.1Apache日志方法

　　Apache 日志法是一种基于最流行的Web 服务器软件Apache HTTP Server 生成的访问日志来统计和显示数据的方法。这是最早的数据采集

方法之一。它在10年前就被普遍使用，直到现在才被广泛使用。

　　使用Apache日志方法采集

数据

　　{%}

　　以下两类信息无法使用后面介绍的其他方法获取，但可以使用Apache log方法获取，可以说是Apache log方法的特点。第一类是请求页面外的信息。Apache 日志方法可以获取图片（gif、jpg 等）或视频（fla、wmv 等）的请求信息。只是网站分析很少使用这些信息。第二类是爬虫的请求信息 1. Apache日志方式在访问日志中记录爬虫爬取的页面为1次访问。由于用户并未实际浏览页面，因此在分析网站时信息会成为干扰2。

　　1 爬虫是指由搜索引擎等运行以获取网站信息的程序。爬虫会遍历世界各地的网站，并根据抓取的信息生成搜索结果。

　　2 有时会记录此信息，以查看爬虫是否访问过该网站。

　　Apache日志记录方法的优缺点

　　Apache 日志记录方法具有以下优点。

　　获取数据时无需在对应页面做任何处理，直接开始统计即可

　　能够从搜索引擎获取爬虫信息

　　如果保存之前的日志文件，还可以统计之前的访问次数

　　另一方面，Apache 的日志记录方法也有以下缺点。

　　分析时需要读取日志文件，因此在访问次数较多时读取文件比较耗时（可能需要几个小时到几天）

　　因为每个web服务器都会生成日志文件，如果有多台服务器，统计起来会比较麻烦

　　因为它收录

了页面外的请求信息，所以在进行网站分析的时候需要去掉这个信息（有工具可以在阅读的时候自动过滤这个信息）

　　无法正确定义信息是否属于同一用户（准确率低）

　　无法获取访问日志时无法使用（租用服务器等）

　　从以上的优缺点可以看出，Apche log方法不适合日常分析。因此，建议使用一般使用其他数据获取方法的网站分析工具。如果想知道爬虫访问信息、图片等的请求次数，或者想重新统计之前的数据，就用这个方法。

　　如何描述访问日志

　　生成的访问日志保存在服务器日志目录下的access.log文件中（初始设置）。每行记录1次访问的信息。获取的条目可以按照CustomLog指令的格式（描述方法）进行记录。

　　以下是设置为组合日志格式的常用访问日志。这些是日志中的 1 行数据（此处由于纸张空间有限而换行）。

　　127.0.0.1 弗兰克 [10/Oct/2000:13:55:36 -0700]

　　"GET /apache_pb.gif HTTP/1.0"

0

2021-12-29

seo网站日志分析工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo网站日志分析工具(网站分析工具的数据收集方法(一)_2.1.1日志方法)

0 个评论

发起人

AI时代内容工厂

seo网站日志分析工具(网站分析工具的数据收集方法(一)_2.1.1日志方法)

0 个评论

发起人

相关问题