seo网站日志分析工具(网站分析工具的数据收集方法(一)_2.1.1日志方法)

优采云 发布时间: 2021-12-29 10:06

  seo网站日志分析工具(网站分析工具的数据收集方法(一)_2.1.1日志方法)

  第二章网站分析基础

  本章解释了网站分析的主要组成部分,例如网站分析工具衡量数据的机制,以及实际使用网站分析工具时需要掌握的术语。

  2.1 网站分析工具的数据采集方法

  网站分析主要基于网站分析工具获取的各种数据。因此,了解网站分析工具的特点以及可以获得的数据类型是非常有必要的。虽然统称为网站分析工具,但采集

数据的方式有很多种。因此,网站分析的第一步是了解网站分析工具如何用于采集

数据。清楚了这一点,您可以更深入地了解网站分析工具中显示的数字是如何计算的。

  网站分析工具的数据采集方式可以分为四种方式:“Apache日志”、“网络信标”、“Apache模块”和“数据包嗅探”。这些方法各有优缺点。一个工具还可以使用多种数据采集

方法。

  

  2.1.1Apache日志方法

  Apache 日志法是一种基于最流行的Web 服务器软件Apache HTTP Server 生成的访问日志来统计和显示数据的方法。这是最早的数据采集

方法之一。它在10年前就被普遍使用,直到现在才被广泛使用。

  使用Apache日志方法采集

数据

  {%}

  以下两类信息无法使用后面介绍的其他方法获取,但可以使用Apache log方法获取,可以说是Apache log方法的特点。第一类是请求页面外的信息。Apache 日志方法可以获取图片(gif、jpg 等)或视频(fla、wmv 等)的请求信息。只是网站分析很少使用这些信息。第二类是爬虫的请求信息 1. Apache日志方式在访问日志中记录爬虫爬取的页面为1次访问。由于用户并未实际浏览页面,因此在分析网站时信息会成为干扰2。

  1 爬虫是指由搜索引擎等运行以获取网站信息的程序。爬虫会遍历世界各地的网站,并根据抓取的信息生成搜索结果。

  2 有时会记录此信息,以查看爬虫是否访问过该网站。

  Apache日志记录方法的优缺点

  Apache 日志记录方法具有以下优点。

  获取数据时无需在对应页面做任何处理,直接开始统计即可

  能够从搜索引擎获取爬虫信息

  如果保存之前的日志文件,还可以统计之前的访问次数

  另一方面,Apache 的日志记录方法也有以下缺点。

  分析时需要读取日志文件,因此在访问次数较多时读取文件比较耗时(可能需要几个小时到几天)

  因为每个web服务器都会生成日志文件,如果有多台服务器,统计起来会比较麻烦

  因为它收录

了页面外的请求信息,所以在进行网站分析的时候需要去掉这个信息(有工具可以在阅读的时候自动过滤这个信息)

  无法正确定义信息是否属于同一用户(准确率低)

  无法获取访问日志时无法使用(租用服务器等)

  从以上的优缺点可以看出,Apche log方法不适合日常分析。因此,建议使用一般使用其他数据获取方法的网站分析工具。如果想知道爬虫访问信息、图片等的请求次数,或者想重新统计之前的数据,就用这个方法。

  如何描述访问日志

  生成的访问日志保存在服务器日志目录下的access.log文件中(初始设置)。每行记录1次访问的信息。获取的条目可以按照CustomLog指令的格式(描述方法)进行记录。

  以下是设置为组合日志格式的常用访问日志。这些是日志中的 1 行数据(此处由于纸张空间有限而换行)。

  127.0.0.1 弗兰克 [10/Oct/2000:13:55:36 -0700]

  "GET /apache_pb.gif HTTP/1.0"

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线