seo网站日志分析工具(:网站日志数据缺失了用户交互行为的数据优势 )
优采云 发布时间: 2021-11-07 19:22seo网站日志分析工具(:网站日志数据缺失了用户交互行为的数据优势
)
第19章
我们通常不会使用网站日志数据作为网站分析的主要数据源,但是我们可以使用网站日志数据来弥补web分析工具的不足。
典型的 网站 日志文件
网站 日志数据的优点是不需要提前安装跟踪代码。只要你的网站在线,也就是当网站代码在服务器上运行时,就会开始记录数据。
一般来说,如果用户访问你的网站触发任何动作,网站的日志都会被一一记录。
下面是一个典型的网站日志记录。用户IP:192.168.22.10地址,成功访问了网站主页(/)(即HTTP的返回码为200) ,流量来源为谷歌(),用户使用火狐浏览器。
192.168.22.10 - - [21/Nov/2003:11:17:55 -0400] "GET / HTTP/1.1" 200 10801 "http://www.google.com/search?q=china+seo&ie=utf-8&oe=utf-8 &aq=t&rls=org.mozilla:en-US:official&client=firefox-a" "Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7"
网站日志数据文件中的缺陷
网站 日志数据文件有缺点。
从网站的日志中得到的数据,不足以输出完整的系列数据分析报告。目前网站大多使用JavaScript等代码在网站上实现用户交互,但是网站Logs无法记录这些JavaScript代码产生的交互。这导致网站的日志分析数据中用户交互数据丢失。请注意,许多典型的数据分析工具可以跟踪 JavaScript 交互。
当你的网站有网站静态缓存文件时,文件缓存机制只会返回用户的缓存文件。例如,图像文件、CSS 文件和 JavaScript 文件等文件类型适用于文件缓存机制。因此,当你的网站日志返回到用户缓存文件时,不会被记录在网站日志中。
当网站日访问量超过10万时,会生成至少30G的网站日志文件,当月累计1TB原创数据。将如此庞大的原创数据处理成通俗易懂的日常报告非常困难且耗时,而且还占用了大量宝贵的存储资源。
网站日志中的搜索引擎蜘蛛数据
网站日志数据的主要优点是可以记录搜索引擎蜘蛛访问网站的数据。这也是其他网站分析工具做不到的。
以下是一个典型的网站日志,记录了搜索引擎蜘蛛(如谷歌蜘蛛Googlebot)访问/抓取您的网站的某个页面(/a.html)的数据记录:
66.250.65.101 - - [21/Nov/2003:04:54:20 -0400] "GET /a.html HTTP/1.1" 200 11179 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
本节记录搜索引擎蜘蛛来自谷歌(Googlebot):
compatible; Googlebot/2.1; +http://www.google.com/bot.html
我们如何使用搜索引擎蜘蛛数据
处理自然搜索流量的原理如下:
抓取(Crawl) -> 索引(Index) -> 排名(Ranking) -> 流量(Traffic)
如果你想让你的网站被搜索引擎排名和索引,第一步就是让搜索引擎蜘蛛抓取你的网站。
网站日志数据可以暴露网站的问题
在网站日志文件中,无论是记录用户访问的数据,还是搜索引擎蜘蛛访问/抓取的数据,都会显示HTTP状态码。以下是一些常见的 HTTP 状态代码:
在网站日志中,所有记录都返回200或300状态码,表示没有异常。如果返回 40 4、 500 或 503 状态码,说明有问题,请注意。
数据分析技术白皮书于2016年11月正式发布。
英文版:Web Server Log Analytics-繁体中文版:网站Log Analysis
数据分析技术白皮书内容根据以下许可协议发布:CC Attribution-Noncommercial 4.0 International