seo网站日志分析工具(SEO的主要数据来源来自两块的日志配置格式(组图))
优采云 发布时间: 2022-01-03 03:20seo网站日志分析工具(SEO的主要数据来源来自两块的日志配置格式(组图))
当我们开始 SEO 工作时,首先要做的是确保我们所做的一切都能得到数据的支持——而不是我们自己的直觉。 SEO的主要数据来源有两个来源:网站的服务器日志和第三方流量分析工具。
网站服务器日志
Combine,Apache、Nginx等常用服务器内置的日志配置格式,已经可以满足大部分SEO分析需求。它看起来像这样:
111.111.111.111 – – “[20/Feb/2012:18:09:25 +0800]”” GET / HTTP/1.@ >1″ 200 3121″***.org/” “Mozilla/5.0(兼容;Googlebot/2.1;+)”
必须记录的信息如:访问源IP、访问时间、访问页面、HTTP响应状态码、访问源和客户端标识等,这些都是Combine日志格式。
在保证服务器日志能够满足其他部门的分析需求的前提下,至少要保证服务器日志中记录了上述项目。但不要记录任何可以记录的数据。只选择实际需要的部分。否则网站的日志量会很大,不利于分析效率。这些内容可能需要与运维沟通解决。
至于对日志的分析,我觉得没有太多固定的准备工作要做,因为它的数据源是原创的(raw似乎听起来更明智?),所以可供选择的数据维度几乎是无限的。因此,应根据实际需要进行相应的处理和分析。
对于一些对日志分析要求不是特别苛刻的,可以试试光年日志分析系统。虽然我个人不喜欢图形界面的所有实用程序,但它为数据维度提供了一些非常好的思路。
听说有个大旅游网站,就是用MongoDB结合Map/Reduce做日志分析。我个人已经使用MongoDB实现了前面提到的光年日志分析的一些重要功能。所以我觉得MongoDB是可以考虑的选择。
第三方流量分析工具
安装 Google Analytics
对于免费的流量分析工具,Google Analytics绝对是最好的之一(以下简称GA)。但是,如果网站的月浏览量大于500W,只有Google Adwords用户可以继续使用GA进行免费流量记录和分析。下面以它为例。
在GA中添加需要跟踪流量的网站后,会提示您在页面上每个需要跟踪的标记前添加一段JavaScript代码。添加代码可能是一件很容易的事情,但也可能很麻烦,主要取决于网站的模板层。
先提一下常见的开源博客程序WordPress的方法,它使用了自带的模板处理方法,比如网站首页、列表页、文章页面等自带模板,都是只一部分。的。收录网页LOGO等的网页header,使用WordPress的get_header方法加载另一个独立的模板文件(get_header方法本质上就是PHP中的include函数)。总之,只要在header.php文件中添加代码,所有收录它的网页都会做相应的修改,GA代码很快就可以添加了。
但情况并不总是理想的,尤其是对于使用网站框架自行开发的网站来说,有时并不收录这样的方法。这可能是网站的构建规范不完善,也可能是网站的要求导致无法使用类似于WordPress的收录方式。那么,至少在每个网页的头部,应该额外增加一小段加载全局JavaScript块,以方便添加全局JavaScript代码。
虽然没有必要对网站模板结构做一些可能会在添加GA代码时不好的变化,但是多达几十个不同的模板文件来分别添加代码(当然这需要一些时间)确保没有遗漏任何页面)。但是一次性解决一些本质问题会给以后带来很多方便——比如改变一组统计代码。
最麻烦的可能是如何说服程序员针对一些看似很小的需求修改模板结构,这里略过。
一些基本的 Google Analytics(分析)设置
对于SEO来说,最基本的设置之一就是对网站上对SEO有价值的页面进行分类。区分页面,掌握其流量状态和趋势后,能否把握SEO重点,更好地分析每次SEO修改对网站等
的效果?
举个最简单的例子,对于一个网站,如果手头有1000个外部链接,我应该给网站的栏目页还是产品页?这主要看哪种类型的页面转化率更高,SEO流量提升空间更大。
对于每个网站,都有不同的情况。例如,图书类别的电子商务公司网站 其列表页面上的流量并不多。搜索“计算机书籍”的人并不多,但搜索“乔布斯自传”的人更多,因为用户有非常明确的需求。对于服装电商来说,相应的搜索“衬衫”而不是“2012年春季新白衬衫”等,因为用户只是想在网站上挑选衣服,而他们只有需求的意图。但是具体的需求是模糊的。
以上两个是比较典型的例子,但更多的情况是我们无法用直觉做出准确判断。然后我们需要使用流量数据来采集事实。
虽然对博客流量数据的分析价值不大,但是优秀的文章就是博客的一切,但这里以SEMWATCH为例简单介绍一下方法。假设我们需要区分网站的专栏页面的流量和文章的页面流量,它们的URL类似这样:/category/seo/,/2012/02/post/
首先进入GA数据页面,找到高级细分,点击右侧新建自定义细分。然后设置类似下图:
通常,将页面的URL与对应的正则匹配后,就可以区分了。注意,如果网站的初始URL规划不完善,可能会导致无法通过URL来区分页面类型的非常非常糟糕的情况。确保每种类型的页面都有自己独立的 URL 标识符。
本例中SEMWATCH的栏目页面匹配正则表达式为:^/category/.*?/$,文章页面为:^/2[0-9]{3}/[0 - 9]{2}/.*?/$
尽量使用最严格的正则表达式书写方式,这样可以无形中避免很多不必要的混淆。还需要注意的是,旧版GA默认使用正则表达式过滤“收录”,新版GA必须选择“匹配正则表达式”项。
关于正则表达式,限于篇幅无法解释。如果不明白,可以考虑向程序员寻求帮助。但我个人的建议是尽量自己掌握。这是一个比较基础的技术要求,SEO不应该被它难倒。正则表达式可能看起来很恶心——至少我从来没有理解我写的正则表达式,但它们实际上很容易学习。
总之,通过上面的步骤,我们就可以简单的区分页面类型了。回到最初的例子,如果有1000个随机分配的SEMWATCH外链,现在应该给出哪些页面?可以发现,专栏页面几乎没有流量,而文章页面自然流量非常高。大多数情况下,这证明了文章页面有更大的流量发展空间。这时候,给文章页面分配外链是最明智的做法。 (但也不能武断地说,不能排除栏目页面SEO出现巨大问题的可能性。这个问题并不少见,所以一定要结合我们的常识和其他方面的分析,综合判断。 )
最后总结
实际可能面临的问题有很多很多。当然,他们不可能被一篇文章文章覆盖。上面提到的只是两个主要数据。在实际的SEO过程中,可能还需要用到网站级Google站长工具、预估流量爱站、SEMRush、Google Adplanner、HitWise、关键词的Google等数据关键词工具、百度思南、链接相关的MajesticSEO、Ahrefs等
最近在读《麦肯锡方法论》,提到:“以事实为基础,严格结构,以假设为导向”,同样总结了SEO的话:“以数据为基础,严格逻辑,以效果为目标,技术为办法”。本文只是为基础数据打下基础。它本身没有任何价值——如果你看数据,它只是一个刚性数字。
如何在最需要流量大突破并为网站创造价值的地方,利用数据进行SEO改变。这是我们真正需要注意的部分,然后慢慢分解。