seo网站日志分析工具(《光年SEO日志分析系统》对网站的IIS日志进行分析)

优采云 发布时间: 2022-03-06 16:05

  seo网站日志分析工具(《光年SEO日志分析系统》对网站的IIS日志进行分析)

  《光年SEO日志分析系统》分析网站的IIS日志,可以分析超级日志文件。

  1. 这是第一款专为SEO设计的日志分析软件。

  之前很多日志分析软件都是顺带分析SEO数据的,这个软件分析的每一个指标都是为SEO设计的。并且很多分析维度是其他日志分析软件所没有的。这使您可以看到许多以前不可用的有用数据。

  2.可以分析无限日志,速度非常快。

  很多日志分析软件在日志大于2G的时候会越来越慢或者程序没有响应。而且这个软件可以分析无限的日志,每小时可以分析40G的日志。这对于需要分析几个月的日志,以及几十G的大型网站日志非常有帮助。

  3、可以自动判断日志格式。

  现在很多日志分析软件不支持Nginx或者CDN日志,日志记录的顺序必须要格式化。而且这个软件没有那么多限制,它可以从日志中自动检测出哪个是时间,哪个是URL,哪个是IP地址等等。

  4、软件容量小,操作简单,绿色免安装版。

  这个软件不会动不动就几十M。现在软件不到1M,用邮件附件发送很方便。软件的操作也很简单,只需三步。还有就是软件不需要安装,是绿色免安装版。

  该软件的缺点:

  目前因为解决软件效率问题需要大量的时间,所以日志分析的维度还太小,未来会逐渐增加很*敏*感*词*。另外,数据的准确性还可以,但是还有很大的提升空间。

  第二版增加了更多的分析维度,还增加了拆分日志的能力。

  我们先来看几个固定的分析维度。以下数据是我博客的日志分析数据。

  首先是“剖析”:

  

  剖析

  以下是每个爬虫的“访问次数”、“总停留时间”和“总抓取次数”的统计信息。从以上数据可以看出,百度爬虫的爬取深度并不高:1868次访问,2968次爬取,平均每次爬取1.59页。这其实是百度爬虫常见的爬取特性,在大部分网站上也是一样的规律。如果爬取深度不高,很多层较深的页面将不会被爬取;并且有几个页面会被重复爬取,浪费爬虫的时间。这样一来,很多网站想在百度上弄到收录就成了难题,尤其是大中型的网站。所有我接触过的大中型网站,在刻意优化之前,很多网站 至少有一半的网页没有被百度爬虫抓取,有些网站甚至更严重。相比之下,谷歌的抓取深度要好很多,总的抓取量也更大。

  这里比较重要的数据是“总抓取量”,因为它影响网站的收录量,进而影响网站的SEO流量。在《网页加载速度如何影响SEO性能》一文中,解释了超爬与SEO流量的关系。这个“总爬取”数据的好坏取决于每个网站的实际情况。就这个网站而言,它现在有53个文章,300多个网页,现在谷歌每天抓取16484次,百度每天抓取2968次。如果单看这个数据,这300多个网页似乎一天之内应该基本可以爬完。但是很多大中的网站是不同的。

  这里我先解释一个可能有些人会混淆的问题。为什么我在上面特意解释了文章的数量和网页的数量,这是因为文章的数量绝对不等于网页的数量。但是,有些人在去查看收录时忽略了这个常识。例如,如果某个网站的文章(或单条信息的数量)为300,000,而在搜索引擎中收录的数量为290,000 site等语法,感觉我的收录的量差不多,但实际可能相差甚远。

  因为一个页面会衍生出许多其他页面。如果你打开一个文章页面,统计一下里面的url,去掉模板上的重复,还是有一些url只有当前页面才有,也就是从这个页面派生出来的。而一个URL对应一个页面,所以一个网站上的页面数是这个网站上信息量的几倍,有时甚至是十到二十倍。

  因此,在查看这个“总抓取量”之前,您需要计算一下您的 网站 中可能拥有的页面数。您可以使用 lynx 的在线版本来提取每种类型页面上的 URL 并查看。知道了网页的总数,再与“总爬取量”进行比较,就可以知道这个数据的好坏。我觉得基本上,如果google爬虫的爬取量是网站的2倍以上,爬取量会被认为是及格,百度爬虫需要更多。因为其实这个爬取量很多都是重复爬取的;而且与前一天相比,每天爬取的新页面并不多。

  这三个数据:“Visits”、“Total Dwell Time”和“Total Crawls”都是数值较高的网站,因此有很多方法可以改进它们。大多数时候看它们的绝对值是没有用的,而是看它们当前和过去的比较值。如果您可以跟踪数据每天的变化情况,您就可以看到有多少因素会影响数据。

  其他数据也是如此:当前数据的值有时不一定有意义,但跟踪该数据随时间的变化可以揭示有多少因素相互影响。

  然后是“目录抓取”的数据:

  

  目录爬取统计

  为这个“目录”爬取的数据是“总爬取量”的细分。在 网站 中,必须有关键页面和非关键页面。这些数据可以让你看到哪些类型的页面被爬得更多,并及时做出一些调整。

  另外,可以去搜索引擎根据URL特征查询各个目录下页面的收录状态,再与该目录下搜索引擎的爬取数据进行对比,发现更多问题。比如看了这个数据,可以知道一天可能爬不上300多个网页,因为大部分的爬取都在bbs目录下。(有时候这样的意外情况很多,bbs目录已经做了301跳转,没想到爬了这么多。——看数据,总能知道真相是什么。)

  然后是“页面抓取”数据:

  

  页面抓取

  这个数据统计了一个网站中被重复爬取的页面,分别统计了哪些爬虫已经爬了多少次。多分析几句网站就会明白,百度爬虫往往是过度爬取的常客。这个数据也验证了之前的数据:因为它平均每次爬1.59页,也就是每次爬都停留在表面,但是爬的比较频繁,所以必然会导致小经常被抓取的页面数。百度抓取的。因为重复爬取的存在,一个网站只看爬取的数量,没用,还要看爬取了多少个唯一页面。还有一种方法可以解决这个问题。

  在“蜘蛛IP排名”数据中,统计了每个爬虫IP的访问情况:

  

  知识产权排名

  如果你分析了很多网站,你会发现爬虫访问某个站,一定时间内的IP段会集中在某个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。知道此功能有时会派上用场。

  报告中有查询IP地址的功能,可以检查那些爬虫IP是否真实。上图中红框内的IP是一个伪装成google爬虫的采集人。

  这个数据和上面所有的数据都是一样的,通过前后对比可以发现更多的信息。

  以下是关键字分析的数据:

  

  关键词分析

  这里的“类型”是表示这个关键词是来自网络搜索、图片搜索还是视频搜索的SEO流量。而“Last time using keywords”是统计用户在输入网站之前搜索当前关键词的字数。这个函数只对百度有效,因为百度在url中记录了用户最后一次使用的关键词。这个地方的界面还有待修改,下个版本会完善。

  在“状态码分析”报告中,用户遇到的状态现在与爬虫遇到的状态码是分开的,其他没有任何变化:

  

  状态码

  这里的每一行数据分为两部分,第一部分表示哪个文件有这个状态码,第二部分表示它出现在哪个网页上。从上面的数据可以看出,这个网站正在被一些黑客工具扫描。

  在《光年SEO日志分析系统》第二版中,最重要的升级是增加了“日志拆分”功能。使用此功能,您可以分析任何维度的 网站 日志。

  以下是可以拆分的日志字段:

  

  分割字段

  只要你的网站日志是完整的,拥有日志拆分功能就相当于拥有了一个数据仓库。此时查看网站的数据,是:只有你想不到,没有什么是它找不到的。

  比如我们要查看上面伪装成google spider的IP采集是哪些网页,我们定义分割条件为:ip equals 222.186.24. 59.如果agent等于googlebot,可以拆分日志;并查看哪些IP正在使用黑客工具扫描网站,将拆分条件定义为:url等于MIRSERVER.RAR或等于WWWROOT.RAR等可以看到。

  我也建议大家多拆分爬虫的爬取轨迹,拆分一个爬虫IP的爬取路径,观察它的爬取路径,然后对应网站上的URL,可以了解爬虫很多规则抓住。

  其实应该已经开发了一个日志合并功能,只是这个功能太简单了。一般我们可以在DOS下使用copy命令来解决这个问题:

  

  复制命令

  这样你就可以结合分析网站一周、一个月甚至半年的日志。《光年SEO日志分析系统》支持无限日志分析,只要你有时间。

  在“设置”-“性能设置”中,有两个地方需要注意。一个是“蜘蛛计算间隔”,意思是蜘蛛即使离开了,也有多久没有活动了。这里需要注意的是,每次比对分析必须在同一时间,因为这里的时间变了,爬虫的访问次数也会变。还有一个“分析显示数”,现在可以定义报表中显示的数据行数,默认只有5行。

  声明:本站所有文章,除非另有说明或标记,均发布在本站原创。任何个人或组织未经本站同意,不得复制、盗用、采集、将本站内容发布到任何网站、书籍等媒体平台。本站内容如有侵犯原作者合法权益的,您可以联系我们处理。

  iis日志分析

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线