seo网站日志分析工具(《光年SEO日志分析系统》对网站的IIS日志进行分析)
优采云 发布时间: 2022-03-06 16:05seo网站日志分析工具(《光年SEO日志分析系统》对网站的IIS日志进行分析)
《光年SEO日志分析系统》分析网站的IIS日志,可以分析超级日志文件。
1. 这是第一款专为SEO设计的日志分析软件。
之前很多日志分析软件都是顺带分析SEO数据的,这个软件分析的每一个指标都是为SEO设计的。并且很多分析维度是其他日志分析软件所没有的。这使您可以看到许多以前不可用的有用数据。
2.可以分析无限日志,速度非常快。
很多日志分析软件在日志大于2G的时候会越来越慢或者程序没有响应。而且这个软件可以分析无限的日志,每小时可以分析40G的日志。这对于需要分析几个月的日志,以及几十G的大型网站日志非常有帮助。
3、可以自动判断日志格式。
现在很多日志分析软件不支持Nginx或者CDN日志,日志记录的顺序必须要格式化。而且这个软件没有那么多限制,它可以从日志中自动检测出哪个是时间,哪个是URL,哪个是IP地址等等。
4、软件容量小,操作简单,绿色免安装版。
这个软件不会动不动就几十M。现在软件不到1M,用邮件附件发送很方便。软件的操作也很简单,只需三步。还有就是软件不需要安装,是绿色免安装版。
该软件的缺点:
目前因为解决软件效率问题需要大量的时间,所以日志分析的维度还太小,未来会逐渐增加很*敏*感*词*。另外,数据的准确性还可以,但是还有很大的提升空间。
第二版增加了更多的分析维度,还增加了拆分日志的能力。
我们先来看几个固定的分析维度。以下数据是我博客的日志分析数据。
首先是“剖析”:
剖析
以下是每个爬虫的“访问次数”、“总停留时间”和“总抓取次数”的统计信息。从以上数据可以看出,百度爬虫的爬取深度并不高:1868次访问,2968次爬取,平均每次爬取1.59页。这其实是百度爬虫常见的爬取特性,在大部分网站上也是一样的规律。如果爬取深度不高,很多层较深的页面将不会被爬取;并且有几个页面会被重复爬取,浪费爬虫的时间。这样一来,很多网站想在百度上弄到收录就成了难题,尤其是大中型的网站。所有我接触过的大中型网站,在刻意优化之前,很多网站 至少有一半的网页没有被百度爬虫抓取,有些网站甚至更严重。相比之下,谷歌的抓取深度要好很多,总的抓取量也更大。
这里比较重要的数据是“总抓取量”,因为它影响网站的收录量,进而影响网站的SEO流量。在《网页加载速度如何影响SEO性能》一文中,解释了超爬与SEO流量的关系。这个“总爬取”数据的好坏取决于每个网站的实际情况。就这个网站而言,它现在有53个文章,300多个网页,现在谷歌每天抓取16484次,百度每天抓取2968次。如果单看这个数据,这300多个网页似乎一天之内应该基本可以爬完。但是很多大中的网站是不同的。
这里我先解释一个可能有些人会混淆的问题。为什么我在上面特意解释了文章的数量和网页的数量,这是因为文章的数量绝对不等于网页的数量。但是,有些人在去查看收录时忽略了这个常识。例如,如果某个网站的文章(或单条信息的数量)为300,000,而在搜索引擎中收录的数量为290,000 site等语法,感觉我的收录的量差不多,但实际可能相差甚远。
因为一个页面会衍生出许多其他页面。如果你打开一个文章页面,统计一下里面的url,去掉模板上的重复,还是有一些url只有当前页面才有,也就是从这个页面派生出来的。而一个URL对应一个页面,所以一个网站上的页面数是这个网站上信息量的几倍,有时甚至是十到二十倍。
因此,在查看这个“总抓取量”之前,您需要计算一下您的 网站 中可能拥有的页面数。您可以使用 lynx 的在线版本来提取每种类型页面上的 URL 并查看。知道了网页的总数,再与“总爬取量”进行比较,就可以知道这个数据的好坏。我觉得基本上,如果google爬虫的爬取量是网站的2倍以上,爬取量会被认为是及格,百度爬虫需要更多。因为其实这个爬取量很多都是重复爬取的;而且与前一天相比,每天爬取的新页面并不多。
这三个数据:“Visits”、“Total Dwell Time”和“Total Crawls”都是数值较高的网站,因此有很多方法可以改进它们。大多数时候看它们的绝对值是没有用的,而是看它们当前和过去的比较值。如果您可以跟踪数据每天的变化情况,您就可以看到有多少因素会影响数据。
其他数据也是如此:当前数据的值有时不一定有意义,但跟踪该数据随时间的变化可以揭示有多少因素相互影响。
然后是“目录抓取”的数据:
目录爬取统计
为这个“目录”爬取的数据是“总爬取量”的细分。在 网站 中,必须有关键页面和非关键页面。这些数据可以让你看到哪些类型的页面被爬得更多,并及时做出一些调整。
另外,可以去搜索引擎根据URL特征查询各个目录下页面的收录状态,再与该目录下搜索引擎的爬取数据进行对比,发现更多问题。比如看了这个数据,可以知道一天可能爬不上300多个网页,因为大部分的爬取都在bbs目录下。(有时候这样的意外情况很多,bbs目录已经做了301跳转,没想到爬了这么多。——看数据,总能知道真相是什么。)
然后是“页面抓取”数据:
页面抓取
这个数据统计了一个网站中被重复爬取的页面,分别统计了哪些爬虫已经爬了多少次。多分析几句网站就会明白,百度爬虫往往是过度爬取的常客。这个数据也验证了之前的数据:因为它平均每次爬1.59页,也就是每次爬都停留在表面,但是爬的比较频繁,所以必然会导致小经常被抓取的页面数。百度抓取的。因为重复爬取的存在,一个网站只看爬取的数量,没用,还要看爬取了多少个唯一页面。还有一种方法可以解决这个问题。
在“蜘蛛IP排名”数据中,统计了每个爬虫IP的访问情况:
知识产权排名
如果你分析了很多网站,你会发现爬虫访问某个站,一定时间内的IP段会集中在某个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。知道此功能有时会派上用场。
报告中有查询IP地址的功能,可以检查那些爬虫IP是否真实。上图中红框内的IP是一个伪装成google爬虫的采集人。
这个数据和上面所有的数据都是一样的,通过前后对比可以发现更多的信息。
以下是关键字分析的数据:
关键词分析
这里的“类型”是表示这个关键词是来自网络搜索、图片搜索还是视频搜索的SEO流量。而“Last time using keywords”是统计用户在输入网站之前搜索当前关键词的字数。这个函数只对百度有效,因为百度在url中记录了用户最后一次使用的关键词。这个地方的界面还有待修改,下个版本会完善。
在“状态码分析”报告中,用户遇到的状态现在与爬虫遇到的状态码是分开的,其他没有任何变化:
状态码
这里的每一行数据分为两部分,第一部分表示哪个文件有这个状态码,第二部分表示它出现在哪个网页上。从上面的数据可以看出,这个网站正在被一些黑客工具扫描。
在《光年SEO日志分析系统》第二版中,最重要的升级是增加了“日志拆分”功能。使用此功能,您可以分析任何维度的 网站 日志。
以下是可以拆分的日志字段:
分割字段
只要你的网站日志是完整的,拥有日志拆分功能就相当于拥有了一个数据仓库。此时查看网站的数据,是:只有你想不到,没有什么是它找不到的。
比如我们要查看上面伪装成google spider的IP采集是哪些网页,我们定义分割条件为:ip equals 222.186.24. 59.如果agent等于googlebot,可以拆分日志;并查看哪些IP正在使用黑客工具扫描网站,将拆分条件定义为:url等于MIRSERVER.RAR或等于WWWROOT.RAR等可以看到。
我也建议大家多拆分爬虫的爬取轨迹,拆分一个爬虫IP的爬取路径,观察它的爬取路径,然后对应网站上的URL,可以了解爬虫很多规则抓住。
其实应该已经开发了一个日志合并功能,只是这个功能太简单了。一般我们可以在DOS下使用copy命令来解决这个问题:
复制命令
这样你就可以结合分析网站一周、一个月甚至半年的日志。《光年SEO日志分析系统》支持无限日志分析,只要你有时间。
在“设置”-“性能设置”中,有两个地方需要注意。一个是“蜘蛛计算间隔”,意思是蜘蛛即使离开了,也有多久没有活动了。这里需要注意的是,每次比对分析必须在同一时间,因为这里的时间变了,爬虫的访问次数也会变。还有一个“分析显示数”,现在可以定义报表中显示的数据行数,默认只有5行。
声明:本站所有文章,除非另有说明或标记,均发布在本站原创。任何个人或组织未经本站同意,不得复制、盗用、采集、将本站内容发布到任何网站、书籍等媒体平台。本站内容如有侵犯原作者合法权益的,您可以联系我们处理。
iis日志分析