seo网站日志分析工具(《光年SEO日志分析系统》对网站的IIS日志进行分析)

优采云发布时间: 2022-03-06 16:05

　　《光年SEO日志分析系统》分析网站的IIS日志，可以分析超级日志文件。

　　1. 这是第一款专为SEO设计的日志分析软件。

　　之前很多日志分析软件都是顺带分析SEO数据的，这个软件分析的每一个指标都是为SEO设计的。并且很多分析维度是其他日志分析软件所没有的。这使您可以看到许多以前不可用的有用数据。

　　2.可以分析无限日志，速度非常快。

　　很多日志分析软件在日志大于2G的时候会越来越慢或者程序没有响应。而且这个软件可以分析无限的日志，每小时可以分析40G的日志。这对于需要分析几个月的日志，以及几十G的大型网站日志非常有帮助。

　　3、可以自动判断日志格式。

　　现在很多日志分析软件不支持Nginx或者CDN日志，日志记录的顺序必须要格式化。而且这个软件没有那么多限制，它可以从日志中自动检测出哪个是时间，哪个是URL，哪个是IP地址等等。

　　4、软件容量小，操作简单，绿色免安装版。

　　这个软件不会动不动就几十M。现在软件不到1M，用邮件附件发送很方便。软件的操作也很简单，只需三步。还有就是软件不需要安装，是绿色免安装版。

　　该软件的缺点：

　　目前因为解决软件效率问题需要大量的时间，所以日志分析的维度还太小，未来会逐渐增加很*敏*感*词*。另外，数据的准确性还可以，但是还有很大的提升空间。

　　第二版增加了更多的分析维度，还增加了拆分日志的能力。

　　我们先来看几个固定的分析维度。以下数据是我博客的日志分析数据。

　　首先是“剖析”：

　　剖析

　　以下是每个爬虫的“访问次数”、“总停留时间”和“总抓取次数”的统计信息。从以上数据可以看出，百度爬虫的爬取深度并不高：1868次访问，2968次爬取，平均每次爬取1.59页。这其实是百度爬虫常见的爬取特性，在大部分网站上也是一样的规律。如果爬取深度不高，很多层较深的页面将不会被爬取；并且有几个页面会被重复爬取，浪费爬虫的时间。这样一来，很多网站想在百度上弄到收录就成了难题，尤其是大中型的网站。所有我接触过的大中型网站，在刻意优化之前，很多网站至少有一半的网页没有被百度爬虫抓取，有些网站甚至更严重。相比之下，谷歌的抓取深度要好很多，总的抓取量也更大。

　　这里比较重要的数据是“总抓取量”，因为它影响网站的收录量，进而影响网站的SEO流量。在《网页加载速度如何影响SEO性能》一文中，解释了超爬与SEO流量的关系。这个“总爬取”数据的好坏取决于每个网站的实际情况。就这个网站而言，它现在有53个文章，300多个网页，现在谷歌每天抓取16484次，百度每天抓取2968次。如果单看这个数据，这300多个网页似乎一天之内应该基本可以爬完。但是很多大中的网站是不同的。

　　这里我先解释一个可能有些人会混淆的问题。为什么我在上面特意解释了文章的数量和网页的数量，这是因为文章的数量绝对不等于网页的数量。但是，有些人在去查看收录时忽略了这个常识。例如，如果某个网站的文章（或单条信息的数量）为300,000，而在搜索引擎中收录的数量为290,000 site等语法，感觉我的收录的量差不多，但实际可能相差甚远。

　　因为一个页面会衍生出许多其他页面。如果你打开一个文章页面，统计一下里面的url，去掉模板上的重复，还是有一些url只有当前页面才有，也就是从这个页面派生出来的。而一个URL对应一个页面，所以一个网站上的页面数是这个网站上信息量的几倍，有时甚至是十到二十倍。

　　因此，在查看这个“总抓取量”之前，您需要计算一下您的网站中可能拥有的页面数。您可以使用 lynx 的在线版本来提取每种类型页面上的 URL 并查看。知道了网页的总数，再与“总爬取量”进行比较，就可以知道这个数据的好坏。我觉得基本上，如果google爬虫的爬取量是网站的2倍以上，爬取量会被认为是及格，百度爬虫需要更多。因为其实这个爬取量很多都是重复爬取的；而且与前一天相比，每天爬取的新页面并不多。

　　这三个数据：“Visits”、“Total Dwell Time”和“Total Crawls”都是数值较高的网站，因此有很多方法可以改进它们。大多数时候看它们的绝对值是没有用的，而是看它们当前和过去的比较值。如果您可以跟踪数据每天的变化情况，您就可以看到有多少因素会影响数据。

　　其他数据也是如此：当前数据的值有时不一定有意义，但跟踪该数据随时间的变化可以揭示有多少因素相互影响。

　　然后是“目录抓取”的数据：

　　目录爬取统计

　　为这个“目录”爬取的数据是“总爬取量”的细分。在网站中，必须有关键页面和非关键页面。这些数据可以让你看到哪些类型的页面被爬得更多，并及时做出一些调整。

　　另外，可以去搜索引擎根据URL特征查询各个目录下页面的收录状态，再与该目录下搜索引擎的爬取数据进行对比，发现更多问题。比如看了这个数据，可以知道一天可能爬不上300多个网页，因为大部分的爬取都在bbs目录下。（有时候这样的意外情况很多，bbs目录已经做了301跳转，没想到爬了这么多。——看数据，总能知道真相是什么。）

　　然后是“页面抓取”数据：

　　页面抓取

　　这个数据统计了一个网站中被重复爬取的页面，分别统计了哪些爬虫已经爬了多少次。多分析几句网站就会明白，百度爬虫往往是过度爬取的常客。这个数据也验证了之前的数据：因为它平均每次爬1.59页，也就是每次爬都停留在表面，但是爬的比较频繁，所以必然会导致小经常被抓取的页面数。百度抓取的。因为重复爬取的存在，一个网站只看爬取的数量，没用，还要看爬取了多少个唯一页面。还有一种方法可以解决这个问题。

　　在“蜘蛛IP排名”数据中，统计了每个爬虫IP的访问情况：

　　知识产权排名

　　如果你分析了很多网站，你会发现爬虫访问某个站，一定时间内的IP段会集中在某个C段。这是由搜索引擎的原理决定的，感兴趣的朋友可以查询相关书籍。知道此功能有时会派上用场。

　　报告中有查询IP地址的功能，可以检查那些爬虫IP是否真实。上图中红框内的IP是一个伪装成google爬虫的采集人。

　　这个数据和上面所有的数据都是一样的，通过前后对比可以发现更多的信息。

　　以下是关键字分析的数据：

　　关键词分析

　　这里的“类型”是表示这个关键词是来自网络搜索、图片搜索还是视频搜索的SEO流量。而“Last time using keywords”是统计用户在输入网站之前搜索当前关键词的字数。这个函数只对百度有效，因为百度在url中记录了用户最后一次使用的关键词。这个地方的界面还有待修改，下个版本会完善。

　　在“状态码分析”报告中，用户遇到的状态现在与爬虫遇到的状态码是分开的，其他没有任何变化：

　　状态码

　　这里的每一行数据分为两部分，第一部分表示哪个文件有这个状态码，第二部分表示它出现在哪个网页上。从上面的数据可以看出，这个网站正在被一些黑客工具扫描。

　　在《光年SEO日志分析系统》第二版中，最重要的升级是增加了“日志拆分”功能。使用此功能，您可以分析任何维度的网站日志。

　　以下是可以拆分的日志字段：

　　分割字段

　　只要你的网站日志是完整的，拥有日志拆分功能就相当于拥有了一个数据仓库。此时查看网站的数据，是：只有你想不到，没有什么是它找不到的。

　　比如我们要查看上面伪装成google spider的IP采集是哪些网页，我们定义分割条件为：ip equals 222.186.24. 59.如果agent等于googlebot，可以拆分日志；并查看哪些IP正在使用黑客工具扫描网站，将拆分条件定义为：url等于MIRSERVER.RAR或等于WWWROOT.RAR等可以看到。

　　我也建议大家多拆分爬虫的爬取轨迹，拆分一个爬虫IP的爬取路径，观察它的爬取路径，然后对应网站上的URL，可以了解爬虫很多规则抓住。

　　其实应该已经开发了一个日志合并功能，只是这个功能太简单了。一般我们可以在DOS下使用copy命令来解决这个问题：

　　复制命令

　　这样你就可以结合分析网站一周、一个月甚至半年的日志。《光年SEO日志分析系统》支持无限日志分析，只要你有时间。

　　在“设置”-“性能设置”中，有两个地方需要注意。一个是“蜘蛛计算间隔”，意思是蜘蛛即使离开了，也有多久没有活动了。这里需要注意的是，每次比对分析必须在同一时间，因为这里的时间变了，爬虫的访问次数也会变。还有一个“分析显示数”，现在可以定义报表中显示的数据行数，默认只有5行。

　　声明：本站所有文章，除非另有说明或标记，均发布在本站原创。任何个人或组织未经本站同意，不得复制、盗用、采集、将本站内容发布到任何网站、书籍等媒体平台。本站内容如有侵犯原作者合法权益的，您可以联系我们处理。

　　iis日志分析

0

2022-03-06

seo网站日志分析工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo网站日志分析工具(《光年SEO日志分析系统》对网站的IIS日志进行分析)

0 个评论

发起人

AI时代内容工厂

seo网站日志分析工具(《光年SEO日志分析系统》对网站的IIS日志进行分析)

0 个评论

发起人

相关问题