技术文章:光年SEO日志分析系统(iis日志分析)

优采云 发布时间: 2022-11-11 09:57

  技术文章:光年SEO日志分析系统(iis日志分析)

  《光年SEO日志分析系统》分析网站的IIS日志,可以分析超级日志文件。

  1. 这是第一款专为SEO设计的日志分析软件。

  之前很多日志分析软件都是顺带分析SEO数据的,这个软件分析的每一个指标都是为SEO设计的。并且很多分析维度是其他日志分析软件所没有的。这使您可以看到许多以前不可用的有用数据。

  2.可以分析无限日志,速度非常快。

  很多日志分析软件在日志大于2G的时候会越来越慢或者程序没有响应。而且这个软件可以分析无限的日志,每小时可以分析40G的日志。这对于需要分析几个月的日志,以及几十G的大型网站日志非常有帮助。

  3、可以自动判断日志格式。

  现在很多日志分析软件不支持Nginx或者CDN日志,日志记录的顺序必须要格式化。而且这个软件没有那么多限制,它可以从日志中自动检测出哪个是时间,哪个是URL,哪个是IP地址等等。

  4、软件容量小,操作简单,绿色免安装版。

  这个软件不会动不动就几十M。现在软件不到1M,用邮件附件发送很方便。软件的操作也很简单,只需三步。还有就是软件不需要安装,是绿色免安装版。

  该软件的缺点:

  目前因为解决软件效率问题需要大量的时间,所以日志分析的维度还太小,未来会逐渐增加很*敏*感*词*。另外,数据的准确性还可以,但是还有很大的提升空间。

  第二版增加了更多的分析维度,还增加了拆分日志的能力。

  我们先来看几个固定的分析维度。以下数据是我博客的日志分析数据。

  首先是“剖析”:

  剖析

  以下是每个爬虫的“访问次数”、“总停留时间”和“总抓取次数”的统计信息。从以上数据可以看出,百度爬虫的爬取深度并不高:1868次访问,爬取量为2968,平均每次爬取1.59页。这其实是百度爬虫常见的爬取特性,在大部分网站上也是一样的规律。如果爬取深度不高,很多层较深的页面将不会被爬取;并且有几个页面会被重复爬取,浪费爬虫的时间。这样一来,很多网站想在百度上弄到收录就成了难题,尤其是大中型的网站。所有我接触过的大中型网站,在刻意优化之前,很多网站 至少有一半的网页没有被百度爬虫抓取,有的网站甚至更严重。相比之下,谷歌的抓取深度要好很多,总的抓取量也更大。

  这里比较重要的数据是“总抓取量”,因为它影响网站的收录量,进而影响网站的SEO流量。在《网页加载速度如何影响SEO性能》一文中,解释了超爬与SEO流量的关系。这个“总爬取”数据的好坏取决于每个网站的实际情况。就这个网站而言,它现在有53个文章,300多个网页,现在谷歌每天抓取16484次,百度每天抓取2968次。如果单看这个数据,这300多个网页似乎一天之内应该基本可以爬完。但是很多大中的网站是不同的。

  这里我先解释一个可能有些人会混淆的问题。为什么我在上面特意解释了文章的数量和网页的数量,这是因为文章的数量绝对不等于网页的数量。但是,有些人在去查看收录时忽略了这个常识。例如,如果某个网站的文章(或单条信息的数量)为300,000,而在搜索引擎中收录的数量为290,000 site等语法,感觉我的收录的量差不多,但实际可能相差甚远。

  

  因为一个页面会衍生出许多其他页面。如果你打开一个文章页面,统计一下里面的url,去掉模板上的重复,还是有一些url只有当前页面才有,也就是从这个页面派生出来的。而一个URL对应一个页面,所以一个网站上的页面数是这个网站上信息量的几倍,有时甚至是十到二十倍。

  因此,在查看这个“总抓取量”之前,您需要计算一下您的 网站 中可能拥有的页面数。您可以使用 lynx 的在线版本来提取每种类型页面上的 URL 并查看。知道了网页的总数,再与“总爬取量”进行比较,就可以知道这个数据的好坏。我觉得基本上,如果google爬虫的爬取量是网站的2倍以上,爬取量会被认为是及格,百度爬虫需要更多。因为其实这个爬取量很多都是重复爬取的;而且与前一天相比,每天爬取的新页面并不多。

  这三个数据:“Visits”、“Total Dwell Time”和“Total Crawls”都是数值较高的网站,因此有很多方法可以改进它们。大多数时候看它们的绝对值是没有用的,而是看它们当前和过去的比较值。如果您可以跟踪数据每天的变化情况,您就可以看到有多少因素会影响数据。

  其他数据也是如此:当前数据的值有时不一定有意义,但跟踪该数据随时间的变化可以揭示有多少因素相互影响。

  然后是“目录抓取”的数据:

  目录爬取统计

  为这个“目录”爬取的数据是“总爬取量”的细分。在 网站 中,必须有关键页面和非关键页面。这些数据可以让你看到哪些类型的页面被爬得更多,并及时做出一些调整。

  另外,可以去搜索引擎根据URL特征查询各个目录下页面的收录状态,再与该目录下搜索引擎的爬取数据进行对比,发现更多问题。比如看了这个数据,可以知道一天可能爬不上300多个网页,因为大部分的爬取都在bbs目录下。(有时候这样的意外情况很多,bbs目录已经做了301跳转,没想到爬了这么多。——看数据,总能知道真相是什么。)

  然后是“页面抓取”数据:

  页面抓取

  这个数据统计了一个网站中被重复爬取的页面,分别统计了哪些爬虫已经爬了多少次。多分析几句网站就会明白,百度爬虫往往是过度爬取的常客。这个数据也验证了之前的数据:因为它平均每次爬1.59个页面,也就是每次爬都停留在表面,但是经常被爬,所以必然会导致少量的页面被经常被百度爬取。因为重复爬取的存在,一个网站只看爬取的数量,没用,还要看爬取了多少个唯一页面。还有一种方法可以解决这个问题。

  在“蜘蛛IP排名”数据中,统计了每个爬虫IP的访问情况:

  知识产权排名

  如果你分析了很多网站,你会发现爬虫访问某个站,一定时间内的IP段会集中在某个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。知道此功能有时会派上用场。

  报告中有查询IP地址的功能,可以检查那些爬虫IP是否真实。上图中红框内的IP是一个伪装成google爬虫的采集人。

  这个数据和上面所有的数据都是一样的,通过前后对比可以发现更多的信息。

  以下是关键字分析的数据:

  

  关键词分析

  这里的“类型”是表示这个关键词是来自网络搜索、图片搜索还是视频搜索的SEO流量。而“Last time using keywords”是统计用户在输入网站之前搜索当前关键词的字数。这个函数只对百度有效,因为百度在url中记录了用户最后一次使用的关键词。这个地方的界面还有待修改,下个版本会完善。

  在“状态码分析”报告中,用户遇到的状态现在与爬虫遇到的状态码是分开的,其他没有任何变化:

  状态码

  这里的每一行数据分为两部分,第一部分表示哪个文件有这个状态码,第二部分表示它出现在哪个网页上。从上面的数据可以看出,这个网站正在被一些黑客工具扫描。

  在《光年SEO日志分析系统》第二版中,最重要的升级是增加了“日志拆分”功能。使用此功能,您可以分析任何维度的 网站 日志。

  以下是可以拆分的日志字段:

  分割字段

  只要你的网站日志是完整的,拥有日志拆分功能就相当于拥有了一个数据仓库。此时查看网站的数据,是:只有你想不到,没有什么是它找不到的。

  比如我们要查看伪装成google spider的IP采集在哪些网页上,我们定义分割条件为:ip等于222.186.24.59,agent等于googlebot,那么就可以分割日志了;要查看哪些IP被黑客工具网站扫描,定义拆分条件为:url等于MIRSERVER.RAR或者等于WWWROOT.RAR等,可以看。

  我也建议大家多拆分爬虫的爬取轨迹,拆分一个爬虫IP的爬取路径,观察它的爬取路径,然后对应网站上的URL,可以了解爬虫很多规则抓住。

  其实应该已经开发了一个日志合并功能,只是这个功能太简单了。一般我们可以在DOS下使用copy命令来解决这个问题:

  复制命令

  这样你就可以结合分析网站一周、一个月甚至半年的日志。《光年SEO日志分析系统》支持无限日志分析,只要你有时间。

  在“设置”-“性能设置”中,有两个地方需要注意。一个是“蜘蛛计算间隔”,意思是蜘蛛即使离开了,也有多久没有活动了。这里需要注意的是,每次比对分析必须在同一时间,因为这里的时间变了,爬虫的访问次数也会变。还有一个“分析显示数”,现在可以定义报表中显示的数据行数,默认只有5行。

  seo网站日志分析工具 巅峰时刻:七个工具帮助你的SEO水平突飞猛进

  使用工具的能力是人类与其他动物最大的区别。如果你想在SEO方面做得很好,你必须会使用工具。今天给大家分享一些常用的SEO工具。

  1、百度营销推广

  百度营销推广平台一般用于SEM,虽然和SEO有很大区别,但是我们可以根据关键词在这个平台的价格来推断流行的关键词,最后筛选出合适的关键词来吧。

  2.百度站长平台

  我们的网站上线后,最好在百度站长平台()上进行验证,这是百度官方推出的站长工具。其中有一些搜索引擎的权威数据,比如蜘蛛抓取频率、百度索引情况等。另外,我们还可以进行死链接提交、手动/自动提交链接、提交sitemap网站maps等。

  

  3.5118平台

  5118也是一个站长平台,相信很多站长都用过。这个平台的功能非常强大,比如:大词库、监控网站关键词排名、站群运营、伪原创文章、全网文章原创度数检测等等。您可以在此 网站 上过滤和选择单词。

  4.ChinaZ/爱站

  chinaz是一个很老的网站综合SEO查询,可以查询一个网站的关键词排名、IP量、收录量等。爱站 是一支新生力量,但近年来发展迅速。与ChinaZ相比,数据更准确,时效性更小,更新时间也相对较短。两个平台的功能基本相同,大家可以根据自己的情况使用。

  5. 大型 网站 词库

  有这样的网站thesaurus爱站和5118,通过它们我们可以分析网站关键词,挖掘长尾关键词,或者查看当前行业流行的关键词、冷门关键词等,根据自己的网站情况进行针对性优化。

  

  6.网站日志分析工具

  这样的工具有很多,主要功能是快速分析服务器日志,可以看到蜘蛛什么时候来的,来了多少次,网站的主要访问区域等等。

  7. 网站统计平台

  常见的流量统计平台有:51la统计、百度统计等。该平台主要可以分析访问网站的人群、地区、年龄等。您还可以了解哪些页面/关键词 用户可以访问 网站,以及他们停留的时间。

  只要你能用好以上7个工具,用好,相信你的SEO水平会越来越高!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线