seo网站日志分析工具(蜘蛛访问的次数、停留时间以及抓取的数量是什么?)

优采云 发布时间: 2021-09-25 05:01

  seo网站日志分析工具(蜘蛛访问的次数、停留时间以及抓取的数量是什么?)

  (一)蜘蛛访问次数、停留时间和爬行次数。

  1、平均每次爬取的页面数=总爬取次数/访问次数

  2、单页抓取停留=每次停留/每次抓取

  3、平均停留时间=总停留时间/访问次数

  以上三点来自百度百科。

  从这些数据中,我们可以看到百度蜘蛛在我们的网站的活跃度、亲和力以及我们的网站的内容爬取深度的有效数据。当我们访问网站的频率,蜘蛛所花费的时间,以及网站的爬行等级是否高,从这些就可以看出我们网站是否被蜘蛛所喜爱. 而蜘蛛在我们单页停留的时间长短,也可以判断我们的文章页面是否被蜘蛛喜爱。

  温馨提示:如果你想长期发展网站,小编建议你定期整理一下网站的数据报告,这对我们网站的发展也会很有帮助。

  (二)网站 目录蜘蛛抓取的统计信息。

  通过对网站日志的分析,我们可以看出我们哪些目录更受蜘蛛欢迎。蜘蛛经常爬行 收录 并给出排名权重。并且通过这些数据我们可以发现很多问题,可以通过内部结构指向我们想要突出的列,从而有效增加列的权重和蜘蛛爬行的程度。您还可以阻止我们不希望蜘蛛抓取的页面。

  (三)网站 页面抓取。

  通过每天的日志分析和统计,我们可以看到哪些网站页面更受蜘蛛欢迎,我们可以了解蜘蛛在这些页面上的爬行行为,例如,蜘蛛是否爬取了一些不受欢迎的页面包括。你知道这会影响我们网站其他页面的权重转移。比如编辑器的网站皮肤栏通常比名字栏更勤快,而且收录也更健康,所以现在编辑器定期在名字栏文章添加一些图片,不仅美观,还有效改善了名称栏收录,所以通过分析,我们可以阻止蜘蛛爬取这些毫无价值的页面,有效的提高我们其他页面权重的转移,

  (四)查看蜘蛛是否访问了我们的页面以及访问页面的状态码。

  很多朋友的网站首页快照经常出现异常,而网站发布的文章往往不是收录。在这种情况下,我们会怀疑蜘蛛是否已经来到我们的网站 Grab。这时候我们也可以通过网站日志来查看是否有蜘蛛IP的记录,然后就可以了解蜘蛛是否在爬取我们的网站,从而判断是否有是我们网站的质量导致了失败收录。并且还可以看到蜘蛛访问我们的网站页面的状态码,例如301、503、403等,遇到这种情况我们应该尽快处理尽量不要成为网站掉电的隐患。

  (五)了解蜘蛛爬行的时间段。

  通过每天的日志分析和总结,你会发现一件很奇妙的事情,那就是蜘蛛在每天的特定时间非常活跃地爬取网站。当我们了解到这种情况后,我们会在特定的时间更新网站的内容,这样可以更有效的让蜘蛛抓取我们的网站的内容,从而达到接收的效果在一秒钟内。

  总结:如果一个网站想要长期发展,站长必须学会分析网站日志,了解网站的日常健康状况,即使发现异常情况纠正一下,这不仅对网站有很大的帮助,还有效防止了网站因为这些异常被降级被K。

  根据不同的IP,我们可以分析网站的状态。下面是一个基于我IIS日记中百度蜘蛛IP的例子:

  这个蜘蛛经常来,其他的很少来,说明网站可能是进沙箱或者被降级了。

  如果这个IP段每天只增加,很有可能进入沙盒或K站。

  ,代访问百度蜘蛛IP,准备抢你的东东。

  这个ip段作为新站的检查周期。

  这个ip段出现在新站和站异常后。

  该 ip 段连续巡视所有站点。

  广东茂名市电信也是百度蜘蛛IP的主要组成部分,这是由许多新的在线网站,使用站长工具,或全面的SEO测试造成的。

  这是百度抓取首页的专用IP。如果是段,基本上你的网站 每天和晚上都会拍一张快照。这不会错的,我保证。

  与以上98%的首页抓取相同,也可能会抓取属于该段抓取的加权IP段文章的其他(不指内部页面)段,或者主页基本在24小时内发布。

  抓取内页收录,权重低,爬过这段的内页文章不会很快发布,因为不是原创或者采集文章。

  比较全面,主要是抓取首页和内页或者其他,属于加权IP段,抓取到的文章或者首页基本在24小时内发布。

  重点抓取和更新文章的内页达到90%,8%抓取首页,2%其他。加权的IP段,爬取的文章或者首页基本上是24小时发布的。

  专门抓取首页IP权重段,一般返回码为304 0 0,表示未更新。

  抓取内页收录,权重低,爬过这段的内页文章不会很快发布,因为不是原创或者采集文章。

  抓取内页收录,权重低,爬过这段的内页文章不会很快发布,因为不是原创或者采集文章。

  专门抓取首页IP权重段,一般返回码为304 0 0,表示未更新。

  专门抓取首页IP权重段,一般返回码为304 0 0,表示未更新。

  专门抓取首页IP权重段,一般返回码为304 0 0,表示未更新。

  专门抓取首页IP权重段,一般返回码为304 0 0,表示未更新。

  专用于抓取首页的IP权重部分,一般返回码为304 0 0,表示未更新。

  抓取内页收录,权重低,爬过这段的内页文章不会很快发布,因为不是原创或者采集文章。

  专门抓取首页IP权重段,一般返回码为304 0 0,表示未更新。

  注:以上IP尾数较多,但排名相同的段IP意味着爬取内页收录的权重相对较低。可能是因为你的采集文章 或拼写文章 暂时被收录 未发布。(意思是待定)。

  段IP主要抢占首页的80%和内页的30%。爬取到的文章或者首页肯定会在24小时内发布,连夜抓拍。这个我可以保证!

  一般爬取成功的返回码是200 0 0,304 0 0表示网站没有更新,蜘蛛一直在这里,如果是200 0 64,不用担心这不是一个K站,可能是网站是动态的,所以返回的是这段代码。

  分析网站日志无非就是观察IP,某个IP控制着你的网站生死大权。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线