httpunit 抓取网页(搜索引擎蜘蛛花抓取份额是由什么决定的呢?说明)
优采云 发布时间: 2021-12-13 13:12httpunit 抓取网页(搜索引擎蜘蛛花抓取份额是由什么决定的呢?说明)
顾名思义,爬行份额是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间的上限。对于特定的网站,搜索引擎蜘蛛在这个网站上花费的总时间是相对固定的,不会无限爬取网站的所有页面。
Google 使用英文的 crawl budget 来抓取共享,直译为抓取预算。我不认为它可以解释它的含义,所以我使用爬网共享来表达这个概念。
什么决定了爬网份额?这涉及到爬行要求和爬行速度限制。
爬行需求
爬取需求,或者说爬取需求,指的是搜索引擎“想要”爬取多少个特定的网站页面。
有两个主要因素决定了对爬行的需求。首先是页面权重。网站上有多少页面达到基本页面权重,搜索引擎想要抓取多少个页面。二是索引库中的页面是否太长时间没有更新。毕竟是页面权重,权重高的页面不会更新太久。
页面权重和 网站 权重密切相关。增加网站的权重可以让搜索引擎愿意抓取更多的页面。
爬行速度限制
搜索引擎蜘蛛不会为了抓取更多的页面而拖拽别人的网站服务器,所以会针对某个网站设置一个抓取速度限制,即抓取速度限制,即服务器可以容忍上限,在这个速度限制内,蜘蛛爬行不会减慢服务器,影响用户访问。
服务器响应速度够快,这个限速提高一点,爬行加快,服务器响应速度降低,限速降低,爬行变慢,甚至爬行停止。
因此,抓取速度受限于搜索引擎“可以”抓取的页面数量。
什么决定了爬网份额?
爬取份额是同时考虑爬取需求和爬取速度限制的结果,即搜索引擎“想要”爬取但“能”爬取的页面数。
网站 权重高,页面内容质量高,页面多,服务器速度快,爬取份额大。
小网站不用担心抢份额
小网站页面数量少,即使网站权重低,服务器慢,不管搜索引擎蜘蛛每天爬多少,通常至少几百页可以爬取。网站又被抓取了,让网站拥有数千个页面根本不用担心抢分享。网站 有几万页通常没什么大不了的。如果每天数百次访问可以降低服务器的速度,这不是 SEO 的主要考虑因素。
大中型网站可能需要考虑抢份额
对于几十万页以上的大中型网站来说,可能需要考虑足够抢占的问题。
爬网份额是不够的。比如网站有1000万个页面,搜索引擎每天只能抓取几万个页面。捕获一次网站可能需要几个月,甚至一年的时间,这也可能意味着一些重要页面无法抓取,因此没有排名,或者重要页面无法及时更新。
想要网站页面被及时完整地抓取,首先要保证服务器足够快,页面足够小。如果网站有大量优质数据,爬取份额会受到爬取速度的限制。提高页面速度直接提高了抓取速度限制,从而增加了抓取份额。
百度站长平台和谷歌搜索控制台都有抓取数据。如下图,某网站百度的抓取频率:
上图为网站百度小后台截图。页面抓取频率和抓取时间(取决于服务器速度和页面大小)与此无关。这意味着爬网份额还没有用完,所以不用担心。
有时,爬取频率和爬取时间有一定的对应关系,如下图为另一个较大的网站:
可以看出爬取时间的提升(减小页面大小、提高服务器速度、优化数据库)明显导致爬取频率增加,导致爬取更多页面收录,再次遍历网站更快。
大网站 另一个经常需要考虑爬网份额的原因是不要把自己有限的爬网份额浪费在无意义的页面爬行上,导致重要的页面应该被爬行却没有机会被爬行。
浪费抓取共享的典型页面是:
以上页面被大量抓取,抓取份额可能用完,但应该抓取的页面没有抓取。
如何保存抓取共享?
当然,首先是减小页面文件的大小,提高服务器的速度,优化数据库,减少抓取时间。
然后,尽量避免上面列出的浪费性抢股。有些是内容质量问题,有些是网站结构问题。如果是结构问题,最简单的方法就是禁止爬取robots文件,但是会浪费一些页面权重,因为权重只能访问。
在某些情况下,使用链接 nofollow 可以节省抓取共享。小网站,添加nofollow没有意义,因为爬取份额用不完。大网站,nofollow 可以在一定程度上控制权重的流量和分配。精心设计的nofollow会降低无意义页面的权重,增加重要页面的权重。搜索引擎在爬取时会使用一个 URL 爬取列表。要抓取的网址按页面权重排序。如果增加重要页面的权重,将首先抓取重要页面。无意义页面的权重可能很低,以至于搜索引擎不想爬行。
最后几点说明:
关注我@operation优采云不定期更新互联网运营知识。如果你想学习SEO和新媒体运营,可以加我主页微信运营优采云,知无不言...
如果以上内容对您有帮助,请点个赞。