Google新的SEO代言人GaryIllyes帖子的主要内容总结

优采云 发布时间: 2021-06-13 05:14

  Google新的SEO代言人GaryIllyes帖子的主要内容总结

  1 月,Google 新任 SEO 发言人 Gary Illyes 在 Google 官方博客上发布了一篇文章:What Crawl Budget Means for Googlebot,讨论与搜索引擎蜘蛛的抓取份额相关的问题。对于大中型网站来说,这是一个非常重要的SEO问题,有时会成为网站自然流量的瓶颈。

  今天的帖子总结了 Gary Illyes 帖子的主要内容以及后续的许多博客和论坛帖子,以及我自己的一些案例和理解。

  我想强调的是,以下概念也适用于百度。

  搜索引擎蜘蛛的抓取份额是多少?

  顾名思义,爬行份额是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间的上限。对于特定的网站,搜索引擎蜘蛛在这个网站上花费的总时间是相对固定的,不会无限期地爬取网站的所有页面。

  英文google for crawling share是crawl budget,直译为爬行预算,我觉得不能解释什么意思,所以我用crawl share来表达这个概念。

  什么决定了抓取份额?这涉及到爬行需求和爬行速度限制。

  获取需求

  Crawl demand,抓取需求,指的是搜索引擎“想要”抓取一个特定网站的页面数量。

  有两个主要因素决定了抓取要求。一是页面权重。 网站上有多少页面达到基本页面权重,搜索引擎想要抓取多少页面。二是索引库中的页面是否太长时间没有更新。毕竟是页面权重,权重高的页面不会更新太久。

  页面的权重与网站重重的权重密切相关。增加网站的权重可以让搜索引擎愿意抓取更多页面。

  爬行速度限制

  搜索引擎蜘蛛不会为了抓取更多的页面而拖拽其他网站服务器,所以他们会为某个网站设置一个爬取速率限制,即爬取速率限制,即服务器可以承受的范围内这个速度限制,蜘蛛爬行不会拖慢服务器,影响用户访问。

  服务器响应速度够快,这个限速提高一点,爬行加快,服务器响应速度降低,限速降低,爬行变慢,甚至爬行停止。

  因此,抓取速度限制是搜索引擎“可以”抓取的页面数。

  什么决定了抓取份额?

  抓取份额是同时考虑抓取需求和抓取速度限制的结果,即搜索引擎“想要”抓取但同时“可以”抓取的页面数。

  网站权重高,页面内容质量高,页面数量多,服务器速度快,抓取份额大。

  Little网站不用担心抢分享

  小网站页面数量少,即使网站权重低,服务器慢,不管搜索引擎蜘蛛每天爬多少,通常至少几百个页面可以被抓取。我又爬了一遍,所以拥有数千页的网站根本不用担心抢分享。 网站 数万页通常没什么大不了的。如果每天数百次访问会降低服务器速度,那么 SEO 就不是主要考虑因素。

  大中型网站可能需要考虑抢份额

  对于几十万页以上的大中型网站来说,可能需要考虑足够抢购的问题。

  抓取份额不够。比如网站有1000万个页面,搜索引擎每天只能抓取几万个页面。捕获网站一次可能需要几个月甚至一年的时间,这也可能意味着一些重要的页面无法抓取,因此没有排名,或者重要页面无法及时更新。

  为了让网站页面被及时完整地抓取,首先服务器必须足够快,页面足够小。如果网站有大量优质数据,爬取份额会受到爬取速度的限制。提高页面速度直接提高抓取速度限制,从而增加抓取份额。

  百度站长平台和谷歌搜索控制台都有抓取数据。如下图所示,网站百度的抓取频率:

  

  上图是seo每天发的小网站。页面爬取频率和爬取时间(取决于服务器速度和页面大小)没有任何关系,说明爬取份额没有用完。担心。

  有时候爬取频率和爬取时间有一定的对应关系,如下图,另一个更大的网站:

  

  可以看出爬取时间的提升(页面大小的减少、服务器速度的提高、数据库的优化)明显导致了爬取频率的增加,导致更多的页面被爬取收录,更快地遍历网站。

  Google Search Console 中较大网站的示例:

  

  顶部是抓取的页面数,中间是抓取的数据量。除非服务器出现故障,这两个应该是对应的。底部是页面抓取时间。可以看到,页面下载速度已经够快了,每天爬几百万页面都没问题。

  当然,如前所述,能够抓取百万页面是一方面,但搜索引擎是否要抓取是另一个方面。

  大网站 另一个经常需要考虑爬网份额的原因是不要把自己有限的爬网份额浪费在无意义的页面爬行上,导致重要的页面应该被爬行却没有机会被爬行。 .

  浪费抓取份额的典型页面是:

  大量过滤和过滤页面。这一点在几年前关于无效的URL爬取索引的帖子中详细讨论过。低质量内容、垃圾邮件日历等的无限页面复制到网站

  以上页面被大量抓取,抓取份额可能用完,但应该抓取的页面没有抓取。

  如何保存抓取共享?

  当然,首先是减小页面文件大小,提高服务器速度,优化数据库,减少抓取时间。

  然后,尽量避免上面列出的浪费性抢股。有些是内容质量问题,有些是网站结构问题。如果是结构问题,最简单的方法就是禁止爬取robots文件,但是会浪费一些页面权重,因为权重只能输入。

  在某些情况下,使用链接 nofollow 属性可以节省抓取共享。小网站,因为爬取份额用不完,加nofollow就没意义了。大网站,nofollow 可以在一定程度上控制权重的流动和分配。精心设计的nofollow会降低无意义页面的权重,增加重要页面的权重。搜索引擎在爬取时会使用一个 URL 爬取列表。要抓取的网址按页面权重排序。如果增加重要页面的权重,将首先抓取重要页面。无意义页面的权重可能很低,以至于搜索引擎不想抓取。

  最后几条指令:

  链接和nofollow 不会浪费爬行共享。但在谷歌,重量被浪费了。 noindex 标记无法保存爬网共享。如果搜索引擎知道某个页面上有 noindex 标签,它必须先爬取这个页面,所以它不会保存爬取份额。规范标签有时可以节省一些爬网份额。和noindex标签一样,搜索引擎如果知道页面上有canonical标签,就必须先爬取这个页面,所以不直接保存爬取份额。但是带有规范标签的页面通常被抓取的频率较低,因此会节省一些抓取份额。抓取速度和抓取份额不是排名因素。但是没有被抓取的页面无法进行排名。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线