搜索引擎优化seo每天一贴(Google新的SEO代言人GaryIllyes帖子里的后续跟进内容)

优采云发布时间: 2022-02-18 23:25

　　一月份，谷歌新任 SEO 发言人 Gary Illyes 在谷歌官方博客上发表了一篇文章：What Crawl Budget Means for Googlebot，讨论了与搜索引擎蜘蛛爬取份额相关的问题。对于大中型网站来说，这是一个非常重要的SEO问题，有时会成为网站有机流量的瓶颈。

　　今天的帖子总结了Gary Illyes的帖子的主要内容以及后面的很多博客和论坛帖子，以及我自己的一些案例和理解。

　　需要强调的是，以下概念也适用于百度。

　　什么是搜索引擎蜘蛛的抓取份额？

　　顾名思义，抓取份额是搜索引擎蜘蛛在网站上抓取页面所花费的总时间。对于一个特定的网站，搜索引擎蜘蛛在这个网站上花费的总时间是相对恒定的，不会无限期地抓取网站所有页面。

　　crawl share的英文谷歌使用crawl budget，直译为crawl budget。我不认为它可以解释它的含义，所以我用爬网分享来表达这个概念。

　　什么决定了抓取份额？它涉及抓取需求和抓取速率限制。

　　抓取需求

　　抓取需求，crawl demand，是指搜索引擎“想要”抓取特定网站的页面数。

　　有两个主要因素决定了爬行需求。首先是页面重量。网站上的页数达到基本页重，搜索引擎想爬多少页。二是索引库中的页面是否太久没有更新。说到底，还是页面权重。权重高的页面很长一段时间都不会更新。

　　页面权重和网站权重密切相关。增加网站权重将使搜索引擎愿意爬取更多页面。

　　抓取速度限制

　　搜索引擎蜘蛛不会为了爬取更多的页面而拖拽其他网站服务器，所以某一个网站会设置一个爬取率限制，爬取率限制，也就是服务器可以达到的上限承担，在这个速度限制内，蜘蛛爬行不会拖慢服务器，影响用户访问。

　　服务器响应速度够快，将限速提高一点，爬取加速，服务器响应速度降低，限速降低，爬取减慢，甚至停止爬取。

　　因此，抓取速度限制是搜索引擎“可以”抓取的页面数。

　　什么决定了抓取份额？

　　爬取份额是同时考虑了爬取需求和爬取速度限制的结果，即搜索引擎“想”爬取和“能够”同时爬取的页面数量。

　　网站权重高，页面内容质量高，页面够多，服务器速度够快，爬取份额大。

　　小网站不用担心抢股

　　小网站页数少，即使网站权重低，服务器慢，搜索引擎蜘蛛每天爬的少，一般至少几百页就可以了爬行，十天就能吃饱。网站爬取一次，所以网站的数千个页面完全不用担心爬取份额。网站几万页一般没什么大不了的。如果每天数百次访问会减慢服务器速度，那么 SEO 就不是主要问题。

　　中到大网站可能需要考虑爬取共享

　　几十万页以上的大中型网站可能需要考虑爬取份额是否够用。

　　抓取份额不够。比如网站有1000万个页面，而搜索引擎每天只能抓取几万个页面，所以一次网站可能需要几个月甚至一年的时间。一些重要页面无法爬取，所以没有排名，或者重要页面无法及时更新。

　　为了让网站页面被及时和充分的爬取，服务器必须足够快，页面必须足够小。如果网站有大量优质数据，爬取份额会受到爬取率的限制，提高页面速度会直接提高爬取率限制，从而提高爬取份额。

　　百度站长平台和谷歌搜索控制台都有数据抓取。下图是一个网站的百度爬取频率：

　　上图是每天为SEO发布的一个小网站。页面爬取频率和爬取时间（取决于服务器速度和页面大小）相互无关，说明爬取份额没有用完，不用担心。

　　有时候，爬取频率和爬取时间有一定的对应关系，如下图网站较大：

　　可以看出，爬取时间的提高（减小页面大小、提高服务器速度、优化数据库）明显导致爬取频率增加，从而爬取更多页面收录，遍历一次网站更快。

　　Google Search Console 中较大网站的示例：

　　顶部是爬取的页面数，中间是爬取的数据量。除非服务器出现故障，否则这两个应该是对应的。底部是页面抓取时间。可以看到，页面下载速度快到每天爬几百万个页面。

　　当然，如前所述，能爬上百万页是一回事，但搜索引擎要不要爬则是另一回事。

　　大网站另一个你经常需要考虑爬取份额的原因是不要把你有限的爬取份额浪费在无意义的页面爬取上，让应该爬取的重要页面没有机会被爬取。

　　浪费爬网共享的典型页面是：

　　许多过滤过滤器页面。几年前，在一篇关于无效 URL 抓取索引的帖子中对此进行了详细讨论。

　　复制网站内容

　　低质量，垃圾邮件

　　无限页面，如日历

　　以上页面被大量爬取，爬取份额可能用完，但应该爬取的页面却没有被爬取。

　　如何保存抓取份额？

　　当然首先是减小页面文件大小，提高服务器速度，优化数据库，减少爬取时间。

　　然后，尽量避免上面列出的那些浪费爬取份额的事情。有些是内容质量问题，有些是网站结构问题。如果是结构问题，最简单的办法就是禁止抓取robots文件，但是会浪费一些页面权重，因为权重只能进入，不能访问。

　　在某些情况下，使用链接 nofollow 属性可以节省爬网共享。小网站，既然爬取份额用不完，加nofollow就没意义了。大网站，nofollow可以在一定程度上控制权重的流动和分配。一个精心设计的nofollow会减少无意义页面的权重，增加重要页面的权重。爬取时，搜索引擎将使用 URL 爬取列表。要爬取的 URL 按页面权重排序。如果重要页面的权重增加，将首先抓取它们。无意义页面的权重可能非常低，以至于搜索引擎不想抓取它们。

　　最后的几点说明：

　　链接加nofollow 不会浪费抓取份额。但这在谷歌是浪费重量。

　　noindex 标记不保存爬网共享。如果搜索引擎需要知道页面上有noindex标签，就得先爬取页面，所以不保存爬取份额。

　　规范标签有时可以节省一点爬网份额。和noindex标签一样，如果搜索引擎知道页面上有canonical标签，就得先爬取页面，所以不直接保存爬取份额。但是带有规范标签的页面通常很少被抓取，因此您节省了一点抓取份额。

　　爬取率和爬取份额不是排名因素。但是没有被爬取的页面是没有排名的。

0

2022-02-18

搜索引擎优化seo每天一贴

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化seo每天一贴(Google新的SEO代言人GaryIllyes帖子里的后续跟进内容)

0 个评论

发起人

AI时代内容工厂

搜索引擎优化seo每天一贴(Google新的SEO代言人GaryIllyes帖子里的后续跟进内容)

0 个评论

发起人

相关问题