抓取份额是搜索引擎蜘蛛花的抓取页面的时间上限
优采云 发布时间: 2021-05-02 19:04抓取份额是搜索引擎蜘蛛花的抓取页面的时间上限
抓取份额是搜索引擎抓取工具抓取网站上的页面所花费的总时间的上限。
一、搜索引擎蜘蛛的抓取份额是多少?
顾名思义,抓取份额是搜索引擎蜘蛛在网站上抓取页面所花费的总时间的上限。对于特定的网站,搜索引擎蜘蛛在网站上花费的总时间是相对固定的,并且它们不会无限期地抓取网站的所有页面。
用于抓取份额的英文Google是抓取预算,字面意思是抓取预算,我认为它不能解释其含义,因此我使用抓取份额来表达这一概念。
什么决定爬网份额?这涉及抓取需求和抓取速度限制。
二、抓取需求
抓取需求(抓取需求)是指搜索引擎“希望”抓取特定网站的页面数。
有两个主要因素决定爬网要求。一种是页面权重。搜索引擎想要抓取的页面数与网站上达到基本页面权重的页面一样多。第二个是索引库中的页面是否没有更新太长时间。毕竟,这是页面权重,权重较高的页面不会更新太长时间。
页面的权重与网站的权重密切相关。增加网站的权重可以使搜索引擎愿意抓取更多页面。
三、抓取速度限制
搜索引擎蜘蛛将不会向下拖动其他网站服务器以爬网更多页面,因此它们将为某个网站设置爬网率限制,即爬网率限制,即服务器可以承受在这种速度限制下,爬网程序不会降低服务器的速度,也不会影响用户访问。
服务器响应速度足够快,此速度限制会稍微提高,爬网速度会加快,服务器响应速度会降低,速度限制会降低,爬网速度会降低,甚至爬网会停止。
因此,爬网速率限制是搜索引擎可以“爬网”的页面数。