抓取网页数据(二是抓取份额是由什么决定?(图))

优采云 发布时间: 2021-12-26 09:04

  抓取网页数据(二是抓取份额是由什么决定?(图))

  什么决定了爬网份额?这涉及到爬行要求和爬行速度限制。

  

  爬行需求

  抓取需求或抓取需求是指搜索引擎“想要”在特定网站上抓取多少个页面。

  有两个主要因素决定了对爬行的需求。一是页面权重。搜索引擎希望抓取与网站上达到基本页面权重的页面一样多的页面。二是索引库中的页面是否太长时间没有更新。毕竟是页面权重,权重高的页面不会更新太久。

  页面权重和网站权重密切相关。增加网站权重可以使搜索引擎愿意抓取更多页面。

  爬行速度限制

  搜索引擎蜘蛛不会为了抓取更多的页面而拖拽其他网络服务器,因此会对某个网站设置抓取速度限制。爬网速率限制是服务器可以承受的上限。在这个限速里面,蜘蛛爬行不会拖慢服务器,影响用户访问。

  服务器响应速度够快,这个限速提高一点,爬行加快,服务器响应速度降低,限速降低,爬行变慢,甚至爬行停止。

  因此,爬网速率限制是搜索引擎“可以”爬取的页面数。

  什么决定了爬网份额?

  爬取份额是同时考虑爬取需求和爬取速度限制的结果,即搜索引擎“想要”爬取但“能”爬取的页面数。

  网站权重高,页面内容质量高,页面数量多,服务器速度够快,抓取份额大。

  小网站不用担心抢份额

  一个小网站上的页面很少。即使网站权重低,服务器慢,但无论搜索引擎蜘蛛每天爬多少,通常至少能爬上几百页。千页网站根本不用担心抢份额。拥有数万页的网站通常没什么大不了的。如果每天数百次访问会降低服务器速度,那么 SEO 就不是主要考虑因素。

  大中型网站可能需要考虑爬虫共享

  对于页面数十万以上的大中型网站,可能需要考虑爬取份额不足的问题。

  爬网份额是不够的。比如网站有1000万个页面,搜索引擎每天只能抓取几万个页面。爬取网站可能需要几个月,甚至一年的时间,这也可能意味着一些重要的页面无法抓取。,所以没有排名,或者重要页面不能及时更新。

  想要网页被及时、完整地抓取,首先要保证服务器速度够快,页面够小。如果网站有大量优质数据,抓取份额会受到抓取速度的限制。提高页面速度直接提高了抓取速度限制,从而增加了抓取份额。

  如何保存抓取共享?

  当然,首先是减小页面文件的大小,提高服务器的速度,优化数据库,减少抓取时间。

  然后,尽量避免上面列出的浪费性抢股。有些是内容质量问题,有些是网站结构问题。如果是结构问题,最简单的方法就是禁止爬取robots文件,但是会浪费一些页面权重,因为权重只能输入不能退出。

  在某些情况下,使用链接 nofollow 属性可以节省抓取共享。对于小网站,添加nofollow是没有意义的,因为爬取份额用不完。对于大型网站,nofollow 可以在一定程度上控制权重的流量和分配。精心设计的nofollow会降低无意义页面的权重,增加重要页面的权重。搜索引擎在爬取时会使用一个 URL 爬取列表。要抓取的网址按页面权重排序。如果增加重要页面的权重,将首先抓取重要页面。无意义页面的权重可能很低,以至于搜索引擎不想爬行。

  最后几点说明:

  Links 和nofollow 不会浪费爬取分享。但在谷歌,重量被浪费了。

  noindex 标签无法保存爬网共享。如果搜索引擎知道页面上有noindex标签,它必须先爬取这个页面,所以它不保存爬取份额。

  规范标签有时可以节省一些爬网份额。和noindex标签一样,搜索引擎如果知道页面上有canonical标签,就必须先爬取这个页面,所以不直接保存爬取份额。但是,带有规范标签的页面通常被抓取的频率较低,因此会节省一些抓取份额。

  抓取速度和抓取份额不是排名因素。但是没有被抓取的页面是无法排名的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线