抓取网页数据(二是抓取份额是由什么决定？(图))

优采云发布时间: 2021-12-26 09:04

　　什么决定了爬网份额？这涉及到爬行要求和爬行速度限制。

　　爬行需求

　　抓取需求或抓取需求是指搜索引擎“想要”在特定网站上抓取多少个页面。

　　有两个主要因素决定了对爬行的需求。一是页面权重。搜索引擎希望抓取与网站上达到基本页面权重的页面一样多的页面。二是索引库中的页面是否太长时间没有更新。毕竟是页面权重，权重高的页面不会更新太久。

　　页面权重和网站权重密切相关。增加网站权重可以使搜索引擎愿意抓取更多页面。

　　爬行速度限制

　　搜索引擎蜘蛛不会为了抓取更多的页面而拖拽其他网络服务器，因此会对某个网站设置抓取速度限制。爬网速率限制是服务器可以承受的上限。在这个限速里面，蜘蛛爬行不会拖慢服务器，影响用户访问。

　　服务器响应速度够快，这个限速提高一点，爬行加快，服务器响应速度降低，限速降低，爬行变慢，甚至爬行停止。

　　因此，爬网速率限制是搜索引擎“可以”爬取的页面数。

　　什么决定了爬网份额？

　　爬取份额是同时考虑爬取需求和爬取速度限制的结果，即搜索引擎“想要”爬取但“能”爬取的页面数。

　　网站权重高，页面内容质量高，页面数量多，服务器速度够快，抓取份额大。

　　小网站不用担心抢份额

　　一个小网站上的页面很少。即使网站权重低，服务器慢，但无论搜索引擎蜘蛛每天爬多少，通常至少能爬上几百页。千页网站根本不用担心抢份额。拥有数万页的网站通常没什么大不了的。如果每天数百次访问会降低服务器速度，那么 SEO 就不是主要考虑因素。

　　大中型网站可能需要考虑爬虫共享

　　对于页面数十万以上的大中型网站，可能需要考虑爬取份额不足的问题。

　　爬网份额是不够的。比如网站有1000万个页面，搜索引擎每天只能抓取几万个页面。爬取网站可能需要几个月，甚至一年的时间，这也可能意味着一些重要的页面无法抓取。，所以没有排名，或者重要页面不能及时更新。

　　想要网页被及时、完整地抓取，首先要保证服务器速度够快，页面够小。如果网站有大量优质数据，抓取份额会受到抓取速度的限制。提高页面速度直接提高了抓取速度限制，从而增加了抓取份额。

　　如何保存抓取共享？

　　当然，首先是减小页面文件的大小，提高服务器的速度，优化数据库，减少抓取时间。

　　然后，尽量避免上面列出的浪费性抢股。有些是内容质量问题，有些是网站结构问题。如果是结构问题，最简单的方法就是禁止爬取robots文件，但是会浪费一些页面权重，因为权重只能输入不能退出。

　　在某些情况下，使用链接 nofollow 属性可以节省抓取共享。对于小网站，添加nofollow是没有意义的，因为爬取份额用不完。对于大型网站，nofollow 可以在一定程度上控制权重的流量和分配。精心设计的nofollow会降低无意义页面的权重，增加重要页面的权重。搜索引擎在爬取时会使用一个 URL 爬取列表。要抓取的网址按页面权重排序。如果增加重要页面的权重，将首先抓取重要页面。无意义页面的权重可能很低，以至于搜索引擎不想爬行。

　　最后几点说明：

　　Links 和nofollow 不会浪费爬取分享。但在谷歌，重量被浪费了。

　　noindex 标签无法保存爬网共享。如果搜索引擎知道页面上有noindex标签，它必须先爬取这个页面，所以它不保存爬取份额。

　　规范标签有时可以节省一些爬网份额。和noindex标签一样，搜索引擎如果知道页面上有canonical标签，就必须先爬取这个页面，所以不直接保存爬取份额。但是，带有规范标签的页面通常被抓取的频率较低，因此会节省一些抓取份额。

　　抓取速度和抓取份额不是排名因素。但是没有被抓取的页面是无法排名的。

0

2021-12-26

抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据(二是抓取份额是由什么决定？(图))

0 个评论

发起人