搜索引擎如何抓取网页(搜索引擎爬虫系统中待URL抓取队列的方法及解决方法)

优采云 发布时间: 2022-03-13 14:26

  搜索引擎如何抓取网页(搜索引擎爬虫系统中待URL抓取队列的方法及解决方法)

  在搜索引擎爬虫系统中,待爬取的URL队列是一个非常关键的部分。将需要搜索引擎抓取的网页的URL排列成队列结构。调度器从队列头中取出某个URL,发送到网页下载页面内容,每个新下载的页面都收录URL队列的尾部,这样就形成了一个循环,整个搜索引擎爬虫系统可以据说是被这个队列赶走了。

  

  图(搜索引擎爬取过程)

  要爬取的 URL 队列中的页面是如何确定的?如上所述将收录在新下载页面中的链接附加到队列末尾当然是确定队列中 URL 顺序的一种方法,但它不是唯一的方法。搜索引擎的不同爬取策略采用不同的方法来确定待爬取URL队列中URL的优先级顺序。

  搜索引擎的爬取策略有很多种,但无论采用哪种方法,基本目标都是一样的:优先抓取重要的页面。在搜索引擎爬虫系统中,所谓网页的重要性可以通过不同的方法来判断,但大多是根据网页的流行度来定义的。

  广度优先遍历是一种非常简单直观的遍历方法,历史悠久。自搜索引擎爬虫出现以来,它就被采用了。新提出的爬取策略经常使用这种方法作为比较的基准。但是,需要注意的是,这种策略也是一种非常强大的方法。很多新方法的实际效果不一定比广度优先遍历策略好,所以这种方法也是很多实际搜索引擎爬虫系统采用的首选爬取策略。.

  那么,什么是广度优先遍历呢?其实上面所说的“将新下载的网页中收录的链接直接添加到待抓取的URL队列的末尾”就是广度优先遍历的思想。也就是说,该方法没有明确提出和使用网页重要性度量,只是机械地从下载的网页中提取链接,附加到待爬取的URL队列中,从而安排URL的下载顺序。假设队列最前面的网页为1号网页,从1号网页中提取3个链接到2号、3号和4号网页,然后放入待抓取的URL队列中编号顺序。图中网页的编号 是该网页在待爬取的URL队列中的序号,

  实验表明,这种策略效果很好。虽然看起来很机械,但实际的网页爬取顺序基本上是按照网页的重要性排序的。这样做的原因是,有研究人员认为,如果一个网页收录大量的传入链接,则更有可能被广度优先遍历策略及早捕获,而传入链接的数量从侧面,也就是其实广度优先的遍历策略隐含了一些网页优先级的假设。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线