在线抓取网页(几个暗含抓取算法：宽度优先抓取哪些页面却需要算法)

优采云发布时间: 2021-11-22 11:16

　　搜索引擎看似简单的爬虫查询工作，但每个链接所隐含的算法却非常复杂。搜索引擎抓取页面是由蜘蛛完成的。爬取动作很容易实现，但是要爬取哪些页面，先爬取哪些页面需要算法来决定。以下是一些爬行算法：

　　1、宽度优先的爬取策略：

　　我们都知道大部分网站页面都是按照树状图分布的，那么在树状图的链接结构中，哪些页面会先被爬取呢？为什么要先抓取这些页面？宽度优先的获取策略是按照树状结构先获取同级链接，等同级链接获取完成后再获取下一级链接。

　　如您所见，当我声明时，我使用了链接结构而不是网站结构。这里的链接结构可以由指向任何页面的链接组成，不一定是网站内部链接。这是一种理想化的宽度优先爬行策略。在实际爬取过程中，不可能先想到全宽，先想到限宽。

　　当我们的Spider检索G链接时，通过算法发现G页面没有任何价值，于是悲剧的G链接和从属的H链接被Spider统一了。至于为什么会统一G环节？嗯，我们来分析一下。

　　2、不完整的遍历链接权重计算：

　　每个搜索引擎都有一套pagerank（指页面权重，不是googlePR）的计算方法，并且经常更新。互联网几乎是无限的，每天都会产生大量的新链接。搜索引擎在计算链接权重时只能进行不完全遍历。为什么GooglePR需要每三个月更新一次？为什么百度一个月更新1-2两次？这是因为搜索引擎使用不完全遍历链接权重算法来计算链接权重。其实按照现在的技术，实现更快的权重更新并不难。计算速度和存储速度完全可以跟得上，但为什么不这样做呢？因为不是那么必要，或者已经实施了，但我不想公布。然后，

　　我们形成一组K个链接，R代表链接获得的pagerank，S代表链接收录的链接数，Q代表是否参与传递，代表阻尼因子，那么得到的权重计算公式通过链接是：

0

2021-11-22

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页(几个暗含抓取算法：宽度优先抓取哪些页面却需要算法)

0 个评论

发起人