在线抓取网页(几个暗含抓取算法:宽度优先抓取哪些页面却需要算法)
优采云 发布时间: 2021-11-22 11:16在线抓取网页(几个暗含抓取算法:宽度优先抓取哪些页面却需要算法)
搜索引擎看似简单的爬虫查询工作,但每个链接所隐含的算法却非常复杂。搜索引擎抓取页面是由蜘蛛完成的。爬取动作很容易实现,但是要爬取哪些页面,先爬取哪些页面需要算法来决定。以下是一些爬行算法:
1、宽度优先的爬取策略:
我们都知道大部分网站页面都是按照树状图分布的,那么在树状图的链接结构中,哪些页面会先被爬取呢?为什么要先抓取这些页面?宽度优先的获取策略是按照树状结构先获取同级链接,等同级链接获取完成后再获取下一级链接。
如您所见,当我声明时,我使用了链接结构而不是 网站 结构。这里的链接结构可以由指向任何页面的链接组成,不一定是网站内部链接。这是一种理想化的宽度优先爬行策略。在实际爬取过程中,不可能先想到全宽,先想到限宽。
当我们的Spider检索G链接时,通过算法发现G页面没有任何价值,于是悲剧的G链接和从属的H链接被Spider统一了。至于为什么会统一G环节?嗯,我们来分析一下。
2、不完整的遍历链接权重计算:
每个搜索引擎都有一套pagerank(指页面权重,不是googlePR)的计算方法,并且经常更新。互联网几乎是无限的,每天都会产生大量的新链接。搜索引擎在计算链接权重时只能进行不完全遍历。为什么GooglePR需要每三个月更新一次?为什么百度一个月更新1-2两次?这是因为搜索引擎使用不完全遍历链接权重算法来计算链接权重。其实按照现在的技术,实现更快的权重更新并不难。计算速度和存储速度完全可以跟得上,但为什么不这样做呢?因为不是那么必要,或者已经实施了,但我不想公布。然后,
我们形成一组K个链接,R代表链接获得的pagerank,S代表链接收录的链接数,Q代表是否参与传递,代表阻尼因子,那么得到的权重计算公式通过链接是: