网页采集器的自动识别算法(网络爬虫又称为网络蜘蛛常见的抓取策略~(组图))
优采云 发布时间: 2022-01-11 23:07网页采集器的自动识别算法(网络爬虫又称为网络蜘蛛常见的抓取策略~(组图))
网络爬虫,又称网络蜘蛛,是根据一定的逻辑和算法从互联网上爬取和下载网页的计算机程序,是搜索引擎的重要组成部分。一般爬虫从*敏*感*词*url的一部分开始,按照一定的策略开始爬取。将爬取的新url放入爬取队列,然后进行新一轮的爬取,直到爬取完成。
在爬虫系统中,待爬取的 URL 队列是一个重要的部分。待爬取的URL队列中的URL的排列顺序也是一个重要的问题,因为它涉及到先爬到哪个页面,再爬到哪个页面。确定这些 URL 排列顺序的方法称为爬取策略。网络爬虫的爬取策略有很多,但不管是什么方法,基本目标都是一样的:首先选择重要的网页进行爬取。一起来看看Apocalypse常见的爬取策略吧~
一、呼吸第一
广度优先遍历的核心是将新下载的网页中收录的链接直接附加到待爬取的URL队列的末尾。也就是说,该方法没有明确提出和使用网页重要性的度量,只是机械地从新下载的网页中提取链接,并附加到待爬取的URL队列中,从而安排URL的下载顺序。
二、OCIP策略(Online Page Importance Computation,在线页面重要性计算)
将其视为改进的 PageRank 算法。在算法开始之前,每个互联网页面都被给予相同的“*敏*感*词*”。每当某个页面P被下载时,P将他拥有的“*敏*感*词*”平均分配给该页面所收录的链接页面,并将自己的“*敏*感*词*”清零。对于URL队列中待爬取的网页,按照手头*敏*感*词*数量进行排序,*敏*感*词*最充裕的网页优先下载。
OCIP在大框架上与PageRank基本一致。不同的是PageRank每次都需要迭代计算,而OCIP策略不需要迭代过程,所以计算速度比PageRank快很多,适合实时计算。同时,在计算PageRank时,对于没有链接关系的网页有一个长距离的跳转过程,而OCIP没有这个计算因子。实验结果表明,OCIP是一种较好的重要性度量策略,其效果略优于广度优先遍历策略。
三、大网站优先
大型网站优先策略的思路很简单:网页的重要性以网站为单位来衡量。对于URL队列中待爬取的网页,按照所属的网站进行分类。如果有 网站 等待下载最多的页面将首先下载这些链接。底层思想倾向于优先下载大的网站,因为大的网站往往会收录更多的页面。鉴于大型网站往往是知名公司的内容,其网页质量普遍较高,这个思路虽然简单,但有一定的依据。