c爬虫抓取网页数据( 在爬虫系统中,等待抓取URL队列是很重要的)
优采云 发布时间: 2022-04-17 16:29c爬虫抓取网页数据(
在爬虫系统中,等待抓取URL队列是很重要的)
在爬虫系统中,等待爬取的URL队列是一个非常重要的部分,而等待爬取的URL队列中URL的顺序也是一个非常重要的问题,因为它会决定先爬到哪个页面之后再爬取哪个页面。而确定这些URL顺序的方法称为爬取策略。下面主要介绍几种常见的爬取策略:
1 深度优先遍历策略:深度优先遍历策略是指网络爬虫会从起始页开始,每一个链接一次一个链接,直到处理完该行才会转到下一个起始页,并且继续关注链接。遍历路径为:AFG ,EHI ,B ,C,D
2 广度优先遍历策略:广度优先遍历策略的基本思想是将新下载的网页中找到的链接直接放在待爬取的URL队列的末尾。也就是说,网络爬虫会优先抓取起始网页中的所有链接。爬取完所有网页后,选择其中一个链接的网页,继续爬取该网页链接的所有网页。它的路径可以这样写:ABCDEF ,G ,H,I
3 外链数策略:外链数是指一个网页被其他网页指向的链接数,外链数也表示一个网页的内容被他人推荐的程度. 抓取系统会使用这个指标来评估网页的重要性,从而确定不同网页的抓取顺序。
但是,在真实的网络环境中,由于存在很多广告链接、作弊链接等,反向链接的数量并不能完全等同于重要性。因此,很多搜索引擎经常会考虑一些可靠的反向链接。
4.OPIC策略策略:这个算法其实是给网页的重要性打分的。在算法开始之前,所有页面都会被赋予相同的初始*敏*感*词*(cash)。当一个页面 P 被下载后,将 P 的*敏*感*词*分配给从 P 分析的所有链接,并清除 P 的*敏*感*词*。URL队列中所有待爬取的页面,按照*敏*感*词*数量排序。
5.大站点优先策略:对URL队列中所有待爬取的网页,按照所属的网站进行分类。对于需要下载的页面较多的网站,请先下载。这种策略也被称为大站优先策略。