c爬虫抓取网页数据(C++爬虫原理:C++原理(一):C++原理)
优采云 发布时间: 2021-12-10 22:21c爬虫抓取网页数据(C++爬虫原理:C++原理(一):C++原理)
C++爬虫原理:C++爬虫原理(一):爬虫简介
C++爬虫原理:C++爬虫原理(二):读取URL策略
下面介绍读取URL的策略,即网页的有限爬取方法:
网络爬取策略可分为深度优先、广度优先和最佳优先。在很多情况下,深度优先会导致爬虫被困。目前,广度优先和最佳优先的方法很常见。这里,聚焦爬虫推荐使用广度优先搜索和定向覆盖。
广度优先搜索
广度优先搜索策略是指在爬取过程中,当前一级搜索完成后,再进行下一级搜索。该算法的设计和实现比较简单。目前,为了覆盖尽可能多的网页,一般采用广度优先搜索的方法。也有许多研究将广度优先搜索策略应用于聚焦爬虫。基本思想是,距离初始 URL 一定链接距离内的网页具有很高的主题相关性概率。另一种方法是将广度优先搜索与网络过滤技术相结合。首先使用广度优先策略抓取网页,然后过滤掉不相关的网页。这些方法的缺点是随着抓取网页的增加,
最佳优先搜索
最佳优先级搜索策略根据一定的网页分析算法预测候选URL与目标页面的相似度或与主题的相关性,选择一个或几个评价最好的URL进行爬取。它只访问被网络分析算法预测为“有用”的网页。一个问题是爬虫的爬取路径中很多相关的网页可能会被忽略,因为最好的优先级策略是局部最优搜索算法。因此,需要将最佳优先级与具体应用结合起来进行改进,才能跳出局部最佳点。将在第 4 节中结合网页分析算法进行详细讨论。
深度优先搜索
深度优先搜索策略从起始网页开始,选择一个网址进入,分析该网页中的网址,选择一个进入。这样一个链接被一个一个地爬取,直到处理完一条路由,然后再处理下一条路由。深度优先的策略设计比较简单。但是,门户网站网站提供的链接往往是最有价值的,PageRank也非常高。但是,网页的价值和 PageRank 会随着级别的增加而相应降低。这意味着重要的网页通常更接近*敏*感*词*,而被抓取过深的网页价值较低。同时,该策略的抓取深度直接影响抓取命中率和抓取效率,抓取深度是该策略的关键。与其他两种策略相比。
广度优先遍历策略
广度优先遍历策略的基本思想是将新下载的网页中找到的链接直接插入到待爬取的URL队列的末尾。即网络爬虫会先抓取起始网页中所有链接的网页,然后选择其中一个链接的网页,继续抓取该网页中链接的所有网页。
反向链接计数策略
反向链接数是指从其他网页链接到某个网页的数量。反向链接的数量表示网页内容被他人推荐的程度。因此,很多时候搜索引擎的爬取系统都会使用这个指标来评估网页的重要性,从而决定不同网页的爬取顺序。
其他包括 PageRank 等。
题外话:好久没更新了。网站 去备案。这个文章也参考了网上,总结了一下,不过我觉得已经用尽了。关注百度百科,wawlian的博客。