搜索引擎如何抓取网页(网络爬虫()的抓取战略可以分爲深度优先和最佳优先三种)
优采云 发布时间: 2022-02-07 00:15搜索引擎如何抓取网页(网络爬虫()的抓取战略可以分爲深度优先和最佳优先三种)
网络爬虫(也称为网络蜘蛛或网络机器人)是一个序列或脚本,它根据某些规则自动从万维网上爬取信息。通常它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。
抢夺策略
链接抓取策略分为三种类型:深度优先、广度优先和最佳优先。
1、深度搜索策略从起始页开始,选择一个URL进入,分析这个页面的URL,选择一个然后进入。抓那么深,等直四处理完一条路后再处理下一条路。
深度优先策略设计更为复杂。但是用户网站提供的链接往往是最有价值的,而且PageRa地址也很高,但是随着每一个层次的深入,页面价值和PageRank都会相应下降。这意味着重要的页面通常更靠近*敏*感*词*,而过度深度爬取的页面价值较低。同时,该策略的抓取深度间接影响抓取命中率和抓取效率,而抓取深度是该策略的关键。绝对与其他两种策略相比。这种策略很少使用。
2、广度优先搜索策略是指在爬取过程中,在下一级搜索完成后停止下一级搜索。目前,为了覆盖尽可能多的页面,一般采用广度优先搜索方式。也有很多研究使用广度优先搜索策略来关注爬虫。其基本思想是在一定的链接区间内具有初始 URL 的网页具有较高的主题相关性概率。另一种方式是将广度优先搜索与网页过滤技术相结合,先使用广度优先策略抓取网页,然后过滤掉相关网页。这些方法的缺点是随着爬取的网页越来越多,会下载和过滤少量相关网页,
3、最佳优先搜索策略根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL停止爬行。它只访问页面分析算法预测为“有用”的页面。存在的一个问题是爬虫的爬取路径上的许多相关网页可以忽略不计,因为优化优先策略是一种部分最优的搜索算法。因此,有必要将最佳优先级与详细的应用改进相结合,以跳出一些最佳点。研究表明,这样的闭环调整可以将相关网页的数量减少30%到90%。
由于爬取网页的特殊要求,使用短网址链接进行爬取爬取比较复杂。