搜索引擎如何抓取网页(网络爬虫()的抓取战略可以分爲深度优先和最佳优先三种)

优采云发布时间: 2022-02-07 00:15

　　网络爬虫（也称为网络蜘蛛或网络机器人）是一个序列或脚本，它根据某些规则自动从万维网上爬取信息。通常它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。

　　抢夺策略

　　链接抓取策略分为三种类型：深度优先、广度优先和最佳优先。

　　1、深度搜索策略从起始页开始，选择一个URL进入，分析这个页面的URL，选择一个然后进入。抓那么深，等直四处理完一条路后再处理下一条路。

　　深度优先策略设计更为复杂。但是用户网站提供的链接往往是最有价值的，而且PageRa地址也很高，但是随着每一个层次的深入，页面价值和PageRank都会相应下降。这意味着重要的页面通常更靠近*敏*感*词*，而过度深度爬取的页面价值较低。同时，该策略的抓取深度间接影响抓取命中率和抓取效率，而抓取深度是该策略的关键。绝对与其他两种策略相比。这种策略很少使用。

　　2、广度优先搜索策略是指在爬取过程中，在下一级搜索完成后停止下一级搜索。目前，为了覆盖尽可能多的页面，一般采用广度优先搜索方式。也有很多研究使用广度优先搜索策略来关注爬虫。其基本思想是在一定的链接区间内具有初始 URL 的网页具有较高的主题相关性概率。另一种方式是将广度优先搜索与网页过滤技术相结合，先使用广度优先策略抓取网页，然后过滤掉相关网页。这些方法的缺点是随着爬取的网页越来越多，会下载和过滤少量相关网页，

　　3、最佳优先搜索策略根据一定的网页分析算法预测候选URL与目标网页的相似度，或与主题的相关度，选择评价最好的一个或几个URL停止爬行。它只访问页面分析算法预测为“有用”的页面。存在的一个问题是爬虫的爬取路径上的许多相关网页可以忽略不计，因为优化优先策略是一种部分最优的搜索算法。因此，有必要将最佳优先级与详细的应用改进相结合，以跳出一些最佳点。研究表明，这样的闭环调整可以将相关网页的数量减少30%到90%。

　　由于爬取网页的特殊要求，使用短网址链接进行爬取爬取比较复杂。

0

2022-02-07

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(网络爬虫()的抓取战略可以分爲深度优先和最佳优先三种)

0 个评论

发起人