网页新闻抓取(网络爬虫的基本原理策略抓取策略(一)_光明网)

优采云发布时间: 2021-11-25 06:04

　　网络爬虫定义

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常见的是网络追逐）是根据某些规则自动抓取万维网上信息的程序或脚本。

　　可以更形象地理解：网络相当于一张巨大的蜘蛛网，每条蜘蛛丝的交集就是一个资源（URI）。爬虫爬取到这个庞大的网络所需要的资源后，通过一定的机制和容器进行存储。.

　　网络爬虫的原理

　　网络爬虫的基本原理可以用一张经典图来概括：

　　多线程下载器功能：从网上抓取网页信息。其中，通过URL下载队列调度器，通过一定时间或调度机制下载，通过多内存（DB）保存下载的目标资源。

　　网络爬虫的爬取策略爬取策略是网络爬虫系统中最重要的部分。爬取策略是爬虫系统按照一定的方法/方法对目标资源进行爬取。目前比较常见的爬取策略有：深度优先、广度优先、最佳优先。还有一些爬取策略：反向链接计数策略、Partial PageRank策略、OPIC策略、大站优先策略等等。

　　深度优先深度优先搜索策略从起始网页开始，选择一个网址进入，分析该网页中的网址，然后选择一个进入。这样一个链接被一个一个地爬取，直到处理完一条路由，然后再处理下一条路由。深度优先的策略设计比较简单。但是，门户网站网站提供的链接往往是最有价值的，PageRank也非常高。但是，随着深度的增加，网页和PageRank的价值会相应降低。这意味着重要的网页通常更接近*敏*感*词*，而被抓取过深的网页价值较低。同时，该策略的抓取深度直接影响抓取命中率和抓取效率，抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。

　　Breadth-first 广度优先搜索策略是指在爬取过程中，当前一级搜索完成后，再进行下一级搜索。该算法的设计和实现比较简单。目前，为了覆盖尽可能多的网页，一般采用广度优先搜索的方法。也有许多研究将广度优先搜索策略应用于聚焦爬虫。基本思想是，距离初始 URL 一定链接距离内的网页具有很高的主题相关性概率。另一种方法是将广度优先搜索与网络过滤技术相结合。首先使用广度优先策略抓取网页，然后过滤掉不相关的网页。这些方法的缺点是随着抓取网页的增加，

　　Best Priority Best Priority Search 策略根据一定的网页分析算法预测候选网址与目标页面的相似度，或与主题的相关性，选择一个或几个评价最好的网址进行爬取。它只访问被网络分析算法预测为“有用”的网页。一个问题是爬虫爬取路径上的很多相关网页可能会被忽略，因为最好的优先级策略是局部最优搜索算法。因此，需要将最佳优先级与具体应用结合起来进行改进，才能跳出局部最佳点。将在第 4 节中结合网页分析算法进行详细讨论。

　　反向链接计数策略反向链接计数是指其他网页链接到某个网页的数量。反向链接的数量表示网页内容被他人推荐的程度。因此，很多时候搜索引擎的爬取系统都会使用这个指标来评估网页的重要性，从而决定不同网页的爬取顺序。在真实的网络环境中，由于广告链接和作弊链接的存在，反向链接的数量不能完全坐等别人的重视。因此，搜索引擎通常会考虑一些可靠的反向链接。

　　Partial PageRank Strategy Partial PageRank算法借鉴了PageRank算法的思想：对于下载的网页，连同要爬取的URL队列中的URL，组成一个网页集，计算每个页面的PageRank值，并且经过计算，将要爬取的URL队列中的URL按照PageRank值的大小排列，按照这个顺序爬取页面。如果每个页面都被抓取，则重新计算 PageRank 值。一个折衷的方案是：每爬取K个页面后，重新计算PageRank值。但是，这种情况下仍然存在一个问题：对于已经从下载页面中分析出来的链接，也就是我们前面提到的未知网页部分，暂时没有PageRank值。为了解决这个问题，

　　OPIC 战略。该算法实际上对页面的重要性进行评分。在算法开始之前，给所有页面相同的初始*敏*感*词*（cash）。下载某个页面P后，将P的*敏*感*词*分配给所有从P解析的链接，清空P的*敏*感*词*。待抓取的 URL 队列中的所有页面均按照*敏*感*词*的数量进行排序。

　　大站优先策略是将URL队列中的所有网页按照所属的网站进行分类。网站需要下载的页面较多，优先下载。这种策略因此被称为大站优先策略。

　　总结：在实际运营过程中，往往不是单独选择某个策略，而是综合多个策略的优势，去渣滓，为业务实现相应的功能。

　　网络爬虫的另一个重要部分是网页分析。具体方法有：拓扑分析算法、网页分析算法等。这里的重点是如何实现爬取动作，而不是关心从大范围的网页爬取中得到想要的目标网页，所以不详细分析在这里完成。

　　参考：

　　下一篇文章将讨论抓取腾讯新闻RSS网页的原理。请注意。

0

2021-11-25

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(网络爬虫的基本原理策略抓取策略(一)_光明网)

0 个评论

发起人