抓取网页音频(基于目标数据模式的爬虫技术研究综述(一))

优采云发布时间: 2022-03-11 05:21

　　2 爬虫技术研究综述

　　基于目标数据模式的爬虫针对网页上的数据，抓取到的数据一般都符合一定的模式，或者可以转化或映射成目标数据模式。

　　另一种描述方式是构建目标域的本体或字典，用于从语义角度分析主题中不同特征的重要性。

　　3 网络搜索策略

　　网页抓取策略可以分为三种类型：深度优先、广度优先和最佳优先。深度优先在很多情况下会导致爬虫被困的问题。目前，广度优先和最佳优先方法很常见。

　　3.1 广度优先搜索策略

　　广度优先搜索策略是指在爬取过程中，完成当前一级的搜索后，再进行下一级的搜索。该算法的设计和实现比较简单。目前，为了覆盖尽可能多的网页，一般采用广度优先搜索方式。也有许多研究将广度优先搜索策略应用于聚焦爬虫。其基本思想是距初始 URL 一定链接距离内的网页具有较高的主题相关性概率。另一种方法是将广度优先搜索与网页过滤技术相结合，首先使用广度优先策略抓取网页，然后过滤掉不相关的页面。这些方法的缺点是随着爬取的网页数量的增加，大量无关的网页会被下载过滤，算法效率会变低。

　　3.2 最优优先级搜索策略

　　最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度，或与主题的相关度，选择评价最好的一个或几个URL进行爬取。它只访问页面分析算法预测为“有用”的页面。一个问题是爬虫爬取路径上的许多相关网页可能会被忽略，因为最佳优先策略是局部最优搜索算法。因此，需要将最佳优先级与具体应用结合起来进行改进，从而跳出局部最优点。在第 4 节中，将结合网页分析算法进行详细讨论。研究表明，这样的闭环调整可以将不相关页面的数量减少 30% 到 90%。

　　4 网页分析算法

　　网页分析算法可以分为三类：基于网络拓扑、基于网页内容和基于用户访问行为。

　　4.1 基于网络拓扑的分析算法

　　基于网页之间的链接，通过已知的网页或数据，评估与其有直接或间接链接关系的对象（可以是网页或网站等）的算法。进一步分为三种：网页粒度、网站粒度和网页块粒度。

　　4.1.1 网页粒度分析算法

　　PageRank 和 HITS 算法是最常见的链接分析算法。两者都是通过网页间链接度的递归归一化计算得到每个网页的重要性。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在性，但忽略了大部分用户访问的目的性，即网页与查询主题链接的相关性。针对这个问题，HITS算法提出了两个关键概念：权威和枢纽。

　　基于链接的爬取问题是相关页面的主题组之间的隧道现象，即爬取路径上很多离题的页面也指向目标页面，局部评价策略中断了爬取行为当前路径。参考文献[21]提出了一种基于反向链接（BackLink）的层次上下文模型（Context Model），用于将目标网页一定物理跳半径内的网页拓扑图的中心Layer 0描述为目标网页。网页根据指向目标网页的物理跳数进行层次划分，外层网页到内层网页的链接称为反向链接。

　　4.1.2 网站粒度分析算法

　　网站粒度资源发现和管理策略也比网页粒度更简单有效。网站粒度爬取的关键是站点的划分和SiteRank的计算。SiteRank的计算方法与PageRank类似，但需要对网站之间的链接进行一定程度的抽象，并在一定的模型下计算链接的权重。

　　网站划分分为两种：按域名划分和按IP地址划分。参考文献[18]讨论了在分布式情况下，通过划分同一域名下不同主机和服务器的IP地址，构建站点地图，并采用类似于PageRank的方法评估SiteRank。同时，根据每个站点不同文件的分布情况，构建文档图，结合SiteRank分布式计算得到DocRank。参考文献[18]证明，使用分布式SiteRank计算不仅大大降低了单个站点的算法成本，而且克服了单个站点对全网覆盖范围有限的缺点。一个额外的好处是，常见的 PageRank 欺诈很难欺骗 SiteRank。

　　4.1.3 网页块粒度分析算法

　　一个页面通常收录多个指向其他页面的链接，而这些链接中只有一部分指向与主题相关的网页，或者根据网页的链接锚文本表明其重要性高。但是在PageRank和HITS算法中，这些链接是没有区分的，所以往往会给网页分析带来广告等噪声链接的干扰。块级链接分析算法的基本思想是通过VIPS网页切分算法将网页分成不同的页面块，然后为这些网页块创建page-to-block和block-block。to-page的链接矩阵分别表示为Z和X。因此，page-to-page图上的page block level的PageRank为Wp=X×Z； 在块到块图上的 BlockRank 是 Wb=Z×X。有人实现了块级PageRank和HITS算法，实验证明效率和准确率优于传统的对应算法。

　　4.2 基于网页内容的网页分析算法

　　基于网页内容的分析算法是指利用网页内容的特征（文本、数据等资源）对网页进行评价。网页内容已经从基于超文本的内容演变为动态页面（或称为隐藏网页）数据。后者的数据量约为直接可见页面数据（PIW，Publicly Indexable Web）的400~500倍。次。另一方面，多媒体数据、Web Service等各种形式的网络资源日益丰富。因此，基于网页内容的分析算法也从原来比较简单的文本检索方法发展到网页数据提取、机器学习、数据挖掘、语义理解等多种方法的综合应用。在这个部分，根据网页数据的不同形式，基于网页内容的分析算法分为以下三类：一类是针对以文本和超链接为主的非结构化或非常简单的网页；二是对于结构化和数据源（如RDBMS）动态生成的页面的数据，不能直接批量访问；第三类数据介于第一类数据和第二类数据之间，结构较好，具有一定的模式或风格。并且可以直接访问。 二是对于结构化和数据源（如RDBMS）动态生成的页面的数据，不能直接批量访问；第三类数据介于第一类数据和第二类数据之间，结构较好，具有一定的模式或风格。并且可以直接访问。 二是对于结构化和数据源（如RDBMS）动态生成的页面的数据，不能直接批量访问；第三类数据介于第一类数据和第二类数据之间，结构较好，具有一定的模式或风格。并且可以直接访问。

　　4.2.1 基于文本的网页分析算法

　　1) 纯文本分类和聚类算法

　　它在很大程度上借鉴了文本检索的技术。文本分析算法可以快速有效地对网页进行分类和聚类，但很少单独使用，因为它们忽略了网页之间和网页内的结构信息。

　　2) 超文本分类和聚类算法

　　【 dsds4262大作中提到（dsds4262): 】

　　: 什么是爬虫软件？我不明白

　　--

　　你把我带回了一个人，我们变成了世界

　　没有你的陌生人

　　原来我的一部分在未来会曲折

　　被困在灵魂深处，每个人都有自己的悲伤

　　※ 来源：·北京邮报人物论坛·[FROM: 59.64.195.*]

0

2022-03-11

抓取网页音频

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页音频(基于目标数据模式的爬虫技术研究综述(一))

0 个评论

发起人