网页qq抓取什么原理(另类搜索资料的方法:网络爬虫程序)

优采云 发布时间: 2021-11-22 14:10

  网页qq抓取什么原理(另类搜索资料的方法:网络爬虫程序)

  搜索信息的替代方式:网络爬虫、网络爬虫、网络蜘蛛、网络机器人

  各种搜索引擎的使用大家都比较熟悉,但是还有一种比较活跃、专业的搜索技术:网络爬虫。

  1 概述

  介绍

  随着互联网的飞速发展,万维网已经成为海量信息的载体。如何有效地提取和利用这些信息成为一个巨大的挑战。搜索引擎,如传统的通用搜索引擎 AltaVista、Yahoo! 谷歌等作为辅助人们检索信息的工具,成为用户访问万维网的门户和指南。但是,这些通用的搜索引擎也有一定的局限性,例如:

  (1) 不同领域、不同背景的用户往往有不同的检索目的和需求。一般搜索引擎返回的结果中含有大量用户不关心的网页。

  (2) 通用搜索引擎的目标是最大化网络覆盖。有限的搜索引擎服务器资源和无限的网络数据资源之间的矛盾将进一步加深。

  (3) 随着万维网上数据形式的丰富和网络技术的不断发展,图片、数据库、音视频多媒体等不同的数据大量出现,一般的搜索引擎往往无能为力。具有密集信息内容和一定结构的数据。很好地发现和获取。

  (4) 大多数通用搜索引擎都提供基于关键字的检索,难以支持基于语义信息的查询。

  为了解决上述问题,针对相关网络资源进行针对性抓取的聚焦爬虫应运而生。Focus Crawler 是一个自动下载网页的程序。它根据建立的爬取目标有选择地访问万维网上的网页和相关链接,以获取所需的信息。与通用网络爬虫不同,聚焦爬虫不追求大的覆盖范围,而是将目标设定为抓取与特定主题内容相关的网页,并为面向主题的用户查询准备数据资源。

  1 关注爬虫工作原理及关键技术概述

  网络爬虫是一种自动提取网页的程序。它从万维网下载网页以供搜索引擎使用。它是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页的网址开始,获取初始网页上的网址。在抓取网页的过程中,它不断地从当前页面中提取新的URL并将它们放入队列中,直到满足系统的某个停止条件,如图所示。流程图如图1(a)所示。聚焦爬虫的工作流程比较复杂。需要按照一定的网页分析算法过滤与主题无关的链接,保留有用的链接,放入URL队列等待被抓取。然后,它会根据一定的搜索策略从队列中选择要抓取的网页URL,重复上述过程,直到达到系统的某个条件时停止,如图1(b)所示。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤、索引,以备以后查询检索;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。

  与一般网络爬虫相比,聚焦爬虫需要解决三个主要问题:

  (1) 爬取目标的描述或定义;

  (2) 对网页或数据的分析和过滤;

  (3) URL 搜索策略。

  爬取目标的描述和定义是决定如何制定网页分析算法和网址搜索策略的基础。网页分析算法和候选网址排序算法是决定搜索引擎提供的服务形式和网页抓取行为的关键。这两部分的算法是密切相关的。

  2 爬取目标描述

  现有的聚焦爬虫对爬取目标的描述可以分为三种类型:基于目标网页的特征、基于目标数据模型和基于领域概念。

  爬虫根据目标网页的特征抓取、存储和索引的对象一般为网站或网页。根据*敏*感*词*样品的获取方式,可分为:

  (1) 预先给定的初始抓取*敏*感*词*样本;

  (2) 预先给定的网页分类目录和分类目录对应的*敏*感*词*样本,如Yahoo!分类结构等;

  (3) 由用户行为决定的爬取目标示例,分为:

  a) 用户浏览过程中显示标记的抓样;

  b) 通过用户日志挖掘获取访问模式和相关样本。

  其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。

  现有的聚焦爬虫描述或定义爬取目标可以分为三种类型:基于目标网页特征、基于目标数据模式和基于领域概念。

  爬虫根据目标网页的特征抓取、存储和索引的对象一般为网站或网页。具体方法可以分为:(1)预先给定的初始捕获*敏*感*词*样本;(2)预先给定的网页分类目录和分类目录对应的*敏*感*词*样本),如Yahoo!分类结构等;(3)由用户行为决定的爬取目标示例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等.

  2 爬虫技术研究概况

  基于目标数据模式的爬虫是针对网页上的数据,抓取的数据一般必须符合一定的模式,或者可以转化或映射为目标数据模式。

  另一种描述方法是建立目标域的本体或字典,用于从语义角度分析主题中不同特征的重要性。

  3 网络搜索策略

  网络爬取策略可分为深度优先、广度优先和最佳优先。深度优先在很多情况下会导致爬虫被困,目前广度优先和最佳优先的方法比较常见。

  3.1 广度优先搜索策略

  广度优先搜索策略是指在爬取过程中,当前一级搜索完成后,再进行下一级搜索。该算法的设计和实现比较简单。目前,为了覆盖尽可能多的网页,一般采用广度优先搜索的方法。也有许多研究将广度优先搜索策略应用于聚焦爬虫。基本思想是,距离初始 URL 一定链接距离内的网页具有很高的主题相关性概率。另一种方法是将广度优先搜索与网络过滤技术相结合。首先使用广度优先策略抓取网页,然后过滤掉不相关的网页。这些方法的缺点是随着抓取网页的增加,

  3.2 最佳优先搜索策略

  最佳优先级搜索策略根据一定的网页分析算法预测候选网址与目标网页的相似度或与主题的相关性,选择一个或几个评价最好的网址进行爬取。它只访问被网络分析算法预测为“有用”的网页。一个问题是爬虫爬取路径上的很多相关网页可能会被忽略,因为最好的优先级策略是局部最优搜索算法。因此,需要将最佳优先级与具体应用结合起来进行改进,才能跳出局部最佳点。将在第 4 节中结合网页分析算法进行详细讨论。

  4 网页分析算法

  网页分析算法可以概括为基于网络拓扑、基于网页内容和基于用户访问行为的三种类型。

  4.1 基于网络拓扑的分析算法

  基于网页之间的链接,通过已知的网页或数据,对与其有直接或间接链接关系的对象(可以是网页或网站等)进行评估的算法。分为网页粒度、网站粒度和网页块粒度三种。

  4.1.1 网页粒度分析算法

  PageRank 和 HITS 算法是最常见的链接分析算法,两者都是通过对网页之间的链接度的递归和标准化计算来获得每个网页的重要性。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了大多数用户访问的目的性,即网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键概念:权威和枢纽。

  基于链接的爬取问题是相关页面主题组之间的隧道现象,即爬行路径上很多偏离主题的网页也指向目标页面,本地评价策略中断爬行行为在当前路径上。文献[21]提出了一种基于反向链接的分层上下文模型(Context Model),用于描述指向目标网页在一定物理跳跃半径内的网页拓扑中心。第 0 层是目标网页。网页根据到目标网页的物理跳数进行分层划分,从外部网页到内部网页的链接称为反向链接。

  4.1.2 网站 粒度分析算法

  网站 细粒度的资源发现和管理策略也比网页细粒度的更简单有效。网站 粒度爬取的关键是站点的划分和站点排名(SiteRank)的计算。SiteRank的计算方法与PageRank类似,但是网站之间的链接需要一定程度的抽象,链接的权重要在一定的模型下计算。

  网站 划分分为域名和IP地址两种。文献[18]讨论了分布式情况下,通过划分同一域名下不同主机和服务器的IP地址,构建站点地图,并使用类似于PageRank的方法评估SiteRank。同时,根据各个站点不同文件的分布情况,构建文档图,结合SiteRank的分布式计算得到DocRank。文献[18]证明,采用分布式SiteRank计算不仅大大降低了单站的算法成本,而且克服了单个站点对全网覆盖范围有限的缺点。一个附带的优势是普通的 PageRank 欺诈很难欺骗 SiteRank。

  4.1.3 网页块粒度分析算法

  在一个页面中,往往有多个指向其他页面的链接,其中只有一部分链接指向与主题相关的网页,或者网页的链接锚文本表明它的重要性很高。但是,在PageRank和HITS算法中,这些链接是没有区分的,所以往往会给网页分析带来来自广告等噪声链接的干扰。块级链接分析算法的基本思想是通过VIPS网页分割算法将网页划分为不同的页面块,然后为这些页面块建立page-to-block和block-page blocks。to-page的链接矩阵分别用Z和X表示。因此,页到页图上页块级的PageRank为Wp=X×Z;块到块图上的 BlockRank 为 Wb=Z×X。

  4.2 基于网页内容的网页分析算法

  基于网页内容的分析算法是指利用网页内容的特征(文本、数据等资源)对网页进行评价。网页的内容已经从基于超文本的数据演变为后来的动态页面(或隐藏网页)数据。后者的数据量约为直接可见页面数据(PIW,Publicly Indexable Web)的400~500。次。另一方面,多媒体数据、Web Service等各种形式的网络资源日益丰富。因此,基于网页内容的分析算法已经从最初的简单的文本检索方法发展为涵盖网页数据提取、机器学习、数据挖掘、语义理解等多种方法的综合应用。根据网页数据的不同形式,本节将基于网页内容的分析算法总结为以下三类:第一类是针对具有文本和超链接的非结构化或非常简单的网页;第二个是结构化网页。数据源(如RDBMS)动态生成页面,无法批量直接访问数据;第三类数据介于第一类和第二类数据之间,结构较好,显示遵循一定的模式或风格。并且可以直接访问。第三类数据介于第一类和第二类数据之间,结构较好,显示遵循一定的模式或风格。并且可以直接访问。第三类数据介于第一类和第二类数据之间,结构较好,显示遵循一定的模式或风格。并且可以直接访问。

  4.2.1 基于文本的网页分析算法

  1) 纯文本分类聚类算法

  在很大程度上借用了文本检索的技术。文本分析算法可以快速有效地对网页进行分类和聚类,但由于忽略了网页之间和网页内部的结构信息,因此很少单独使用。

  2) 超文本分类聚类算法

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线