asp.net 抓取网页数据(基于反向链接(BackLink)的网页分析算法())

优采云 发布时间: 2022-03-03 16:17

  asp.net 抓取网页数据(基于反向链接(BackLink)的网页分析算法())

  爬虫简介

  网络爬虫(也称为网络蜘蛛、网络机器人,或者在 FOAF 社区中更常称为网络追踪器)是一种程序或脚本,它根据某些规则自动从万维网上爬取信息。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  

  算法分析

  网页分析算法可以分为三类:基于网络拓扑、基于网页内容和基于用户访问行为。

  拓扑分析算法

  基于网页之间的链接,通过已知的网页或数据,评估与其有直接或间接链接关系的对象(可以是网页或网站等)的算法。进一步分为三种:网页粒度、网站粒度和网页块粒度。

  (1)网页粒度分析算法

  PageRank 和 HITS 算法是最常见的链接分析算法。两者都是通过网页间链接度的递归归一化计算得到每个网页的重要性。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在性,但忽略了大部分用户访问的目的性,即网页和查询主题链接的相关性。针对这个问题,HITS算法提出了两个关键概念:权威网页(authority)和中心网页(hub)。

  基于链接的爬取问题是相关页面的主题组之间存在隧道现象,即爬取路径上很多偏离主题的页面也指向目标页面,局部评价策略中断了爬取行为当前路径。文献提出了一种基于反向链接(BackLink)的层次上下文模型(Context Model),用于将目标网页一定物理跳半径内的网页拓扑图的中心Layer0描述为目标网页。目标网页的物理跳数分层,从外层网页到内层网页的链接称为反向链接。

  (2)网站粒度分析算法

  网站粒度资源发现和管理策略也比网页粒度更简单有效。网站粒度爬取的关键是站点的划分和SiteRank的计算。SiteRank的计算方法与PageRank类似,但需要对网站之间的链接进行一定程度的抽象,并在一定模型下计算链接的权重。

  网站划分分为两种:按域名划分和按IP地址划分。文献讨论在分布式情况下,通过将站点除以同一域名下不同主机和服务器的IP地址,构建站点地图,并采用类似于PageRank的方法来评估SiteRank。同时,根据每个站点不同文件的分布情况,构建文档图,结合SiteRank分布式计算得到DocRank。文献证明,使用分布式SiteRank计算不仅大大降低了单个站点的算法成本,而且克服了单个站点对全网覆盖范围有限的缺点。

  (3)网页块粒度分析算法

  一个页面往往收录多个指向其他页面的链接,而这些链接中只有一部分指向与主题相关的网页,或者根据网页的链接锚文本表明其重要性高。但是在PageRank和HITS算法中,这些链接是没有区分的,所以往往会给网页分析带来广告等噪声链接的干扰。页面块级链接分析算法的基本思想是通过VIPS页面分割算法将页面划分为不同的页面块(page blocks),然后为这些页面建立page to block和block to page链接块。矩阵,分别表示为 Z 和 X。因此,页到页图上的页块级别的PageRank为W§=X×Z;块到块图上的 BlockRank 为 W(b)=Z×X。

  网页内容分析算法

  基于网页内容的分析算法是指利用网页内容的特征(文本、数据等资源)对网页进行评价。网页的内容已经从基于超文本的内容演变为动态页面(或称为Hidden Web)数据,后者的数据量约为直接可见页面数据(PIW,Publicly Indexable Web)的400~500%。次。另一方面,多媒体数据、Web Service等各种形式的网络资源日益丰富。因此,基于网页内容的分析算法也从最初的相对简单的文本检索方法发展到综合应用包括网页数据提取、机器学习、数据挖掘、语义理解等多种方法。本节根据网页数据的不同形式,基于网页内容的分析算法分为以下三类:第一类是针对以文本和超链接为主的非结构化或非常简单的网页;第二个是结构化网页。对于数据源(如RDBMS)动态生成的页面,不能直接批量访问数据;第三类数据介于第一类和第二类数据之间,结构更好,表明它遵循一定的模式或风格。并且可以直接访问。数据不能直接批量访问;第三类数据介于第一类和第二类数据之间,结构更好,表明它遵循一定的模式或风格。并且可以直接访问。数据不能直接批量访问;第三类数据介于第一类和第二类数据之间,结构更好,表明它遵循一定的模式或风格。并且可以直接访问。

  基于文本的网页分析算法

  (1)纯文本分类和聚类算法

  它在很大程度上借鉴了文本检索的技术。文本分析算法可以快速有效地对网页进行分类和聚类,但很少单独使用,因为它们忽略了网页之间和网页内的结构信息。

  (2)超文本分类和聚类算法

  根据网页链接的网页的相关类型对网页进行分类,并通过关联的网页推断网页的类型。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线