采集文章系统(《Web》主题Web信息采集的基本问题及难点解析)
优采云 发布时间: 2021-12-15 21:14采集文章系统(《Web》主题Web信息采集的基本问题及难点解析)
《基于主题的Web信息采集系统设计与实现.pdf》由会员共享,可在线阅读。更多相关《基于主题的Web信息采集系统设计与实现.pdf(3页典藏版)》请在威川搜索。
1、Volume 29, Issue 17 12917 Computer Engineering 2003 年 10 月 2003 年 10 月 软件技术与数据库 文章 编号:l00o-3428(2003)l70l0203 文档识别码:A 中文圈分类号:TP391基于学科的Web信息采集系统设计与实现李胜涛,赵章杰,于志华(中国科学院计算技术研究所软件研究室,北京100080) 摘要:基于学科的Web信息采集是信息检索领域一个新兴的实用方向,也是信息处理技术的研究热点。文章分析主题Web信息采集的基本问题, 提出难点及相关解决方案,并在此基础上,“天大”主题网站信息采集系统的设计与实现
2、。关键词:信息采集;信息检索;信息处理;主题 采集 Desin and Realization 0f Focused Web Crawler。李胜涛, 赵占西, 于志华 (中国科学院计算技术研究所软件部, 北京 l00080) l 摘要 l 聚焦网络爬虫是信息检索领域的一个新的实用方向
3、ieva1本文论述了聚焦网络爬虫的原理、难点和措施,然后分析了SkyReach聚焦网络爬虫的设计。信息检索;信息处理;聚焦爬虫l乐_乐 基于Web信息采集,发布及相关信息处理日益成为关注的焦点。传统we词采集的目标是尽可能地采集
4、信息页,和采集页的准确性关注较少,它有很多缺陷。随着www的爆发式增长,信息速度采集越来越不能满足实际需求。最近的实验表明,即使是*敏*感*词*的信息采集系统也只有 30-40 个网络覆盖。主题采集可以将整个Web按主题采集划分成块,并整合不同的块,提高整个Web采集的覆盖率。对于传统信息采集,需要几周到一个月的时间才能再次刷新。” I,使得页面失败率非常大。一个好的缓解方法是使用采集主题,通过减少采集的页面数量来减少刷新时间,从而降低采集的失败率 页。传统信息采集消耗大量的系统和网络资源,而且大部分利用率很低,基于主题的采集有效提高了采集对页面的使用率。
5、2 Theme-based web information采集System Model 21 System Model Topic Web Information采集,也称为TopicSpecific Crawling,主要是指选择性搜索那些和预定义的主题集相关页面执行采集的行为。我们设计了“天大”主题采集系统,其系统模型如图1所示。为了实现自动信息采集,整个过程分为6大模块:主题选择、初始URL选择、Spider采集、页面分析、URL与主题关联判断、页面与主题关联判断。22.主题的选择。起点的选择与我采集 为了有效地开展采集主题,需要考虑的一个重要问题是主题选择。由于随机的学科术语可能会极大地影响采集的效果,系统一般会为用户提供一个学科类别目录供用户选择。为了有效地
6、为了确定用户选择的主题的含义,用户应该提供对该主题的进一步描述,例如提供几个表达该主题含义的文本。我们的系统按照中国图书馆分类法的一级目录和二级目录对主题进行分类,并在每个主题下配备了一些主题文本供用户选择。采集器 从一组*敏*感*词* URL 开始,通过 Web 协议扩展到需要的页面。根据 LinkageSibling Locality 特性,系统需要选择高质量的主题 URL 作为初始*敏*感*词* URL 集。23 Spider采集 1O2 One Circle I 信息自动采集的6大块。这部分在系统的最底层,也叫“网络蜘蛛”,专门处理Web,
7、各种文件如声音)。目前系统主要针对HTTP协议,其主要任务是为每个Spider分配URL以获取实际数据采集,并根据需要动态分配Spider的数量,如图2。 基金项目:中科院计算所前沿青年基金项目(200162808) 作者:李胜涛(1976一),男,硕士*敏*感*词*,主要研究方向:智能代理、信息采集) , 信息检索, 文本分类; 赵章杰, 于志华, Ph.D. 博士生录取日期破: 2002073I | 回归天破: 2002-1028 维普资讯http://图2 蜘蛛合集: 合集采集页面的24页分析之后,您需要提取链接、元数据、文本、标题和摘要以进行后续过滤和其他处理。这里主要介绍链接和标签。
8、 问题提取。链接的提取如下: 首先,识别页面类型。显然,只有“xffhtml”类型的页面需要分析链接。页面的类型可以从响应头的分析中得到。部分www站点返回的响应信息格式不完整。这时候就需要分析页面URL中的文件扩展名来确定页面类型。当遇到诸如等带有链接的标签时,从标签结构的属性中找到目标URL,从标签对中提取文本作为链接的描述性文本(扩展元数据)。这两个数据代表链接。页面中标题的提取分为3个步骤:(一)确定正文开头的位置,从文章的开头开始,逐段扫描,直到某段长度不小于设置的正文最小长度,假设该段为正文中的A段。(2) 从文本位置向前搜索可能是标题的一段,根据字体
9、大小、居中、变色等特性找到最合适的一段文字作为标题。(3)通过给定参数调整标题段,使标题提取更准确。对标题段前后段stTitlePara进行句法、语义、统计分析,准确判断标题段真实位置. 25 URL和主核的相关性确定有效提高主题Web信息采集的可靠性(召回率和准确率的结合)和效率,系统需要在采集的过程中加入过滤机制@> 并采用综合扩展的 I Pagerank 方法进行元数据和链接分析。25I 扩展元数据的含义 虽然目前的元数据计算(HTML 中添加的一种标记,写成)并不理想,但人们已经发现使用其他 HTML 标签如锚点等信息可以有效引导搜索和基于主题信息采集。为了
1 根据0、的区别,这些标记信息统称为HTML扩展元数据。252 扩展元数据方法的ReIevance Weighting或RW算法如下: f 0 (ur): (0(,), M(ur1) 如max(O(t). l 0 规范其中, M(ur1)指的是与这个URL相关的所有扩展元数据的集合,O(t)指的是扩展元数据中某个词与主题的相关性。c是用户设置的相关性阈值. RW 方法是通过查看扩展元数据中单词和主题词的相似度来计算的,同义词之间的相似度为100,同义词之间的相似度为50-100,远距离词之间的相似度为0 50。这样就大大降低了相关页面误判的可能性,
11、页面被判断为相关页面的可能性)。25 3 链接分析方法 PageRank 是谷歌的一个重要搜索算法,它有效地帮助搜索引擎识别那些重要的页面,并将它们排在搜索结果的前列。该方法定义为:给定一个网页A,假设指向它的网页有T.,,T.设c(A)为A到其他网页的链接数,PR(A)为A的PageRank, d为衰减因子(一般设置为085),然后有一个跳跃,c+254的IPageRank算法通过观察:PageRank方法虽然有很强的寻找重要页面的能力,但是它找到的重要页面是为了一个广泛的话题,而不是基于特定的话题。因此,一个页面被大量不相关的话题指向PageRan
1 2、k的值高于与mang问题相关的少数页面组所指向的页面的PageRank值,这是不合理的。如果大量主题相关页组指向的页面的PageRank值高于少数主题相关页组指向的页面的PageRank值,则必须使用它。为此,我们对PageRank方法进行了改进,根据链接关系加入一定的语义信息权重,使生成的重要页面针对某个主题,形成1PageRank算法。IPageRank算法不仅利用PageRank的优势寻找重要页面,还利用RW算法提高链接的相关性。改进后的公式如下 (3) PR(I): (卜(,)+dl IPR(T) 芝.(ur) (<
13、) Lan Yiyi PR(T) 0 (Ill 1) 0 (IllI) 其中A为给定的网页,假设指向它的网页有T.,, Tn.u, ur u rII 为网页T、T、指向A的链接,kI、k2、kn分别为网页TT中收录的链接数,IPR(A)为A的IPageRank值,d为衰减因子(也设置为085)。IPageRank的实际含义可以用话题浏览者来解释。假设Web上有一个话题浏览者,IPPageRank(函数IPR(A)是它访问页面A的概率)。它从初始页面集开始,跟随页面链接,从不进行“返回”操作,在每个页面上,浏览者对该页面中的每个链接感兴趣的概率与链接和主题相关。
14、关星成正比。浏览者也可能对这个页面上的链接不再感兴趣,从而随机选择一个新页面开始新的浏览,离开的概率设置为d。从直观上看,如果有很多页面指向一个页面,那么这个页面的PageRank会比较高,但IPPageRank值不一定高,除非大部分都和主题相关;如果有高IPPageRank的页面指向它,这个页面的IPageRank也会很高。26 页面与主题相关性判断 为了进一步提高采集页面的准确率,需要对已经被采集的页面进行主题相关性评估,即页面过滤。提高所有采集的准确率 主题页面通过排除低评估结果(小于设置阈值)的页面。我们采用的方法是基于关键词的向量空间模型算法。3个系统
1 5、的实现 我们对“天大”主题Web信息采集系统的预测算法和系统的基本性能进行了测试,得到了满意的结果。(1)测试集的选择选择旅游信息作为测试主题。采集了20个旅游主题网站,加入了60个无关的网站组成测试集,其中收录一个以上l03.维普信息页。(2)算法测试和性能测试使用相同的初始URL集,使用广度优先算法、PageRank算法和IPageRank算法对采集进行采集数据。为了得到每种方法的结果准确的结果,实验中暂停了页面和主题相关性确定模块。在实验过程中,记录采集页码为500、1000、l 500一、4000H采集状态,计算采集状态。@采集准确性和资源
16、源发现率,如表1所示。表一采集准确率与资源发现率采集准确率资源发现率宽度优先级35 lOO PageRank 29 3O IPageRank 68 86 表2 测试结果,性能测试结果评价采集的最终准确率76较高(优点)最终资源发现率高8O(优点)30MB内存(估计)较大(缺点)测试平台为CPU Intel Pill 800、内存为128MB,操作系统为Window 2000 Professional电脑。采集时,系统设置10个线程,采用的URL预测算法为IPageRank。测试的性能指标包括最终采集页面的准确率,采集页面的资源释放
17、 当前速率、内存使用情况、测试结果如表2所示。 4 结束语 我基于主题研究了webf语言和信息技术,并设计了一个实用的系统。在原有技术的基础上,设计了许多独特的新算法,如Spider采集、标题提取、URL主题预测、页面主题相关性判断等。特别是对著名的谷歌算法进行了改进,使其适用于基于主题的采集,同时保持原有的优势。实验表明,基于主题的采集优势明显。随着Web服务向个性化方向的推进,Agent技术的发展,以及迁移思想的出现,用于检索的Web信息采集 科技必将走向主题化、个性化的主动信息采集服务方向全方位拓展。参考文献 I Aggarwal C, AIGar
18、awi F、Yu PIntelligent Crawling on the World Wide Web with Arbitrary PredicatesIn Proceedings of the 1 0th IntematiouaI WWW Conference200 l 2 Brin S, Page L,大型超文本网络搜索引擎的切片剖析第七届国际万维网会议,I 998 3 Diligen
19、ti M, Coetzee FM, Lawrence S, et a1Gori Focused Crawling Using Context GraphsVLDB Conference, 2000 4 Menczer F, Srinivasan GPP, Ruiz MEvaluating Topic-driven Web CrawlersIn Proceedings of the 24th Annual International Acms@ >IGIR 会议,200 l(接第 8I 页) 3 Clark CM,Rock SRandomized Motion Planning for G
20、N011一完整机器人组在:加拿大第六届空间人工智能、机器人和自动化国际研讨会论文集& 200106 4 Fraichard TDemazeau YMotion Planning in a Multiagent World In: Demazeau YMuller J PDecentralized AI: Proceedings第 22 届欧洲工作室
21、p on Modeling Autonomous Agents in a Multiagent World 荷兰阿姆斯特丹:Elsevier Science,I990:l37-l53(接第 l0l 页)输出“:”。“表示类型”列输出源文件中函数所描述的类型,“基本类型”列输出表示不带typedef的表示类型的类型。在这个例子中,funcl和main函数没有使用typedef,所以这两个函数的表示类型和基本类型是一样的。“位置”列输出函数定义或声明的文档名称和行号。“属性”列显示函数的属性。例如,当函数未定义时,显示“no define”;如果
22、 不使用该功能时,会显示“未使用”等。上面的表1只是函数列表,变量列表、类型列表、枚举常量列表大体与此一致。对于列表中出现的每个元素,还有一个详细的表格,按名称链接。例如,有一个函数的调用条件列表和一个函数返回值列表;对于变量,有一个值设置和引用列表。列表。限于篇幅,这里就不一一详述_r了。4 结束语 EPOM 是一种可以全面、详细地展示程序的中间表示,它提供了一个标准的访问接口。所以,任何其他符合该接口的模块都可以从中获取有关源程序的所需信息。OSTPM 是一种基于域的程序信息分层递归表示模型。将程序中所有对象的范围和类型紧密联系起来
23、。基于查询-应答模型的Visitor方法将对象与作用于对象1O4的控制分离,减轻了控制系统的负担,大大提高了系统的灵活性、安全性和可扩展性,使系统结构非常清晰. 同时减轻设计管理系统的负担。扩展的节目参考模型EPRM是一种很好的节目统计信息形式。它采用面向对象的方法将复杂的程序信息组织成层次化的对象结构,并提供了一个接口,通过Visitor方法访问其对象。该模型克服了普通模型的缺点,具有结构简单、对象自主性强、系统灵活性高、输出界面友好、扩展性好等特点。
24、ts of Reusable Objectoriented SoftwareAddison Wesley Longman, Inc, l995 2 Prdn T WProgramming Languages: Design and Implementation PrenticeHall International, Inc, I 996 3 Pressman RS 软件工程从业者的研究方法(第四版)北京:机械工业出版社,1999 4 Eckel Bc+ 编程思想北京:机械工业出版社,2000 5 张杏儿计算机编译原理北京:科学出版社,I 999 6 赵阳,蔡志宇,潘金贵基于EPOM的程序可视化系统的设计与实现计算机的实现工程, 2002, 28 (cms2@>:l08Il0 7 蔡志宇, 赵阳, 潘杰, 等. 基于查询-回答模型的对象控制模型的实现. 计算机工程(已录) 维普资料 http://