基于聚焦爬虫采集Web的原理、技术和方法进行理论研究和实践探索,
优采云 发布时间: 2021-01-18 08:03基于聚焦爬虫采集Web的原理、技术和方法进行理论研究和实践探索,
本体论提供了简单,统一和形式化的语义描述,并且由于学术研究和工业生产的需要而越来越受到关注。在我们的研究中,本体是用语义Web语言编写的文档,描述了一组概念及其关系。本体技术的突破性发展需要方法的帮助和工具的支持,以促进有效的本体开发。为此,一个关键的观点是成功重用本体。为了促进主体的使用和支持本体的构建,一些组织进行了研究并建立了应用系统。本体数据库系统是组织和管理本体的重要工具。它通过提供各种功能来支持本体的管理,查询和适应,从而促进了本体的使用。 Swoogle是由马里兰大学开发的语义Web文档索引和检索系统。它提取本体元数据,计算文档关系,并为与本体相关的应用程序提供各种检索服务。但是,采集本体工具中仍然缺少这些系统,并且本体来源受到限制,其功能也受到限制。鉴于现有系统的局限性,我们提出了基于聚焦爬虫技术构建Web本体采集系统的想法。抓取工具是系统后台的信息采集工具,例如搜索引擎。有针对性的爬虫会根据既定的搜索目标使用优先级最高的搜索策略,有选择地访问Web,获取网页并进行更有效的搜索采集。本文针对基于爬虫的Web本体的原理,技术和方法进行了理论研究和实践探索采集。主要结果包括:本体文档网络分布特征的分析与总结;提出了一种适用于Web本体搜索的综合链接评估方法。设计并实现了一个名为“ WebOnto Crawler”的本体文档采集系统。