基于聚焦爬虫采集Web的原理、技术和方法进行理论研究和实践探索,

优采云发布时间: 2021-01-18 08:03

　　本体论提供了简单，统一和形式化的语义描述，并且由于学术研究和工业生产的需要而越来越受到关注。在我们的研究中，本体是用语义Web语言编写的文档，描述了一组概念及其关系。本体技术的突破性发展需要方法的帮助和工具的支持，以促进有效的本体开发。为此，一个关键的观点是成功重用本体。为了促进主体的使用和支持本体的构建，一些组织进行了研究并建立了应用系统。本体数据库系统是组织和管理本体的重要工具。它通过提供各种功能来支持本体的管理，查询和适应，从而促进了本体的使用。 Swoogle是由马里兰大学开发的语义Web文档索引和检索系统。它提取本体元数据，计算文档关系，并为与本体相关的应用程序提供各种检索服务。但是，采集本体工具中仍然缺少这些系统，并且本体来源受到限制，其功能也受到限制。鉴于现有系统的局限性，我们提出了基于聚焦爬虫技术构建Web本体采集系统的想法。抓取工具是系统后台的信息采集工具，例如搜索引擎。有针对性的爬虫会根据既定的搜索目标使用优先级最高的搜索策略，有选择地访问Web，获取网页并进行更有效的搜索采集。本文针对基于爬虫的Web本体的原理，技术和方法进行了理论研究和实践探索采集。主要结果包括：本体文档网络分布特征的分析与总结；提出了一种适用于Web本体搜索的综合链接评估方法。设计并实现了一个名为“ WebOnto Crawler”的本体文档采集系统。

0

2021-01-18

资讯内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

基于聚焦爬虫采集Web的原理、技术和方法进行理论研究和实践探索,

0 个评论

发起人

AI时代内容工厂

基于聚焦爬虫采集Web的原理、技术和方法进行理论研究和实践探索,

0 个评论

发起人

相关问题