供应信息和文章都能优化的采集软件(【摘要】国家森林资源信息数据基于IPAD的应用)

优采云 发布时间: 2021-10-16 06:44

  供应信息和文章都能优化的采集软件(【摘要】国家森林资源信息数据基于IPAD的应用)

  【摘要】基于iPad2的全国森林资源信息数据为林业调查做出了很多贡献,其用途是“规划森林”。由于iPad2“轻巧便携,待机时间长,用于野外传输数据”,本文基于对ipad森林资源数据的分析。

  【关键词】森林资源;信息数据;IPAD网络;应用

  前言

  国家森林资源连续清查制度在目标任务要求、技术标准、定样地调查、定样地调查质量管理、样地调查内部工作、遥感影像目视解译等方面有严格要求。GPS和软件的使用,下面主要讨论基于IPAD的全国森林资源连续清查信息数据采集系统的应用。利用该技术不仅是完成全国森林资源清查任务的必要条件,也是掌握我区森林资源状况的必要条件。对正确评价我区林业发展和生态建设成果具有重要意义,

  一、IPAD系统架构

  森林资源信息多数据源信息检索系统分为数据采集层和信息检索层两层。数据采集层以Oracle全局数据库为核心,通过ODI整合异构数据库的数据。,并通过网络爬虫和非结构化文本数据分析实现多数据源数据采集,向上通过数据库接口为上层应用提供数据:信息检索层使用基于Lueene的Nutch搜索引擎实现信息索引和搜索。系统包括异构数据库集成、异构文档分析、信息分类模块、信息索引模块、信息检索模块和系统管理模块六部分。

  基于IPAD的森林资源信息数据应用信息检索技术并不是简单地将开源搜索引擎技术应用到IPAD上,而是根据森林资源信息数据的内部数据特征设计相应的解决方案。异构数据库集成*敏*感*词*、发布时间等分类信息检索,并实现了信息的高级检索功能。信息索引模块对多个数据源进行索引并优化索引,减少索引文件的数量,可以快速定位用户所需的资源,及时有效地获取信息。系统管理模块对不同的资源设置不同的访问权限,根据用户权限确定可以访问的资源。

  二、基于IPAD系统主要功能模块

  ODI(Oracle Data Integrator)是一种数据集成中间件工具,它使用 ELT 概念来提取、加载和转换数据。它最大的特点是提出了知识模块的概念。ODI使用Jvthon脚本语言结合数据库SQL语句,记录一些场景(如加载文件到数据库、从MySQL数据库抓取数据到Oracle数据库等)的详细实现步骤,形成知识模块。100多个主流数据库引擎和应用系统的知识模块。基于IPAD的森林资源信息数据应用基本涵盖了普通应用涉及的所有场景,因此ODI可以支持森林资源信息数据中的多个异构数据库。在数据集成任务中,ODI 通过声明设计并使用接口和关系图等概念来分离集成的逻辑和技术方面来声明数据集成规则。基础技术方面由知识模块描述和定义。系统只需要获取森林资源信息。数据侧重于集成任务规则的制定。

  三、基于IPAD信息索引检索的森林资源信息数据

  IPAD的应用是为了满足用户进行全网搜索和分类、划分搜索信息的需求,提高搜索效率。信息索引模块首先为每个数据源建立一个索引文件,提供给森林资源数据的分类检索,再通过优化索引提供给全世界。从网络检索用户。优化索引是将多个索引文件合并为一个文件的过程。目的是减少索引文件的数量,减少搜索时读取索引文件的时间。Nutch 中的 IndexWrite 类提供了一个优化方法来实现这个优化操作。Nutch中的MultiSearcher类可以实现优化索引的全网搜索功能,

  针对森林资源信息数据信息检索的特点。系统综合考虑信息相关性、时效性、访问量等因素后,采用自定义排序机制。系统利用Lucene的激励因子boost值来改变文档评分,从而调整文档的出现顺序。系统为森林资源信息数据的用户提供通用搜索和高级搜索功能。通用搜索可以在用户输入搜索信息的关键词后检索到需要的信息:高级搜索功能为用户提供了更详细的搜索条件。根据需要执行更精细的信息检索。除了管理用户权限,

  四、IPAD系统运行环境

  考虑到开发、调试和维护的方便,系统在试运行时采用Windows平台。上层基于开源的Nutch搜索引擎开发,以MyEclipse为开发平台,Java语言实现,具有跨平台特性。但是由于运行Nutch自带的脚本命令需要Linux环境,所以必须先安装Cygwin才能模拟这个环境。为保证Nutch1.0版本能正常运行,Java虚拟机需要使用JDK1.6及以上版本,并使用WebSphere6.0作为检索的容器平台。系统底层采用Oracle 10g作为全局数据库。数据集成工具ODI版本为10.1.3,

  五、资料采集 系统搭建

  IPAD信息采集是体现网络信息价值的主要方式之一。主要功能是:根据森林的自定义任务配置,批量准确提取互联网目标网页中的半结构化和非结构化数据,转换为结构化记录,保存在本地森林资源数据库中,供内部使用或发布到外网,快速获取外部信息。IPAD信息采集 除了处理远程网页外,系统还可以处理本地网页、远程文本文件或本地文本文件。

  六、信息采集系统应用

  IPAD的信息采集系统应用是根据林业资源调查因子自定义采集的任务,需要的林业资源调查因子信息可以采集通过任务的方式发送到你的本地自定义数据库中,支持的森林数据库包括Mysql、access、oracle、ms sql等,也可以将采集好森林资源的相关信息发布到其他网站系统,同样适用到其他数据采集。可见,数据采集系统在IPAD中扮演着重要的角色。

  七、结论

  森林资源信息数据基于IPAD的应用,实现了森林资源各类信息发布系统异构后端数据库的有效集成与集成,改变了以往主要通过网络爬虫获取数据的方式,改进数据来源的准确性和质量。通过Nutch插件机制,实现对非结构化文本的分析。从而为信息的索引和检索打下良好的基础。信息检索模块基于Nutch搜索引擎技术,充分利用Lucene接口,实现灵活高效的全网信息检索系统

  参考:

  [1]胡昌平. 现代信息管理机制研究。武汉:武汉大学出版社,2004

  [2]杨元庆.构建互联网应用新模式,推动中国信息化。现代电信技术, 2002 (3): 18-20

  [3]王雪松Lucene+Nutch搜索引擎[M]北京:人民邮电出版社,2008

  [4] 黄少林, 王华, 张玉红, 蒋一峰, 基于Lucene的索引系统的设计与实现, 现代信息, 2009, 29 (7): 169-171

  [5]刘启勇,基于LUCENE的多数据源全文检索系统的设计与实现,重庆:重庆大学,2008

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线