自动采集子系统(web信息采集系统功能*敏*感*词*采集配置子系统)
优采云 发布时间: 2022-03-07 12:23自动采集子系统(web信息采集系统功能*敏*感*词*采集配置子系统)
网络信息采集系统需求分析:本文分析了网络信息采集系统的需求,描述了系统的功能,分析了系统的功能性和非功能性需求。关键词:需求;信息; 采集 CLC 号:TP274.2 手动使用浏览器复制粘贴实现网页信息的采集,效率低,错误率高。如果采集的信息量很大,则无法手动完成。利用网络信息采集系统实现网络信息的采集和处理是解决该问题的较好途径。需求概述 开发网络信息采集系统的目的是满足用户从多个指定网站自动定时采集 文章信息,包括文章标题、正文、作者、时间、出处等,可以对信息进行分类存储,达到信息复用的目的。信息采集程序无法预测和获取用户的准确需求,因此系统应提供一个平台供用户提交需求。通过这个平台,用户可以及时提交采集任务,告诉采集系统采集什么样的数据。Web Information采集系统分为两个子系统,采集Configuration和采集。如图1所示。网页信息采集系统组成采集配置子系统是为了满足普通用户提交采集的需要。用户通过子系统配置目标信息的采集任务,包括文章的发布状态、站点名称地址、所属栏目、采集时间、采集规则等诸多要求。采集配置子系统也可以及时启动和停止采集任务的执行。
采集子系统完成具体信息采集工作。自动采集,根据采集配置子系统对采集任务的设置,对网站的信息进行提取和去重,提取大量非结构化信息从网页保存到结构化数据功能需求网页信息采集系统功能如图2所示。网页信息采集系统功能*敏*感*词*采集配置子系统主要完成以下功能: (1)采集任务管理实现用户对采集任务操作的增删改查,每个采集任务对应一个已有的列,从而实现分类,采集 内容的处理和存储。(2)自动生成抽取规则,用户选择采集数据项,系统可以自动智能生成相应的数据抽取规则。当配置页面发生变化时,需要重新生成抽取规则。(< @3)自定义去噪去重规则 从网页获取的大量信息可能存在于用户中 不必要的信息和重复的内容会干扰提取内容的排版和使用,需要对这些信息进行去噪处理(4)采集任务启动和停止采集任务可以及时启动和停止,采集任务配置完成后即可加入采集 信息子系统及时采集工作。采集子系统主要完成以下功能:(1)动态采集信息用户对网页信息的采集时效性要求较高,如采集对于新闻信息,如果不能及时反馈给用户,即使是非常有价值的信息也失去了意义和价值。
<p>因此,实现信息的动态采集非常重要。系统应具备动态采集机制,定期自动检测网站内容,及时获取网站最新信息。(2)运行监控,因为信息采集过程是动态的,所以系统要及时监控采集任务的运行,如果信息有问题采集@ >,系统应及时发现并报告给用户,用户将根据问题的类别进行处理。非功能性需求除了满足网页信息的功能性需求采集,系统还应满足用户的以下非功能性要求:(1) 如何准确来自于在浩瀚复杂的信息海洋中准确获取用户所需的信息,是系统设计中需要考虑的关键问题。只有准确获取信息,用户才能实现有效信息的复用。(2)高效信息采集系统可以从很多站点获取信息,但是用户需要在最短的时间内准确的获取到自己需要的信息。因此,及时高效的将有效信息呈现给用户是一种系统功能是否满足用户需求的必要方面。(