内容采集系统(移动终端的内容来源可通过两种方式获取(图))
优采云 发布时间: 2022-03-20 02:11内容采集系统(移动终端的内容来源可通过两种方式获取(图))
随着移动终端的快速发展和普及,人们越来越习惯于通过在移动终端上安装阅读应用软件来获取感兴趣的信息。与此同时,平台提供商(包括内容提供商)必须构建相应的技术平台来支持这样的商业模式。本平台的内容来源可以通过两种方式获取。一种是手动编辑,另一种是通过程序自动采集信息源的内容。本文针对后者设计了一套Web信息采集的解决方案。论文首先介绍了课题的研究背景、研究现状、信息抽取相关技术及信息采集的工作原理,并分析网页的结构;然后,分析系统的功能和面向用户、应用案例的系统用图建模和用例规范,分析系统的非功能性需求;然后进行系统的总体设计和数据库设计;三是对系统进行了详细的设计和实现;最后对系统进行了测试,验证了该方案的有效性。本文的主要工作如下:1.本文研究了如何在HTML文档中快速定位目标信息,利用HTML标签和属性以及DOM路径表达式设计信息抽取规则。基于人机交互自动生成信息抽取规则,在此基础上设计了一个实用的文本去噪方案。2.本主题由两部分组成:采集配置子系统和采集子系统。采集配置子系统可以将配置好的采集任务通过Socket机制传递给采集子系统,从而控制采集任务的启动和停止操作,使用户无需关心采集 @采集运行该过程以获得采集结果。3.采集子系统根据已配置的采集任务使用多线程技术、数据库连接池技术、动态采集策略、多页面合并技术由用户。网站信息采集,提取、去噪、去重等,