如何在HTML文档中快速定位目标信息的方法,通过利用HTML标签
优采云 发布时间: 2021-01-25 10:43如何在HTML文档中快速定位目标信息的方法,通过利用HTML标签
摘要:随着移动终端的迅速发展和普及,人们越来越习惯于在平台提供商(包括内容提供商)的陪伴下,在移动终端上安装阅读应用程序来获取感兴趣的信息)。被构建为支持这种商业模式。该平台的内容来源可以通过两种方式获得。一种是手动编辑,另一种是通过程序自动采集信息源的内容。本文为后者设计了一套针对Web信息的解决方案采集。本文首先介绍了该主题的研究背景,研究现状以及信息提取相关技术和信息的工作原理采集,并分析了网页的结构;然后,使用用例图和用例规范对系统用例进行建模,并分析系统的非功能性需求,从而分析系统的功能和面向用户。然后,进行系统的总体设计和数据库设计;再次,系统的详细设计与实现;最后,对系统进行测试以验证解决方案的有效性。本文的主要工作如下:1.本文研究如何快速定位HTML文档中的目标信息,如何使用HTML标签和属性以及DOM路径表达式,使用可视界面和简单的人机来设计信息提取规则。用自动生成信息提取规则,在此基础上,设计了一种实用的文本去噪解决方案。2.本主题包括采集配置子系统和采集子系统两部分。 采集配置子系统可以通过Socket机制将已配置的采集任务传递给采集子系统,从而控制采集任务的启动和停止操作,因此用户不需要关心采集的运行过程。 k15]结果。3.采集子系统根据用户配置的采集任务使用多线程技术,数据库连接池技术,动态采集策略和多页合并技术,并定期执行有关这些任务的信息网站,采集,提取,去噪,去重复等,以实现相关网站特定信息的定时采集更新。更多还原