如何在HTML文档中快速定位目标信息的方法,通过利用HTML标签

优采云发布时间: 2021-01-25 10:43

　　摘要：随着移动终端的迅速发展和普及，人们越来越习惯于在平台提供商（包括内容提供商）的陪伴下，在移动终端上安装阅读应用程序来获取感兴趣的信息）。被构建为支持这种商业模式。该平台的内容来源可以通过两种方式获得。一种是手动编辑，另一种是通过程序自动采集信息源的内容。本文为后者设计了一套针对Web信息的解决方案采集。本文首先介绍了该主题的研究背景，研究现状以及信息提取相关技术和信息的工作原理采集，并分析了网页的结构；然后，使用用例图和用例规范对系统用例进行建模，并分析系统的非功能性需求，从而分析系统的功能和面向用户。然后，进行系统的总体设计和数据库设计；再次，系统的详细设计与实现；最后，对系统进行测试以验证解决方案的有效性。本文的主要工作如下：1.本文研究如何快速定位HTML文档中的目标信息，如何使用HTML标签和属性以及DOM路径表达式，使用可视界面和简单的人机来设计信息提取规则。用自动生成信息提取规则，在此基础上，设计了一种实用的文本去噪解决方案。2.本主题包括采集配置子系统和采集子系统两部分。采集配置子系统可以通过Socket机制将已配置的采集任务传递给采集子系统，从而控制采集任务的启动和停止操作，因此用户不需要关心采集的运行过程。 k15]结果。3.采集子系统根据用户配置的采集任务使用多线程技术，数据库连接池技术，动态采集策略和多页合并技术，并定期执行有关这些任务的信息网站，采集，提取，去噪，去重复等，以实现相关网站特定信息的定时采集更新。更多还原

0

2021-01-25

自动采集子系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何在HTML文档中快速定位目标信息的方法,通过利用HTML标签

0 个评论

发起人