自动采集子系统(如何在信息浩如烟海的互联网上准确获取并长期跟踪自己关注的内容)

优采云发布时间: 2021-09-07 13:09

　　总结：在海量信息、长期跟踪的情况下，如何准确获取和跟踪自己关注的内容，这一新问题已成为制约互联网使用的重要因素之一。网络数据自动采集旨在解决这个问题。文章从理论研究和应用技术两个方面讨论。本文给出了一个自动化采集模型，基于房地产行业设计了一个自动化采集系统，并证明了自动化采集的可行性和优势。同时也指出了其局限性和不足。

　　关键词：information采集半结构化数据数据挖掘地产

　　[Abstract] 在网络上寻找和追踪一个人感兴趣的内容越来越困难，其信息过载。这个问题极大地影响了互联网的有效使用。而网络数据自动化提取在解决这个问题方面取得了重大进展。本文从学术研究和应用技术两个方面对其进行了探讨。并给出了数据自动化抽取模型，设计了一个基于房地产行业的Web数据自动化抽取系统，证明了自动化抽取的可行性和优势。同时也指出了应用的局限性。

　　数据仓库

　　[关键词] 数据提取、半结构化数据、数据挖掘、房地产

　　1.网络数据自动采集理论基础

　　Web 可以说是目前最大的信息系统，其数据具有海量、多样、异构、动态变化的特点。因此，人们越来越难以准确、快速地获取所需的数据。虽然搜索引擎种类繁多，搜索引擎考虑的数据召回率较多，但准确率不足，难以进一步挖掘。深度数据。因此，人们开始研究如何进一步获取互联网上一定范围的数据，从信息搜索到知识发现。

　　1.1 相关概念

　　Web数据自动采集的内涵和外延非常广泛，目前还没有明确的定义。 Web 数据自动化采集涉及 Web 数据挖掘、Web 信息复兴、信息提取和搜索引擎等概念和技术。 Web 数据挖掘与这些概念密切相关，但也存在差异。

　　(1)网络数据自动采集和挖掘

　　Web 挖掘是一种特殊的数据挖掘。目前还没有统一的概念。我们可以借鉴数据挖掘的概念来给出网络挖掘的定义。所谓网络挖掘，是指大量非结构化、异构的、发现有效的、新颖的、潜在可用的和最终可理解的知识（包括概念、模式、规则、规则、约束和可视化等）的非平凡过程。在Web信息资源中。包括Web内容挖掘、Web结构挖掘和Web使用挖掘1.

　　SOA

　　(2)网络数据自动采集和搜索引擎

　　Web Data Auto采集与搜索引擎有很多相似之处，例如都使用信息检索技术。但是，两者的侧重点不同。搜索引擎主要由三部分组成：Web Scraper、索引数据库和查询服务。爬虫在互联网上的漫游是无目的的，而是尝试寻找更多的内容。查询服务返回尽可能多的结果，并不关心结果是否符合用户习惯的专业背景。而Web Data Auto采集主要为特定行业提供面向领域、个性化的信息挖掘服务。

　　Web 数据自动采集和信息提取：信息提取是近年来新兴的概念。信息抽取是面向不断增长变化的，特定领域文献中的特定查询，此类查询是长期的或连续的（IE问题在面对不断增长和变化的语料库时被指定为长期存在或持续的查询2). 与传统搜索引擎基于关键字查询不同，信息提取是基于查询的，不仅收录关键字，还匹配实体之间的关系。信息提取是一个技术概念，网络数据自动采集很大程度上取决于信息提取技术实现长期动态跟踪。

　　(3)网络数据自动采集和网络信息检索

　　信息检索是从大量 Web 文档集合 C 中找到与给定查询 q 相关的相当数量的文档子集 S。如果把q当作输入，把S当作输出，那么Web信息检索的过程就是输出图像的输入：

　　人工智能

　　ξ: (C: q)-->S3

　　虽然Web Data Auto采集不会直接将Web文档集合的一个子集输出给用户，但它需要进一步的分析和处理、重复检查和去噪以及数据集成。尝试将半结构化甚至非结构化数据转化为结构化数据，然后以统一的格式呈现给用户。

　　因此，网络数据自动采集是网络数据挖掘的重要组成部分。它采用网页数据检索和信息提取技术，弥补了搜索引擎针对性和专业性的不足，无法实现动态数据跟踪。由于监控的不足，这是一个非常有前景的领域。

　　1.2 研究意义

　　(1)解决信息冗余下的信息悲剧

　　随着互联网信息的快速增长，互联网上越来越多的对用户毫无价值的冗余信息，使得人们无法及时准确地捕捉到自己需要的信息，以及信息的效率和有效性利用率大大降低。互联网上的信息冗余主要体现在信息的过载和信息的无关性。选择的复杂性和许多其他方面。

　　因此，在当今高度信息化的社会中，信息冗余和信息过载已成为互联网上亟待解决的问题。网页数据采集可以通过一系列方法，根据用户兴趣自动搜索互联网上特定类型的信息，去除无关数据和垃圾数据，过滤虚假数据和延迟数据，过滤重复数据。用户无需处理复杂的网页结构和各种超链接，直接根据用户需求将信息呈现给用户。可以大大减少用户的信息过载和信息丢失。计算机知识

　　(2)解决搜索引擎智能低的问题

　　虽然互联网上信息量巨大，但对于特定的个人或群体而言，获取相关信息或服务以及关注的范围只是一小部分。目前，人们主要通过谷歌、雅虎等搜索引擎查找在线信息，但这些搜索引擎规模大、范围广，检索智能不高，查准率和查全率问题日益突出此外，搜索引擎很难根据不同用户的不同需求提供个性化服务。

　　(3)节省人力物力成本

　　与传统手工采集数据相比，自动采集可以减少大量重复性工作，大大缩短采集时间，节省人力物力，提高效率。并且人工数据采集不会有任何遗漏、偏差和错误。

　　2.网络数据自动采集应用研究

　　2.1 应用功能

　　从上面的讨论可以看出，网络数据自动化采集是面向特定领域或特定需求的。因此，其应用的最大特点是基于领域，基于需求。没有有效的采集模型可以用于所有领域。 web数据自动化采集的原理研究是一样的，但是具体的应用和实现必须是领域驱动的。例如，科研人员可以通过跟踪研究机构和期刊网站中某个学科的文章来跟踪相关学科的最新进展；政府可以对某一主题的舆论发展和人口地域分布进行监测；猎头公司监控部分企业网站招聘，获取人才需求变化；零售商可以监控供应商在线产品目录和价格等方面的变化。房地产中介可以自动采集在线房地产价格信息，判断房地产行业的变化趋势，获取客户信息进行营销。

　　计算机知识

　　2.2应用产品

　　Web Data Auto采集Web Data Auto采集应运而生。除个人信息采集服务外，还可广泛应用于科研、政治、军事、商业等领域。例如应用于信息采集子系统。根据企业各级信息需求，构建企业信息资源目录，构建企业信息库、信息库、知识库，通过互联网、企业内部网、数据库、文件系统、信息系统等。信息资源全面整合，实时采集，监控各企业所需的情报信息。可以协助企业建立外部环境监控和采集系统，构建企业信息资源架构，有效监控产业环境、市场需求、相关政策、突发事件、竞争对手，帮助企业第一时间把握市场机遇 4.

　　因此，一些相关的产品和服务已经开始在市场上销售。比如美国Velocityscape的Web Scraper Plus+软件5，加拿大提供量身定制的采集服务6。除了这些在市场上公开销售的商业产品外，一些公司也有自己内部使用的自动采集系统。所有这些应用都基于特定行业。

　　3.Web 数据自动采集模型

　　虽然Web Data Auto采集是面向特定领域的，但采集的原理和流程是相似的。因此，本节将设计一个Web数据自动采集系统模型。

　　3.1 采集模型架

　　系统根据功能不同可分为三个模块：数据预处理模块、数据过滤模块和数据输出模块。计算机知识

　　3.2 数据预处理模块

　　数据预处理是采集流程的重要组成部分。如果数据预处理工作做好，数据质量高，数据采集过程会更快更简单，最终的模型和规则会更有效和适用，结果也会更成功。由于数据源种类繁多，各种数据的特征属性可能不能满足主体的需要，因此数据预处理模块的主要功能是在Web上定义数据源，格式化数据源并初步过滤数据源。该模块需要将网页中的结构化、半结构化和非结构化数据和类型映射到目标数据库。所以数据预处理是数据采集的基础和基础。

　　3.3 数据过滤模块

　　数据过滤模块负责对来自采集的本地数据进行进一步的过滤处理，并存储到数据库中。可以考虑网页建模、数理统计、机器学习等方法对数据进行过滤清理7。

　　网页主要由标签标记和显示内容两部分组成。数据过滤模块通过建立网页模型，解析Tag标签，构建网页的标签树，分析显示内容的结构。

　　获取网页的结构后，以内容块为单位保留和删除数据。最后，获得的数据在放入数据库并建立索引之前必须进行重复数据删除。

　　3.4 数据输出模块

　　数据输出模块将目标数据库中的数据经过处理后呈现给用户。本模块属于数据采集的后续工作，可根据用户需求确定模块的责任程度。基本功能是将数据以结构化的方式呈现给用户。此外，还可以添加报表图标等统计功能。当数据量达到一定程度时，可以进行数据建模、时间序列分析、相关性分析，发现各种概念规则之间的规律和关系，使数据发挥最大效用。 SAAS

　　4.Automatic 采集基于房地产行业的系统设计

　　如前所述，Web 数据采集必须是域驱动的或数据驱动的。因此，本节在第3章的理论基础上，设计了一个基于房地产行业的Web自动化采集系统。

　　4.1.研究目标

　　房地产是当今最活跃的行业之一，拥有众多信息供应商和需求商。无论是政府、房地产开发商、购房者、投资者还是银行信贷部门，都想了解最新的房地产价格走势。互联网上有大量的信息提供者，但用户没有时间浏览所有这些网页。即使是房地产信息也具有地域和时间特征。

　　房产中介经常在一些比较大的房产网站采集房产价格和*敏*感*词*。通常的做法是手动浏览网站查看最新更新的信息。然后将其复制并粘贴到数据库中。这种方式不仅费时费力，而且在搜索过程中也有可能遗漏，在数据传输过程中可能会出现错误。针对这种情况，本节将设计一个自动采集房产信息的系统。实现数据采集的高效化和自动化。

　　4.2.系统原理

　　自动化采集系统基于第3节采集模型框架。作者设计的数据自动化采集系统采用B/S模式，开发平台为Microsoft Visual .Net 2003，运行于window 2000 Professional 系统下编译，开发语言为C#+，数据库服务器为SQL SERVER 2000。

　　(1)系统架构分析SOA

　　采集模型以组件的形式放置在组件目录下，类的方法和功能以面向对象的方式进行封装以供调用。后缀为 aspx 和 htm 的文件是直接与用户交互的文件。此类文件不关心采集模型的具体实现，只需要声明调用即可。

　　这种结构的优点是不需要安装特定的软件，升级维护方便，可以通过浏览器直接调用服务器后台的组件。一旦需要更改采集模型，可以直接修改组件下的CS文件。

　　(2)用户交互分析

　　用户服务结构主要由规划任务、查看数据和分析数据组成。在定时任务中设置监控计划的名称、URL、执行时间等。在查看数据时，首先可以看到特定监控计划下网站的新挖矿项目数和最后采集的时间。您可以立即开始执行采集任务。进入详细页面后，可以看到采集的内容，采集的时间以及是否已阅读的标记。检查所有记录后，是否已读取标记自动变为是。对数据进行分析，对数据进行二次处理，发现新知识等，可以进一步深化。

　　(3)操作模式分析

　　系统可以采用多种操作模式。比如用户操作。用户可以随时监控网页的最新变化。但是，如果数据量大且网络繁忙，则需要更长的等待时间。同时，数据采集在数据量较大的情况下，会给采集所针对的服务器带来更大的压力。因此，我们应该尽量让系统在对方服务器空闲时自动运行。比如可以在Windows控制面板中添加定时任务，让采集系统每天早上开始搜索最新的网页更新，执行数据采集任务。在 Windows 2000 Professional 和更高版本中，组件也可以作为 Windows 服务和应用程序启动。采集系统会像 Windows Update 一样自动开启并执行。总之，采集系统可以根据实际需要选择多种灵活的运行模式，兼顾采集器和采集的情况。

　　编程技术

　　4.3.限性

　　网页数据自动采集主要完成采集功能。它不是万能药，它只是一种工具。无法自动理解用户的业务，理解数据的含义。它只是通过一系列技术手段来帮助人们更有效、更深入地获取他们所需要的数据。它只对采集数据负责，至于为什么要做，需要考虑。

　　其次，为了保证采集results数据的价值，用户必须在准确性和适用范围之间寻求平衡。一般来说，采集模型的范围越广，采集冗余数据到异常的可能性就越大。反之，数据采集模型的精度越高，应用范围就会相对缩小。因此，用户必须了解自己的数据。虽然有些算法可以考虑到数据异常的处理，但让算法自己做所有这些决定是不明智的。

　　Data采集不会在没有指导的情况下自动发现模型。 data采集系统需要在用户的帮助和指导下指定一个模型。并需要用户反馈采集结果进行进一步优化改进工作。由于现实生活中的变化，最终模型也可能需要更改。

　　5、结论

　　在研究领域，Web Data Automation采集是一个极具潜力的新兴研究领域。它与数据挖掘、信息检索和搜索引擎技术相辅相成，各有侧重。但随着数据挖掘技术的发展和智能搜索引擎的出现，它们相互促进，并有进一步融合的趋势。

　　在实际应用中，Web Data Auto采集解决了当前互联网信息过载无法有效利用的现状，提高了信息使用效率，提高了人们的工作效率，减轻了工作负担。经济和军事都有很大的使用价值，越来越多的厂商会涉足相关的服务和应用。但另一方面，对于一些不想被采集的信息，比如商品价格、公司产品、个人隐私等，如何反自动采集也是一个重要的问题。

　　SAAS

　　在知识经济时代，谁能有效地获取和使用知识，谁就有赢得竞争的武器和工具。 Web数据自动化采集作为一种获取和使用知识的有效手段，越来越受到人们的关注和关注。只有从数据中提取信息，从信息中发现知识，才能更好地服务于个人、企业和国家的思维和战略发展。

　　参考资料

　　1 周涛李军，卢惠玲。 Web数据挖掘技术研究[J]．汉中师范大学学报（自然科学）． 2004.22：87

　　2 斯蒂芬·索勒兰。半结构化和自由文本的学习信息抽取规则[M]．波士顿：Kluwer Academic Publishers，2001 年

　　3 林杰斌、刘明德、陈翔。数据挖掘与OLAP的理论与实践[M]．北京：清华大学出版社，2003，45

　　4 杨健林，孙明军。竞争情报采集自动化[J]．信息技术。 2005.1：40-43

　　5 Velocityscape 产品：Web Scraper Plus+（Aceess 2006-1-18)

　　6 Ficstar：基于项目的定制服务。 (Aceess 2006-1-18)数据挖掘知识

　　7 林建勤。基于Web的数据挖掘应用模式研究[J]．贵州师范大学学报（自然科学版）。 2004.8：92-96

0

2021-09-07

自动采集子系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集子系统(如何在信息浩如烟海的互联网上准确获取并长期跟踪自己关注的内容)

0 个评论

发起人

AI时代内容工厂

自动采集子系统(如何在信息浩如烟海的互联网上准确获取并长期跟踪自己关注的内容)

0 个评论

发起人

相关问题