自动采集系统([Keywords]DataExtraction,-structured,EstateWeb数据自动采集的理论基础)

优采云发布时间: 2022-03-24 08:07

　　摘要：如何准确获取并长期跟踪一个人在充满信息的互联网上关注的内容，已成为制约互联网使用的重要因素之一。而Web Data Auto采集就是为了解决这个问题。文章从理论研究和应用技术两个方面进行探讨。本文提出了一个自动化采集模型，设计了一个基于房地产行业的自动化采集系统，并证明了自动化采集的可行性和优势。同时，也指出了它的局限性。

　　关键词：信息采集半结构化数据数据挖掘房地产

　　[摘要] 在网络上查找和追踪一个人感兴趣的内容越来越困难，其信息过载。这个问题极大地影响了互联网的有效使用。而网络数据自动化抽取在解决这一问题上取得了重大进展。本文从学术研究和应用技术两个方面对其进行了探讨。并给出了数据自动化抽取模型，设计了基于房地产行业的Web数据自动化抽取系统，证明了自动化抽取的可行性和优势。同时，也指出了应用的局限性。

　　[关键词] 数据提取、半结构化数据、数据思维、房地产

　　1.Web 数据自动化的理论基础采集

　　Web可以说是目前最大的信息系统，其数据具有海量、多样、异构、动态变化的特点。因此，人们越来越难以准确、快速地获取所需的数据。虽然目前有各种搜索引擎，搜索引擎更多地考虑数据的查全率，但准确率不足，难以进一步挖掘深度数据。因此，人们开始研究如何在互联网上进一步获取特定范围的数据，从信息搜索到知识发现。

　　1.1相关概念

　　Web数据自动化采集的内涵和外延非常广泛，目前还没有明确的定义。Web数据自动化采集涉及Web数据挖掘、Web信息复兴、信息抽取、搜索引擎等概念和技术。Web 数据挖掘与这些概念密切相关但又有所不同。

　　（1) Web 数据自动化采集和挖掘

　　Web挖掘是一种特殊的数据挖掘。到目前为止，还没有统一的概念。我们可以参考数据挖掘的概念来给出Web挖掘的定义。所谓Web挖掘，是指大量非结构化、异构的Web信息。在资源中发现有效、新颖、潜在可用和最终可理解的知识（包括概念、模式、规则、法律、约束和可视化）的重要过程。包括Web内容挖掘（Web content mining）、Web结构挖掘（Web structure mining）和Web使用挖掘（Web usage mining）1。

　　(2)网页数据自动采集搜索引擎

　　Web 数据自动化采集与搜索引擎有许多相似之处，例如使用信息检索技术。但是，两者的侧重点不同。搜索引擎主要由三部分组成：网络爬虫（Web Scraper）、索引数据库和查询服务。爬虫在网上漫游是漫无目的的，尽量多找内容就好。查询服务返回尽可能多的结果，无论结果是否符合用户习惯的专业背景。而Web Data Auto采集主要为特定行业提供面向领域、个性化的信息挖掘服务。

　　Web 数据自动化采集和信息提取：信息提取是近年来新兴的概念。信息提取面向特定领域中不断增长和变化的特定文献查询，面对不断增长和变化的语料库2)，此类查询被指定为长期或连续查询。与基于关键字查询的传统搜索引擎不同，信息提取是基于查询的。它不仅收录关键字，还匹配各种实体之间的关系。信息抽取是一个技术概念。, Web数据自动化采集很大程度上依赖于信息抽取技术来实现长期的、动态的跟踪。

　　（3) Web 数据自动化采集和 Web 信息检索

　　信息检索就是从大量 Web 文档 C 中找到与给定查询 q 相关的文档子集 S。如果将 q 视为输入，将 S 视为输出，那么 Web 信息检索的过程就是输入到输出图像：

　　ξ: (C: q)-->S3

　　但是Web数据自动化采集并不是直接将Web文档集合的一个子集输出给用户，而是需要进一步的分析处理、去重去噪、数据整合等。尝试将半结构化甚至非结构化数据转换为结构化数据，然后以统一的格式呈现给用户。

　　因此，Web数据自动化采集是Web数据挖掘的重要组成部分。它利用Web数据检索和信息抽取技术来弥补搜索引擎缺乏针对性和专业性，不能实现动态数据跟踪和监控的缺点，是一个非常有前景的领域。

　　1.2研究意义

　　(1) 解决Information Redundancy下的Information Trek

　　随着互联网信息的快速增长，互联网上对用户没有价值的冗余信息越来越多，使得人们无法及时准确地捕捉到自己需要的内容，影响信息的效率和效果。利用率大大降低。互联网上的信息冗余主要体现在信息的超载和信息的不相关。选择的复杂性等。

　　因此，在当今高度信息化的社会中，冗余信息过载已成为互联网亟待解决的问题。另一方面，Web数据采集可以通过一系列方法自动搜索互联网上特定类型的信息，根据用户兴趣，剔除不相关数据和垃圾数据，过滤虚假数据和滞后数据，过滤重复数据。用户无需处理复杂的网页结构和各种超链接，直接根据用户的需求将信息呈现给用户。可以大大减少用户的信息过载和信息丢失。

　　(2)解决搜索引擎智能不高的问题

　　互联网上虽然信息量巨大，但对于特定的个人或群体而言，获取相关信息或服务，关注的范围只是很小的一部分。目前，人们主要通过谷歌、雅虎等搜索引擎搜索在线信息。然而，这些搜索引擎涉及范围大且范围广，检索智能不高，查准率和查全率问题日益突出。并且搜索引擎很难针对不同用户的不同需求提供个性化服务。

　　(3)节省人力物力成本

　　相比传统人工采集数据，自动化采集可以减少大量重复性工作，大大缩短采集时间，节省人力物力成本，提高效率。并且人类数据中没有遗漏、偏见和错误采集。

　　2.Web数据自动化应用研究采集

　　2.1应用特点

　　从上面的讨论可以看出，网络数据自动化采集是面向特定领域或特定需求的。因此，其应用的最大特点就是基于领域和需求。没有适用于所有领域的采集模型。Web数据自动化的原理研究采集是一样的，但是在具体的应用和实现中必须是领域驱动的。例如，研究人员可以通过跟踪研究机构和期刊网站中某个主题的文章，及时了解他们关心的学科的最新进展；政府可以监测人们对特定话题的舆论发展趋势，以及地域分布等；猎头公司监控部分公司的招聘情况网站获取人才需求的变化；零售商可以监控供应商在线目录和价格的变化等。房地产中介可以自动采集网上房地产价格信息，判断房地产行业的变化趋势，获取客户信息进行营销。

　　2.2应用产品

　　Web Data Auto采集Web Data Auto采集是从实际应用的需要中诞生的。除了个人信息采集服务外，它还可以在科研、政治、军事和商业等领域有广泛的应用。例如应用于智能采集子系统，根据企业各部门的信息需求，构建企业信息资源目录，构建企业信息库、智能库、知识库根据。系统等信息资源全面整合到采集，实时监控各企业所需的情报信息。可协助企业建立外部环境监控及采集系统，

　　因此，一些相关的产品和服务也开始在市场上销售。例如，Velocityscape 在美国、加拿大的 Web Scraper Plus+ 软件5 提供量身定制的采集服务6。除了这些商业上可用的商业产品之外，一些公司还拥有自己的自动化采集系统供内部使用。所有这些应用程序都是特定于行业的。

　　3.网页数据自动采集模型

　　尽管 Web 数据自动化采集是特定于域的，但其原理和过程是相似的。因此，本节将设计一个网络数据自动化采集系统的模型。

　　3.1 采集模型框架

　　系统按功能不同可分为三个模块：数据预处理模块、数据过滤模块和数据输出模块。

　　3.2 数据预处理模块

　　数据预处理是数据采集过程的重要组成部分。如果数据预处理做得好，数据质量高，数据采集的处理会更快更容易，生成的模式和规则会更有效和适用，结果也会更成功. 由于数据源的种类很多，各种数据的特征属性可能无法满足主体的需要，所以数据预处理模块的主要功能是在Web上定义数据源，对数据源进行格式化和过滤最初的数据源。该模块需要将网页中的结构化、半结构化和非结构化数据和类型映射到目标数据库。因此，数据预处理是data采集的基础和基础。

　　3.3 数据过滤模块

　　数据过滤模块负责对来自采集的本地数据进行进一步的过滤和处理，并存储到数据库中。数据过滤和清洗可以通过网页建模、数理统计、机器学习等方法来考虑。

　　网页主要由两部分组成：标签标记和显示内容。数据过滤模块通过建立网页模型，解析Tag标签，构建网页的标签树，分析显示内容的结构。

　　得到网页结构后，以内容块为单位进行数据的保留和删除。最后，获取的数据在放入数据库进行索引之前必须进行重复数据删除。

　　3.4 数据输出模块

　　数据输出模块对目标数据库中的数据进行处理并呈现给用户。本模块属于数据采集的后续工作，可根据用户需求确定模块的责任程度。基本功能是以结构化的方式将数据呈现给用户。此外，还可以添加报表图标等统计功能。当数据量达到一定水平时，可以对数据进行建模，进行时间序列分析和相关性分析，发现各种概念规则之间的模式和关系，从而最大限度地利用数据。

　　4.自动采集基于房地产行业的系统设计

　　如前所述，Web数据采集必须是领域驱动的或数据驱动的，因此本节根据本章的理论基础，介绍基于房地产行业的Web自动化采集系统的设计。 3.

　　4.1.研究目标

　　房地产是当今最活跃的行业之一，信息的供应者和需求者众多。无论是政府、房地产开发商、购房者、投资者还是银行信贷部门，都想知道房地产价格的最新走势。互联网上有大量的信息提供者，但用户不可能有时间浏览所有这些页面。甚至房地产信息也具有区域性和时间性特征。

　　房地产经纪人经常采集一些相对较大的房产中的房地产价格和*敏*感*词*网站。一种常见的做法是手动浏览网站以获取最新更新。然后将其复制并粘贴到数据库中。这种方法不仅费时费力，而且在搜索过程中可能会遗漏，在数据传输过程中可能会出现错误。针对这种情况，本节将设计一套自动采集房产信息系统。实现数据的高效化和自动化采集。

　　4.2.系统原理

　　自动化采集系统基于第三节采集模型框架。作者设计的数据自动化采集系统采用B/S模式，开发平台为Microsoft Visual。 Net 2003，window 2000 Professional操作系统下编译，开发语言为C#+，数据库服务器为SQL SERVER 2000。

　　(1)系统架构分析

　　采集模型以组件的形式放置在组件目录下，将类的方法和函数以面向对象的方式封装起来供调用。后缀为 aspx 和 htm 的文件是直接与用户交互的文件。此类文件不关心采集模型的具体实现，只需要声明调用即可。

　　这种结构的优点是不需要安装特定的软件，升级维护方便，服务器后台的组件可以直接通过浏览器调用。一旦采集模型需要更改，只需修改组件下的 CS 文件即可。

　　(2)用户交互分析

　　用户服务结构主要由规划任务、查看数据和分析数据三部分组成。在定时任务中设置监控计划的名称、URL、执行时间等。看数据，首先可以看到具体监控计划下新增挖矿记录网站的数量，以及上一次采集的时间。采集任务可以立即启动。进入详细页面后，可以看到采集的内容、采集的时间以及是否已读的标记。查看所有记录计数后，如果读取的标志自动更改为是。分析数据重新处理数据以发现新知识等可以进一步深化。

　　(3)运行模式分析

　　该系统可以以多种方式运行。比如用户操作。用户可以随时监控网页的最新变化。但是，如果数据量很大，网络繁忙，则需要等待很长时间。同时，大量的数据采集会给采集所针对的服务器带来更大的压力。因此，您应该尽量让系统在其他服务器空闲时自动运行。例如，您可以在 Windows 控制面板中添加计划任务，让采集系统每天早上开始搜索最新的网页更新并执行数据采集工作。在 Windows 2000 Professional 和更高版本中，组件也可以作为 Windows 服务和应用程序启动。采集系统会像Windows Update一样自动开始执行。简而言之，<

　　4.3.限制

　　Web Data Auto采集主要完成采集的功能。它不是灵丹妙药，只是一种工具。无法自动理解用户的业务，理解数据的含义。它只是通过一系列技术手段，帮助人们更有效、更深入地获取所需的数据。它只对采集data 负责，这要由某人来思考为什么。

　　其次，为了保证数据采集结果的价值，用户必须在准确性和适用性之间寻求平衡。一般来说，采集模型的适用范围越广，采集对异常的影响越大，冗余数据的可能性就越大。相反，准确率较高的 data采集模型的适用范围会相对较低。所以用户必须了解他们的数据。虽然一些算法可以考虑数据异常的处理，但让算法自己做出所有这些决定是不明智的。

　　Data采集不会在没有指导的情况下自动发现模型。数据采集系统需要在用户的帮助和指导下完成指定模型。并需要用户反馈采集的结果，以便进一步优化和改进。由于现实生活中的变化，生成的模型也可能需要更改。

　　5、结束语

　　在研究领域，Web数据自动化采集是一个新兴的研究方向，潜力巨大。它与数据挖掘、信息检索和搜索引擎技术相辅相成，各有侧重。但随着数据挖掘技术的发展和智能搜索引擎的出现，它们相互促进，有进一步融合的趋势。

　　在实际应用中，针对互联网上信息过载而无法有效利用的现状，Web数据自动采集，提高了信息使用效率，提高了人们的工作效率，减轻了工作负担。在经济上，军用具有更大的使用价值，将有越来越多的厂商参与相关服务和应用。但另一方面，对于商品价格、公司产品、个人隐私等不想被采集的信息，如何进行反自动化采集也是一个重要的问题。

　　在知识经济时代，谁能有效地获取和利用知识，谁就拥有了赢得竞争的武器和工具。Web数据自动化采集作为一种获取和利用知识的有效手段，越来越受到人们的关注和重视。只有从数据中提取信息，从信息中发现知识，才能更好地服务于个人、企业和国家的决策和战略发展。

　　参考

　　1 周涛，李军，卢惠玲。Web数据挖掘技术研究[J]．汉中师范大学学报（自然科学版）。2004.22:87

　　2斯蒂芬·索勒兰。半结构化和自由文本的学习信息抽取规则[M]．波士顿：Kluwer 学术出版社，2001 年

　　3 林洁斌、刘明德、陈翔。数据挖掘与OLAP理论与实践[M]．北京：清华大学出版社，2003，45

　　4 杨健林、孙明军。竞争情报采集自动化[J]．智能技术。2005.1:40-43

　　5 款 Velocityscape 产品：Web Scraper Plus+ (Aceess 2006-1-18)

　　6 Ficstar：基于项目的定制服务。（访问 2006-1-18)

　　7 林建钦。基于Web的数据挖掘应用模型研究[J]．贵州师范大学学报（自然科学版）。2004.8: 92-96

0

2022-03-24

自动采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集系统([Keywords]DataExtraction,-structured,EstateWeb数据自动采集的理论基础)

0 个评论

发起人

AI时代内容工厂

自动采集系统([Keywords]DataExtraction,-structured,EstateWeb数据自动采集的理论基础)

0 个评论

发起人

相关问题