自动采集系统([Keywords]DataExtraction,-structured,EstateWeb数据自动采集的理论基础)
优采云 发布时间: 2022-03-24 08:07自动采集系统([Keywords]DataExtraction,-structured,EstateWeb数据自动采集的理论基础)
摘要: 如何准确获取并长期跟踪一个人在充满信息的互联网上关注的内容,已成为制约互联网使用的重要因素之一。而Web Data Auto采集就是为了解决这个问题。文章从理论研究和应用技术两个方面进行探讨。本文提出了一个自动化采集模型,设计了一个基于房地产行业的自动化采集系统,并证明了自动化采集的可行性和优势。同时,也指出了它的局限性。
关键词:信息采集 半结构化数据 数据挖掘 房地产
[摘要] 在网络上查找和追踪一个人感兴趣的内容越来越困难,其信息过载。这个问题极大地影响了互联网的有效使用。而网络数据自动化抽取在解决这一问题上取得了重大进展。本文从学术研究和应用技术两个方面对其进行了探讨。并给出了数据自动化抽取模型,设计了基于房地产行业的Web数据自动化抽取系统,证明了自动化抽取的可行性和优势。同时,也指出了应用的局限性。
[关键词] 数据提取、半结构化数据、数据思维、房地产
1.Web 数据自动化的理论基础采集
Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化的特点。因此,人们越来越难以准确、快速地获取所需的数据。虽然目前有各种搜索引擎,搜索引擎更多地考虑数据的查全率,但准确率不足,难以进一步挖掘深度数据。因此,人们开始研究如何在互联网上进一步获取特定范围的数据,从信息搜索到知识发现。
1.1相关概念
Web数据自动化采集的内涵和外延非常广泛,目前还没有明确的定义。Web数据自动化采集涉及Web数据挖掘、Web信息复兴、信息抽取、搜索引擎等概念和技术。Web 数据挖掘与这些概念密切相关但又有所不同。
(1) Web 数据自动化采集 和挖掘
Web挖掘是一种特殊的数据挖掘。到目前为止,还没有统一的概念。我们可以参考数据挖掘的概念来给出Web挖掘的定义。所谓Web挖掘,是指大量非结构化、异构的Web信息。在资源中发现有效、新颖、潜在可用和最终可理解的知识(包括概念、模式、规则、法律、约束和可视化)的重要过程。包括Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用挖掘(Web usage mining)1。
(2)网页数据自动采集搜索引擎
Web 数据自动化采集与搜索引擎有许多相似之处,例如使用信息检索技术。但是,两者的侧重点不同。搜索引擎主要由三部分组成:网络爬虫(Web Scraper)、索引数据库和查询服务。爬虫在网上漫游是漫无目的的,尽量多找内容就好。查询服务返回尽可能多的结果,无论结果是否符合用户习惯的专业背景。而Web Data Auto采集主要为特定行业提供面向领域、个性化的信息挖掘服务。
Web 数据自动化采集 和信息提取:信息提取是近年来新兴的概念。信息提取面向特定领域中不断增长和变化的特定文献查询,面对不断增长和变化的语料库2),此类查询被指定为长期或连续查询。与基于关键字查询的传统搜索引擎不同,信息提取是基于查询的。它不仅收录关键字,还匹配各种实体之间的关系。信息抽取是一个技术概念。, Web数据自动化采集很大程度上依赖于信息抽取技术来实现长期的、动态的跟踪。
(3) Web 数据自动化采集 和 Web 信息检索
信息检索就是从大量 Web 文档 C 中找到与给定查询 q 相关的文档子集 S。如果将 q 视为输入,将 S 视为输出,那么 Web 信息检索的过程就是输入到输出图像:
ξ: (C: q)-->S3
但是Web数据自动化采集并不是直接将Web文档集合的一个子集输出给用户,而是需要进一步的分析处理、去重去噪、数据整合等。尝试将半结构化甚至非结构化数据转换为结构化数据,然后以统一的格式呈现给用户。
因此,Web数据自动化采集是Web数据挖掘的重要组成部分。它利用Web数据检索和信息抽取技术来弥补搜索引擎缺乏针对性和专业性,不能实现动态数据跟踪和监控的缺点,是一个非常有前景的领域。
1.2研究意义
(1) 解决Information Redundancy下的Information Trek
随着互联网信息的快速增长,互联网上对用户没有价值的冗余信息越来越多,使得人们无法及时准确地捕捉到自己需要的内容,影响信息的效率和效果。利用率大大降低。互联网上的信息冗余主要体现在信息的超载和信息的不相关。选择的复杂性等。
因此,在当今高度信息化的社会中,冗余信息过载已成为互联网亟待解决的问题。另一方面,Web数据采集可以通过一系列方法自动搜索互联网上特定类型的信息,根据用户兴趣,剔除不相关数据和垃圾数据,过滤虚假数据和滞后数据,过滤重复数据。用户无需处理复杂的网页结构和各种超链接,直接根据用户的需求将信息呈现给用户。可以大大减少用户的信息过载和信息丢失。
(2)解决搜索引擎智能不高的问题
互联网上虽然信息量巨大,但对于特定的个人或群体而言,获取相关信息或服务,关注的范围只是很小的一部分。目前,人们主要通过谷歌、雅虎等搜索引擎搜索在线信息。然而,这些搜索引擎涉及范围大且范围广,检索智能不高,查准率和查全率问题日益突出。并且搜索引擎很难针对不同用户的不同需求提供个性化服务。
(3)节省人力物力成本
相比传统人工采集数据,自动化采集可以减少大量重复性工作,大大缩短采集时间,节省人力物力成本,提高效率。并且人类数据中没有遗漏、偏见和错误采集。
2.Web数据自动化应用研究采集
2.1应用特点
从上面的讨论可以看出,网络数据自动化采集是面向特定领域或特定需求的。因此,其应用的最大特点就是基于领域和需求。没有适用于所有领域的 采集 模型。Web数据自动化的原理研究采集是一样的,但是在具体的应用和实现中必须是领域驱动的。例如,研究人员可以通过跟踪研究机构和期刊网站中某个主题的文章,及时了解他们关心的学科的最新进展;政府可以监测人们对特定话题的舆论发展趋势,以及地域分布等;猎头公司监控部分公司的招聘情况网站 获取人才需求的变化;零售商可以监控供应商在线目录和价格的变化等。房地产中介可以自动采集网上房地产价格信息,判断房地产行业的变化趋势,获取客户信息进行营销。
2.2应用产品
Web Data Auto采集Web Data Auto采集是从实际应用的需要中诞生的。除了个人信息采集服务外,它还可以在科研、政治、军事和商业等领域有广泛的应用。例如应用于智能采集子系统,根据企业各部门的信息需求,构建企业信息资源目录,构建企业信息库、智能库、知识库根据。系统等信息资源全面整合到采集,实时监控各企业所需的情报信息。可协助企业建立外部环境监控及采集系统,
因此,一些相关的产品和服务也开始在市场上销售。例如,Velocityscape 在美国、加拿大的 Web Scraper Plus+ 软件5 提供量身定制的 采集 服务6。除了这些商业上可用的商业产品之外,一些公司还拥有自己的自动化采集系统供内部使用。所有这些应用程序都是特定于行业的。
3.网页数据自动采集模型
尽管 Web 数据自动化采集 是特定于域的,但其原理和过程是相似的。因此,本节将设计一个网络数据自动化采集系统的模型。
3.1 采集模型框架
系统按功能不同可分为三个模块:数据预处理模块、数据过滤模块和数据输出模块。
3.2 数据预处理模块
数据预处理是数据采集 过程的重要组成部分。如果数据预处理做得好,数据质量高,数据采集的处理会更快更容易,生成的模式和规则会更有效和适用,结果也会更成功. 由于数据源的种类很多,各种数据的特征属性可能无法满足主体的需要,所以数据预处理模块的主要功能是在Web上定义数据源,对数据源进行格式化和过滤最初的数据源。该模块需要将网页中的结构化、半结构化和非结构化数据和类型映射到目标数据库。因此,数据预处理是data采集的基础和基础。
3.3 数据过滤模块
数据过滤模块负责对来自采集的本地数据进行进一步的过滤和处理,并存储到数据库中。数据过滤和清洗可以通过网页建模、数理统计、机器学习等方法来考虑。
网页主要由两部分组成:标签标记和显示内容。数据过滤模块通过建立网页模型,解析Tag标签,构建网页的标签树,分析显示内容的结构。
得到网页结构后,以内容块为单位进行数据的保留和删除。最后,获取的数据在放入数据库进行索引之前必须进行重复数据删除。
3.4 数据输出模块
数据输出模块对目标数据库中的数据进行处理并呈现给用户。本模块属于数据采集的后续工作,可根据用户需求确定模块的责任程度。基本功能是以结构化的方式将数据呈现给用户。此外,还可以添加报表图标等统计功能。当数据量达到一定水平时,可以对数据进行建模,进行时间序列分析和相关性分析,发现各种概念规则之间的模式和关系,从而最大限度地利用数据。
4.自动采集基于房地产行业的系统设计
如前所述,Web数据采集必须是领域驱动的或数据驱动的,因此本节根据本章的理论基础,介绍基于房地产行业的Web自动化采集系统的设计。 3.
4.1.研究目标
房地产是当今最活跃的行业之一,信息的供应者和需求者众多。无论是政府、房地产开发商、购房者、投资者还是银行信贷部门,都想知道房地产价格的最新走势。互联网上有大量的信息提供者,但用户不可能有时间浏览所有这些页面。甚至房地产信息也具有区域性和时间性特征。
房地产经纪人经常采集一些相对较大的房产中的房地产价格和*敏*感*词*网站。一种常见的做法是手动浏览 网站 以获取最新更新。然后将其复制并粘贴到数据库中。这种方法不仅费时费力,而且在搜索过程中可能会遗漏,在数据传输过程中可能会出现错误。针对这种情况,本节将设计一套自动采集房产信息系统。实现数据的高效化和自动化采集。
4.2.系统原理
自动化采集系统基于第三节采集模型框架。作者设计的数据自动化采集系统采用B/S模式,开发平台为Microsoft Visual。 Net 2003,window 2000 Professional操作系统下编译,开发语言为C#+,数据库服务器为SQL SERVER 2000。
(1)系统架构分析
采集模型以组件的形式放置在组件目录下,将类的方法和函数以面向对象的方式封装起来供调用。后缀为 aspx 和 htm 的文件是直接与用户交互的文件。此类文件不关心采集模型的具体实现,只需要声明调用即可。
这种结构的优点是不需要安装特定的软件,升级维护方便,服务器后台的组件可以直接通过浏览器调用。一旦 采集 模型需要更改,只需修改组件下的 CS 文件即可。
(2)用户交互分析
用户服务结构主要由规划任务、查看数据和分析数据三部分组成。在定时任务中设置监控计划的名称、URL、执行时间等。看数据,首先可以看到具体监控计划下新增挖矿记录网站的数量,以及上一次采集的时间。采集 任务可以立即启动。进入详细页面后,可以看到采集的内容、采集的时间以及是否已读的标记。查看所有记录计数后,如果读取的标志自动更改为是。分析数据 重新处理数据以发现新知识等可以进一步深化。
(3)运行模式分析
该系统可以以多种方式运行。比如用户操作。用户可以随时监控网页的最新变化。但是,如果数据量很大,网络繁忙,则需要等待很长时间。同时,大量的数据采集会给采集所针对的服务器带来更大的压力。因此,您应该尽量让系统在其他服务器空闲时自动运行。例如,您可以在 Windows 控制面板中添加计划任务,让 采集 系统每天早上开始搜索最新的网页更新并执行数据采集 工作。在 Windows 2000 Professional 和更高版本中,组件也可以作为 Windows 服务和应用程序启动。采集系统会像Windows Update一样自动开始执行。简而言之,<
4.3.限制
Web Data Auto采集主要完成采集的功能。它不是灵丹妙药,只是一种工具。无法自动理解用户的业务,理解数据的含义。它只是通过一系列技术手段,帮助人们更有效、更深入地获取所需的数据。它只对采集data 负责,这要由某人来思考为什么。
其次,为了保证数据采集结果的价值,用户必须在准确性和适用性之间寻求平衡。一般来说,采集模型的适用范围越广,采集对异常的影响越大,冗余数据的可能性就越大。相反,准确率较高的 data采集 模型的适用范围会相对较低。所以用户必须了解他们的数据。虽然一些算法可以考虑数据异常的处理,但让算法自己做出所有这些决定是不明智的。
Data采集 不会在没有指导的情况下自动发现模型。数据采集系统需要在用户的帮助和指导下完成指定模型。并需要用户反馈采集的结果,以便进一步优化和改进。由于现实生活中的变化,生成的模型也可能需要更改。
5、结束语
在研究领域,Web数据自动化采集是一个新兴的研究方向,潜力巨大。它与数据挖掘、信息检索和搜索引擎技术相辅相成,各有侧重。但随着数据挖掘技术的发展和智能搜索引擎的出现,它们相互促进,有进一步融合的趋势。
在实际应用中,针对互联网上信息过载而无法有效利用的现状,Web数据自动采集,提高了信息使用效率,提高了人们的工作效率,减轻了工作负担。在经济上,军用具有更大的使用价值,将有越来越多的厂商参与相关服务和应用。但另一方面,对于商品价格、公司产品、个人隐私等不想被采集的信息,如何进行反自动化采集也是一个重要的问题。
在知识经济时代,谁能有效地获取和利用知识,谁就拥有了赢得竞争的武器和工具。Web数据自动化采集作为一种获取和利用知识的有效手段,越来越受到人们的关注和重视。只有从数据中提取信息,从信息中发现知识,才能更好地服务于个人、企业和国家的决策和战略发展。
参考
1 周涛,李军,卢惠玲。Web数据挖掘技术研究[J].汉中师范大学学报(自然科学版)。2004.22:87
2斯蒂芬·索勒兰。半结构化和自由文本的学习信息抽取规则[M].波士顿:Kluwer 学术出版社,2001 年
3 林洁斌、刘明德、陈翔。数据挖掘与OLAP理论与实践[M].北京:清华大学出版社,2003,45
4 杨健林、孙明军。竞争情报采集自动化[J].智能技术。2005.1:40-43
5 款 Velocityscape 产品:Web Scraper Plus+ (Aceess 2006-1-18)
6 Ficstar:基于项目的定制服务。(访问 2006-1-18)
7 林建钦。基于Web的数据挖掘应用模型研究[J].贵州师范大学学报(自然科学版)。2004.8: 92-96