自动采集系统(Web数据自动采集与挖掘是一种特殊的数据挖掘到目前为止还没有)

优采云 发布时间: 2021-12-10 04:18

  自动采集系统(Web数据自动采集与挖掘是一种特殊的数据挖掘到目前为止还没有)

  1. Web 数据自动化的理论基础采集

  Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化的特点。因此,人们越来越难以准确、快速地获取所需的数据。虽然有各种搜索引擎,搜索引擎考虑的数据召回率更多,但准确率不足,难以进一步挖掘。深入数据。因此,人们开始研究如何在互联网上进一步获取一定范围的数据,从信息搜索到知识发现。

  1.1 相关概念

  Web数据自动化采集具有广泛的内涵和外延,目前还没有明确的定义。Web 数据自动化采集 涉及 Web 数据挖掘、Web 信息复兴、信息提取和搜索引擎等概念和技术。Web 数据挖掘与这些概念密切相关,但也存在差异。

  (1) Web 数据自动采集 和挖掘

  Web挖掘是一种特殊的数据挖掘。目前还没有统一的概念。我们可以借鉴数据挖掘的概念来给出Web挖掘的定义。所谓Web挖掘是指在大量非结构化、异构的Web信息中发现有效的、新颖的、潜在可用的和最终可理解的知识(包括概念、模式、规则、规则、约束和可视化)的非平凡过程。资源。包括Web内容挖掘、Web结构挖掘和Web使用挖掘1。

  (2) Web 数据自动 采集 和搜索引擎

  Web数据自动化采集与搜索引擎有很多相似之处,例如都使用信息检索技术。但是,两者的侧重点不同。搜索引擎主要由三部分组成:Web Scraper、索引库和查询服务。爬虫在互联网上的漫游是没有目的的,只是尝试寻找更多的内容。查询服务返回尽可能多的结果,并不关心结果是否符合用户习惯的专业背景等。而Web Data Automation采集主要为特定行业提供面向领域、个性化的信息挖掘服务。

  Web数据自动采集和信息抽取:信息抽取(Information Extraction)是近年来新兴的概念。信息抽取是面向不断增长和变化的,特定领域的文献中的特定查询,这种查询是长期的或连续的(IE问题在面对不断增长和变化的语料库时被指定为长期存在或持续的查询2). 与传统搜索引擎基于关键字查询不同,信息抽取是基于查询的,不仅要收录关键字,还要匹配实体之间的关系。信息抽取是一个技术概念,Web Data自动化采集很大程度上依赖于信息提取技术来实现长期动态跟踪。

  (3) Web 数据自动 采集 和 Web 信息检索

  信息检索是从大量的 Web 文档集合 C 中找到与给定查询 q 相关的相似数量的文档子集 S。如果把q当作输入,把S当作输出,那么Web信息检索的过程就是一个输入到输出图像:

  ξ: (C: q)-->S3

  但是Web数据自动采集并没有直接将Web文档集合的一个子集输出给用户,而是需要进一步的分析处理、重复检查和去噪、数据整合。尝试将半结构化甚至非结构化数据转化为结构化数据,然后以统一的格式呈现给用户。

  因此,Web数据自动化采集是Web数据挖掘的重要组成部分。它利用Web数据检索和信息提取技术,弥补了搜索引擎缺乏针对性和专业性,无法实现数据动态跟踪和监控的缺点,是一个非常有发展前景的领域。

  1.2 研究意义

  (1) 解决信息冗余下的信息悲剧

  随着互联网信息的快速增长,互联网上越来越多的对用户毫无价值的冗余信息,使得人们无法及时准确地捕捉到自己需要的内容,信息利用的效率和效益越来越低。大大减少。互联网上的信息冗余主要体现在信息的过载和信息的无关性。选择的复杂性和许多其他方面。

  因此,在当今高度信息化的社会,信息冗余和信息过载已成为互联网上亟待解决的问题。网页数据采集可以通过一系列方法,根据用户兴趣自动检索互联网上特定类型的信息,去除无关数据和垃圾数据,过滤虚假数据和延迟数据,过滤重复数据。用户无需处理复杂的网页结构和各种超链接,直接按照用户需求将信息呈现给用户。可以大大减少用户的信息过载和信息丢失。

  (2) 解决搜索引擎智能低的问题

  尽管互联网上信息量巨大,但对于特定的个人或群体而言,获得相关信息或服务以及关注的范围只是一小部分。目前,人们主要通过谷歌、雅虎等搜索引擎查找网上信息,但这些搜索引擎规模大、范围广,检索智能不高,查准率和查全率问题日益突出. 此外,搜索引擎很难根据不同用户的不同需求提供个性化服务。

  (3) 节省人力物力成本

  与传统手工采集数据相比,自动采集可以减少大量重复性工作,大大缩短采集时间,节省人力物力,提高效率。并且手工数据不会有遗漏、偏差和错误采集

  2. 网络数据自动化采集 应用研究

  2.1 应用功能

  从上面的讨论可以看出,Web数据自动化采集是面向特定领域或特定需求的。因此,其应用的最大特点是基于领域,基于需求。没有有效的 采集 模型可以用于所有领域。Web数据自动化采集的原理研究是一样的,但具体的应用和实现必须是领域驱动的。例如,科研人员可以通过跟踪研究机构和期刊网站中某个学科的文章来跟踪相关学科的最新进展;政府可以对某一主题的舆论发展和人口地域分布进行监测;猎头公司 监控部分公司的招聘网站,了解人才需求的变化;零售商可以监控供应商在线产品目录和价格等方面的变化。房地产中介可以自动采集在线房地产价格信息,判断房地产行业的变化趋势,获取客户信息进行营销。

  2.2应用产品

  Web数据自动化采集Web数据自动化采集是从实际应用的需要中诞生的。除个人信息采集服务外,还可广泛应用于科研、政治、军事、商业等领域。例如应用于信息采集子系统。根据企业各级信息化需求,构建企业信息资源目录,企业信息库、信息库、知识库,以及互联网、企业内部网、数据库、文件系统、信息系统等。资源全面整合,实时采集,监控各企业所需的情报信息。可以协助企业建立外部环境监控和采集系统,

  因此,一些相关的产品和服务已经开始在市场上销售。例如美国Velocityscape的Web Scraper Plus+软件5,加拿大提供量身定制的采集服务6。除了这些在市场上公开销售的商业产品外,一些公司也有自己内部使用的自动采集系统。所有这些应用都基于特定行业。

  3.网络数据自动采集模型

  虽然Web数据自动化采集是针对特定领域的,但是采集的原理和流程是相似的。因此,本节将设计一个Web数据自动采集系统模型。

  3.1 采集模型框架

  系统根据功能不同可分为三个模块:数据预处理模块、数据过滤模块和数据输出模块。

  3.2 数据预处理模块

  数据预处理是数据处理过程中的一个重要环节采集。如果数据预处理工作做好,数据质量高,数据采集的过程会更快更简单,最终的模型和规则会更有效和适用,结果也会更成功。由于数据来源的种类繁多,各种数据的特征属性可能无法满足主体的需要。因此,数据预处理模块的主要功能是在Web上定义数据源、格式化数据源和初步过滤数据源。该模块需要将网页中的结构化、半结构化和非结构化数据和类型映射到目标数据库。因此,数据预处理是数据采集的基础和基础。

  3.3 数据过滤模块

  数据过滤模块负责对采集的本地数据进行进一步的过滤处理,并存储到数据库中。可以考虑网页建模、数理统计、机器学习等方法对数据进行过滤清理7。

  网页主要由标签标记和显示内容两部分组成。数据过滤模块通过建立网页模型,分析Tag标签,构建网页的标签树,分析显示内容的结构。

  获得网页的结构后,以内容块为单位保留和删除数据。最后,在将获得的数据放入数据库并建立索引之前,必须对其进行重复数据删除。

  3.4 数据输出模块

  数据输出模块将目标数据库中的数据经过处理后呈现给用户。本模块属于数据采集的后续工作,可根据用户需求确定模块的责任程度。基本功能是将数据以结构化的方式呈现给用户。此外,还可以添加报表图标等统计功能。当数据量达到一定程度时,可以对数据进行建模、时间序列分析、相关性分析,以发现各种概念规则之间的规律和关系,使数据发挥最大效用。

  4.基于房地产行业的自动化采集系统设计

  如前所述,Web数据采集必须是领域驱动或数据驱动的,所以本节在第3章的理论基础上,设计一个基于房地产行业的Web自动采集系统.

  4.1.研究目标

  房地产是当今最活跃的行业之一,拥有众多信息供应商和需求商。无论是政府、房地产开发商、购房者、投资者,还是银行信贷部门,都想了解房地产价格的最新动向。互联网上有大量的信息提供者,但用户不可能有时间浏览所有这些网页。甚至房地产信息也具有地域性、时效性等特点。

  房产中介经常在一些比较大的楼盘网站采集房产价格和*敏*感*词*。通常的做法是手动浏览网站,查看最新更新的信息。然后将其复制并粘贴到数据库中。这种方式不仅费时费力,而且在搜索过程中也有可能遗漏,在数据传输过程中也可能出现错误。针对这种情况,本节将设计一个自动采集房产信息的系统。实现数据的高效化和自动化采集。

  4.2.系统原理

  自动化采集系统基于第三节采集模型框架。作者设计的数据自动化采集系统采用B/S模式,开发平台为Microsoft Visual .Net 2003。在2000 Professional操作系统下编译,开发语言为C#+,数据库服务器为SQL SERVER 2000。

  (1)系统架构分析

  采集 模型以组件的形式放置在组件目录下,类的方法和功能以面向对象的方式进行封装以供调用。后缀为 aspx 和 htm 的文件是直接与用户交互的文件。此类文件不关心采集模型的具体实现,只需要声明调用即可。

  这种结构的优点是不需要安装特定的软件,升级维护方便,可以通过浏览器直接调用服务器后台的组件。一旦需要更改采集模型,可以直接修改组件下的CS文件。

  (2)用户交互分析

  用户服务结构主要由规划任务、查看数据和分析数据三部分组成。在定时任务中设置监控计划的名称、URL、执行时间等。在查看数据时,首先可以看到特定监测计划下网站的新开挖次数和最后一次采集的时间。您可以立即开始执行采集 任务。进入详细页面后,可以看到采集的内容、采集的时间和是否已阅读的标志。检查所有记录后,是否已读标记自动变为是。对数据进行分析,对数据进行二次处理,发现新知识等,可以进一步深化。

  (3)运行模式分析

  系统可以采用多种操作模式。比如用户操作。用户可以随时监控网页的最新变化。但是,如果数据量大且网络繁忙,则需要更长的等待时间。同时,数据采集在数据量较大时会给采集所针对的服务器带来更大的压力。因此,我们应该尽量让系统在其他服务器空闲时自动运行。比如可以在Windows控制面板中添加定时任务,让采集系统每天早上开始搜索最新的网页更新,执行数据采集任务。在 Windows 2000 Professional 和更高版本中,组件也可以作为 Windows 服务和应用程序启动。采集 系统将像 Windows Update 一样自动启动和执行。总之,采集系统可以根据实际需要选择多种灵活的运行模式,充分兼顾采集和采集的情况。

  4.3. 限制

  Web数据自动采集主要完成采集的功能。它不是万能药,它只是一种工具。不可能自动理解用户的业务,理解数据的含义。它只是通过一系列技术手段来帮助人们更有效、更深入地获取他们需要的数据。它只负责采集的数据,至于为什么要做,需要考虑。

  其次,为了保证数据结果采集的价值,用户必须在准确性和适用范围之间寻求平衡。一般来说,采集模型的适用范围越广,采集异常时出现冗余数据的可能性就越大。反之,数据采集模型的精度越高,适用范围就会相对缩小。因此,用户必须了解自己的数据。虽然有些算法可以考虑到数据异常的处理,但是让算法自己做所有这些决定是不明智的。

  数据 采集 不会在没有指导的情况下自动发现模型。数据采集系统需要在用户的帮助和指导下指定一个模型。并需要用户反馈采集的结果进行进一步的优化和改进。由于现实生活中的变化,最终模型也可能需要更改。

  5、结论

  在研究领域,Web数据自动化采集是一个极具潜力的新兴研究领域。它与数据挖掘、信息检索和搜索引擎技术相辅相成,各有侧重。但随着数据挖掘技术的发展和智能搜索引擎的出现,它们相互促进,有进一步融合的趋势。

  在实际应用中,Web数据自动采集针对的是目前互联网信息过载,但未被有效利用的情况,提高了信息使用效率,提高了人们的工作效率,减轻了工作负担。经济和军事都有更大的使用价值,越来越多的厂商会涉足相关的服务和应用。但另一方面,对于一些你不想被采集的信息,比如商品价格、公司产品、个人隐私等,如何反自动采集也是一个重要的问题。

  在知识经济时代,谁能有效地获取和使用知识,谁就有在竞争中获胜的武器和工具。Web数据自动化采集作为一种有效的知识获取和使用手段,越来越受到人们的关注和关注。只有从数据中提取信息,从信息中发现知识,才能更好地为个人、企业和国家的思维决策和战略发展服务。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线