直观:一种基于网页数据挖掘的信息采集方法

优采云发布时间: 2022-10-27 18:24

　　专利名称：一种基于网页数据挖掘的信息采集方法

　　技术领域：

　　本发明涉及数据挖掘技术领域，具体涉及一种基于网页数据挖掘的信息采集方法。

　　背景技术：

　　Web（网页）数据挖掘是从 Web 资源中提取信息或知识的过程。它将传统的数据挖掘思想和方法应用于 Web，从 Web 文档和 Web 活动中提取有趣、潜在和有用的信息。模式和隐藏信息。Web 上的数据不同于传统的数据库数据。传统数据库有一个固定的数据模型，具体的数据可以根据这个模型来描述；而网络上的数据非常复杂，没有具体的模型描述。每个站点的数据都是独立设计的，数据本身具有自描述性和动态可变性，因此Web数据具有一定的结构，但由于自描述层的存在，是一种不完全结构化的数据，也称为半结构化数据。数据。半结构化也是Web数据的一个特征。Web数据挖掘首先要解决半结构化数据源模型和半结构化模型的查询与集成技术。要解决这个问题，我们必须有一个清晰、半结构化的模型。模型。整个过程需要大量的人力物力，目前成熟的技术和产品并不多。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，通过一定的分类和压缩，将其转化为对用户有价值的、可用的数据资源。Web数据挖掘首先要解决半结构化数据源模型和半结构化模型的查询与集成技术。要解决这个问题，我们必须有一个清晰、半结构化的模型。模型。整个过程需要大量的人力物力，目前成熟的技术和产品并不多。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，通过一定的分类和压缩，将其转化为对用户有价值的、可用的数据资源。Web数据挖掘首先要解决半结构化数据源模型和半结构化模型的查询与集成技术。要解决这个问题，我们必须有一个清晰、半结构化的模型。模型。整个过程需要大量的人力物力，目前成熟的技术和产品并不多。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，通过一定的分类和压缩，将其转化为对用户有价值的、可用的数据资源。要解决这个问题，我们必须有一个清晰、半结构化的模型。模型。整个过程需要大量的人力物力，目前成熟的技术和产品并不多。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，通过一定的分类和压缩，将其转化为对用户有价值的、可用的数据资源。要解决这个问题，我们必须有一个清晰、半结构化的模型。模型。整个过程需要大量的人力物力，目前成熟的技术和产品并不多。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，通过一定的分类和压缩，将其转化为对用户有价值的、可用的数据资源。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，通过一定的分类和压缩，将其转化为对用户有价值的、可用的数据资源。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，通过一定的分类和压缩，将其转化为对用户有价值的、可用的数据资源。

　　传统的Web内容挖掘一般通过两种模式进行，一种是采集用于非结构化数据，另一种是采集用于半结构化数据。其中，非结构化数据一般是指网络上的一些自由文本，包括小说、新闻等。这方面的研究相对较多，大多是基于词袋或向量表示，对单个词进行处理作为文档集合中的属性。从统计的角度来看，单词被孤立地看待，忽略了单词的位置和上下文。Web半结构化数据挖掘是指对具有HTML（超文本标记语言）、超链接等附加结构的信息进行挖掘，其应用包括超链接文本的分类和聚类。, 发现文档之间的关系，提出半结构化文档中的模式和规则等。如果要做Web数据挖掘和信息采集，需要用到数据分类、聚合、关联等方面的知识。更具体地说，统计方法、机器学习方法、神经网络方法，需要用到的计算机算法包括贝叶斯方法和非参数方法、BP（Error Back I^ropagation，误差反向传播算法）算法等。这样得到的数据清晰丰富，但是对于一些基础应用来说成本太高，在开发时效上确实是个不小的负担。需要用到数据分类、聚合、关联等方面的知识。更具体地说，统计方法、机器学习方法、神经网络方法，需要用到的计算机算法包括贝叶斯方法和非参数方法、BP（Error Back I^ropagation，误差反向传播算法）算法等。这样得到的数据清晰丰富，但是对于一些基础应用来说成本太高，在开发时效上确实是个不小的负担。需要用到数据分类、聚合、关联等方面的知识。更具体地说，统计方法、机器学习方法、神经网络方法，需要用到的计算机算法包括贝叶斯方法和非参数方法、BP（Error Back I^ropagation，误差反向传播算法）算法等。这样得到的数据清晰丰富，但是对于一些基础应用来说成本太高，在开发时效上确实是个不小的负担。误差反向传播算法）算法等。这样得到的数据清晰丰富，但是对于一些基础应用来说成本太高，在开发时效上确实是个不小的负担。误差反向传播算法）算法等。这样得到的数据清晰丰富，但是对于一些基础应用来说成本太高，在开发时效上确实是个不小的负担。

　　传统方法需要以大量的Web数据为基础，然后通过复杂的算法对有用的信息进行过滤，最终得到你需要的部分。这不仅在实现手段上难度很大，而且需要很高的硬件支持，而且网络也很流畅，否则没有办法从Web获取更多的数据。因此，基于Web数据挖掘的传统信息采集方法，对于一些要求相对简单、数据量少的信息采集需求，成本太高，时间太长。

　　发明内容

　　(1)要解决的技术问题本发明要解决的技术问题是如何提供一种基于网页数据挖掘的信息采集方法，以满足简单、数据量较小的需求。信息采集要求。(2)技术方案为了解决上述技术问题，本发明提供了一种基于网页数据挖掘的信息采集方法，包括步骤A，获取信息为采集来自目标网络文档；描述采集信息类型是否为固定格式数据，如果是，执行步骤E；否则，从所述处理采集信息中去除无用信息后进行信息排序，然后执行步骤C；C：判断信息类型是否采集为半结构化数据，如果是，则对采集的信息进行模式发现，然后执行步骤D；否则，执行步骤E；D判断是否保存信息的模式模板为采集，如果有，则执行步骤E；否则，待采集的信息经过模式分析后保存模式模板，然后执行步骤E。将信息分类为采集，消除重复信息后创建检索目录；F 将信息存储为采集在本地计算机上。优选地，在步骤F之后，还包括步骤G，从待显示信息中获取待使用数据。优选地，在步骤G中，待采集的信息解压后，获取并显示要使用的数据。优选地，步骤A中的目标Web文档包括在线Web文档、电子邮件、电子文档、新闻组、网站日志数据或通过Web形成的交易数据库中的数据。优选地，所述步骤B中的固定格式数据在Web上有统计数据资源，用于爬取；固定格式数据包括天气预报、实时新闻、财经新闻、航班信息或股票信息。优选地，步骤B中的无用信息包括多余的广告链接、多余的格式标记、自动识别段落或自动识别字段。优选地，在步骤C中，采集信息模式发现包括同一网站内或多个网站间的模式发现。优选地，在步骤D中，对待成为采集的信息进行模式分析包括对步骤C中生成的模式进行验证和解释。优选地，待成为采集的信息按照预定的压缩算法进行压缩，然后存储在本地计算机。(3)有益效果本发明基于网页数据挖掘的信息采集方法集成了多种数据挖掘方法，针对不同数据类型的信息采用相应的数据挖掘方法得到采集该方法能够以较低的成本和较短的时间满足要求简单、数据量少的信息采集需求。同时，对于半结构化数据，模式模板在第一次模式分析后自动保存。当采集

　　如图。图1是根据本发明实施例的基于网页数据挖掘的信息采集的方法流程图。

　　本发明的具体实施例

　　进一步详细描述。以下实施例旨在说明本发明，而不是限制本发明的范围。实施例1 本实施例假设采集的信息为新浪网新闻频道的新闻数据。如图。图1是根据本发明实施例的基于网页数据挖掘的信息采集的方法流程图。如图所示。如图1所示，该方法包括步骤A，从目标Web文档中获取采集的信息。这里的目标网页文档是新浪网新闻频道的网页文档。需要说明的是，本发明中的目标Web文档还可以包括电子邮件、电子文档、新闻组、网站日志数据或通过Web形成的交易数据库中的数据。步骤 B：在判断出待采集信息的类型不是固定格式数据后，通过决策树、分类、聚类、关联规则等从待采集信息中去除无用信息。完成信息，进入步骤C。无用信息包括广告链接、冗余格式标记、自动识别段落或自动识别字段等。信息组织就是将采集的信息组织成规则的逻辑形式。步骤C对描述的信息为采集进行模式发现，即通过分析标准HTML页面的内容，通过检索header信息，找到当前Web的模型结构，

　　这里，对要成为采集的信息进行模式发现包括在同一网站内或在多个网站之间进行模式发现。步骤D：判断是否存储了采集信息的模式模板，如果是，执行步骤E；否则，对要为采集的信息进行模式分析，保存其模式模板，然后执行步骤E。对要为采集的信息进行模式分析包括验证和解释步骤C中生成的模式. 第一次执行该类信息采集时，需要对要成为采集的信息进行schema分析，并保存其schema模板；再次执行该类信息时采集，只需要直接读取取schema模板即可，然后直接进行数据访问，有效节省信息采集时间。步骤E：根据不同的信息类型对待采集的信息进行详细信息分类，剔除重复信息后创建检索目录。步骤F：待采集的信息按照预定的压缩算法压缩后，存储在本地计算机上。步骤G：待采集信息解压后，从待采集信息中获取要使用的数据进行展示。实施例2 在本实施例中，假设要为采集的信息为航班信息，仍如图2所示。如图1所示，该方法包括步骤A，从目标Web文档中获取采集的信息。航班信息的一般格式比较固定，更新频率很低，现有的很多WebServers都提供相关服务，所以可以选择使用RSS（Really Simple Syndication）采集器从一个可用的ffebServers采集此航班信息。设置好航班信息的更新周期后，RSS采集器可以定期从可用的Webservers获取航班信息。

　　在步骤B中，确定要为采集的信息，即航班信息，属于固定格式数据，所以直接执行步骤E。与航班信息类似，固定格式数据还包括天气预报、实时新闻、财经新闻或股票

　　优惠券等。步骤E：对航班信息进行简单分类，剔除重复信息后创建检索目录。步骤F：将航班信息按照预定的压缩算法进行压缩后，存储在本地计算机上。步骤G：航班信息解压后，从to-be-采集信息中获取要使用的数据进行展示。本发明实施例描述的基于网页数据挖掘的信息采集方法集成了多种数据挖掘方法，针对不同数据类型的信息采集，对应的数据挖掘方法可用于降低成本、缩短时间，满足要求简单、数据量小的信息采集的需求。同时，对于半结构化数据，模式模板在第一次模式分析后自动保存。当再次执行采集此类信息时，无需再次执行模式分析，进一步减少了操作时间。以上实施例仅用以说明本发明，并不用于限制本发明。相关技术领域的普通技术人员还可以在不脱离本发明的精神和范围的情况下进行各种改动和变型。因此，所有等效的技术方案也属于本发明的范围，本发明的专利保护范围应以权利要求书为准。当再次执行采集此类信息时，无需再次执行模式分析，进一步减少了操作时间。以上实施例仅用以说明本发明，并不用于限制本发明。相关技术领域的普通技术人员还可以在不脱离本发明的精神和范围的情况下进行各种改动和变型。因此，所有等效的技术方案也属于本发明的范围，本发明的专利保护范围应以权利要求书为准。当再次执行采集此类信息时，无需再次执行模式分析，进一步减少了操作时间。以上实施例仅用以说明本发明，并不用于限制本发明。相关技术领域的普通技术人员还可以在不脱离本发明的精神和范围的情况下进行各种改动和变型。因此，所有等效的技术方案也属于本发明的范围，本发明的专利保护范围应以权利要求书为准。但不限制本发明。相关技术领域的普通技术人员还可以在不脱离本发明的精神和范围的情况下进行各种改动和变型。因此，所有等效的技术方案也属于本发明的范围，本发明的专利保护范围应以权利要求书为准。但不限制本发明。相关技术领域的普通技术人员还可以在不脱离本发明的精神和范围的情况下进行各种改动和变型。因此，所有等效的技术方案也属于本发明的范围，本发明的专利保护范围应以权利要求书为准。

　　权利请求

　　1. 一种基于网页数据挖掘的信息采集方法，其特征在于，包括步骤A，从目标Web文档中获取信息为采集；B判断信息类型为采集是否为固定格式数据，如果是，执行步骤E；否则，将所述等待采集信息中的无用信息剔除后进行信息排序，然后执行步骤C；C判断所述等待采集信息的类型是否为半结构化数据，如果是，则对要为采集的信息进行模式发现，然后执行步骤D；否则，执行步骤E；D判断是否保存信息为采集如果是，执行步骤E；否则，将其模式分析后的模式模板保存到信息为采集，然后执行步骤E；E 将信息分类为采集，消除重复信息后创建检索目录；F 将信息存储为采集在本地计算机上。

　　2. 2.根据权利要求1所述的方法，其特征在于，在所述步骤F之后，还包括步骤G，从所述待显示信息中获取所述待使用数据。3.

　　3.根据权利要求2所述的方法，其特征在于，在所述步骤G中，待采集信息解压后，获取待使用数据并进行显示。

　　4.如权利要求1所述的方法，其特征在于，所述步骤A中的目标Web文档包括在线Web文档、电子邮件、电子文档、新闻组、日志数据或通过Web Data在交易数据库中的表格。

　　5.如权利要求1所述的方法，其特征在于，所述步骤B中的固定格式数据在Web上有统计好的数据资源可供抓取；所述固定格式数据包括天气预报、实时新闻、财经新闻、航班信息或股票信息。

　　6. 2.如权利要求1所述的方法，其特征在于，步骤B中的无用信息包括多余的广告链接、多余的格式标记、自动识别段落或自动识别字段。7.

　　7.根据权利要求1所述的方法，其特征在于，在步骤C中，对要成为采集的信息进行模式发现包括：在同一网站内或多个网站之间进行模式发现。

　　8.如权利要求1所述的方法，其中，在步骤D中，对要成为采集的信息进行模式分析包括验证和解释在步骤C中生成的模式。

　　9. 2.根据权利要求1所述的方法，其特征在于，在所述步骤F中，将待采集的信息按照预定的压缩算法进行压缩，然后存储在本地计算机上。10.

　　全文摘要

　　本发明公开了一种基于网页数据挖掘的信息采集方法，涉及数据挖掘技术领域。该方法包括步骤A，从目标Web文档中获取信息为采集；B判断采集的信息类型是否为固定格式数据，如果是，执行步骤E；信息排序，进行步骤C；C判断采集的信息类型是否为半结构化数据，如果是，进行模式发现，转步骤D；否则，进行步骤E；D判断是否保存了花样模板，如果有，进行步骤E；否则，保存模式分析后的模式模板，执行步骤E；E 删除重复信息并将其存储在本地计算机上。该方法可以满足信息采集

　　文件编号 G06F17/30GK102402592SQ20111034478

　　出版日期 2012 年 4 月 4 日申请日期 2011 年 11 月 4 日优先权日期 2011 年 11 月 4 日

　　发明人张旭良、戴福浩、王磊、马彤申请人：同惠嘉实（北京）信息技术*敏*感*词*

　　最佳实践:Ajax&Js数据采集器

　　基本介绍

　　文章简介：采集器简介：这个工具主要针对优采云只能采集去网站，不能采集去数据网站，比如网站一般是通过GET传值，然后通过JS跳转。采集器自带翻译功能，采集还可以将采集的标题和内容翻译成另一种语言。翻译功能暂时不支持单独使用。必要时联系开发商。利用。

　　采集器简介：

　　这个工具主要针对优采云只能采集去网站，不能采集去数据网站，比如网站一般通过传值GET，然后通过JS跳转。采集器自带翻译功能，采集还可以将采集的标题和内容翻译成另一种语言。翻译功能暂时不支持单独使用。必要时联系开发商。

　　指示：

　　1、首先使用优采云采集网址；

　　2、将采集的URL所在的数据库复制到本工具的同一个文件夹中；也可以自己建数据库，但是文件名必须是“SpiderResult.mdb”，数据表名是“content”，至少要收录“title”“content”和“pageurl”等字段，并且“pageurl”字段已收录采集 URL

　　3. 打开工具，依次填写网页加载时的识别码代码段和提取标题内容的第一个和最后一个代码段，然后点击开始。

　　常见问题：

　　1、采集进程自动中断，重启软件即可。

　　2、采集中弹出错误信息，打开数据库，删除采集当前的URL记录或将其标题和内容字段设置为“F”，然后重新启动软件。

　　3.其他，请联系开发商。

0

2022-10-27

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

直观:一种基于网页数据挖掘的信息采集方法

0 个评论

发起人

AI时代内容工厂

直观:一种基于网页数据挖掘的信息采集方法

0 个评论

发起人

相关问题