半结构化数据挖掘的几种主要特点是什么？

优采云发布时间: 2021-07-15 20:56

　　半结构化数据挖掘的几种主要特点是什么？

　　专利名称：一种基于网络数据挖掘的information采集方法

　　技术领域：

　　本发明涉及数据挖掘技术领域，具体涉及一种基于网页数据挖掘的信息采集方法。

　　背景技术：

　　Web（网页）数据挖掘是从 Web 资源中提取信息或知识的过程。它将传统的数据挖掘思想和方法应用于 Web，从 Web 文档和 Web 活动中提取有趣和潜在的信息。，有用的模式和隐藏的信息。 Web 上的数据不同于传统的数据库数据。传统数据库有固定的数据模型，具体的数据可以根据这个模型进行描述；而网络上的数据非常复杂，也没有具体的模型描述。每个站点的数据都是独立设计的，数据本身具有自我描述和动态可变性，所以Web数据具有一定的结构，但由于自我描述层面的存在，是一种不完整的结构化数据，也称为半结构化数据。半结构化也是 Web 数据的一个特征。 Web数据挖掘首先要解决的是半结构化数据源模型和半结构化模型的查询和集成技术。为了解决这个问题，模型必须是清晰的和半结构化的。模型。整个过程需要大量的人力物力，所以成熟的技术和产品并不多。根据对Web数据的兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。其中，Web内容挖掘主要是对Web上的数据进行整合和采集，并通过一定的分类和压缩，将其转化为对用户有价值的有用数据资源。

　　传统的网页内容挖掘一般采用两种模式进行，一种是采集非结构化数据，另一种是采集半结构化数据。其中，非结构化数据一般是指网络上的一些自由文本，包括小说、新闻等，这方面的研究相对较多，大多是基于词袋或向量表示。此方法将单个单词视为文档集合中的属性。只从统计的角度孤立地看词汇，忽略词汇的位置和上下文。 Web 上半结构化数据的挖掘是指挖掘具有 HTML（超文本标记语言）和超链接等附加结构的信息。它的应用包括超链接文本的分类和聚类。 , 发现文档之间的关系，提出半结构化文档中的模式和规则等。如果要做Web数据挖掘和信息采集，需要用到数据分类、聚合、关联等知识，更详细地说，只有分类必须使用统计方法、机器学习方法和神经网络方法。，需要用到的计算机算法有贝叶斯法和非参数法，BP（Error Back I^ropagation，误差反向传播算法）算法等。这种方式得到的数据清晰丰富，但是对于一些基础应用来说成本太高，对于开发的时效性来说确实是一个很大的负担。

　　传统方法需要以大量的Web数据为基础，再用复杂的算法过滤有用的信息，最终得到你需要的部分。这不仅在实现手段上有难度，而且需要很高的硬件支持和非常流畅的网络，否则就没有办法从Web上获取更多的数据。因此，传统的基于Web数据挖掘的信息采集方法，对于一些比较简单的需求，信息量较小的采集需求，成本太高，时间太长。

　　发明内容

　　(一)要解决的技术问题本发明要解决的技术问题是如何提供一种基于网页数据挖掘的information采集方法，以较低的成本和(2)技术方案为解决上述技术问题，本发明提供了一种基于web数据挖掘的信息采集的方法，包括步骤A从目标Web文档中获取信息采集信息;B判断采集的信息类型是否为固定格式数据，如果是，则转到步骤E；否则，从该信息中去除无用信息采集对信息进行整理，然后进行步骤C； C：判断采集的信息类型是否为半结构化数据，如果是，则对采集的信息进行模式发现，然后执行步骤D；否则执行步骤E；D判断是否保存如果有模式等待采集信息的模板，如果是，转步骤E；否则，分析等待采集信息的模式后，保存其模式模板，然后进行步骤E； E为等待采集Information进行归类，去除重复信息后创建搜索目录； F 将待处理的采集信息存储在本地计算机上。优选地，在步骤F之后，还包括步骤G，从待处理的采集信息中获取用于显示的数据。优选地，在步骤G中，将待使用的采集信息解压后，获取待使用的数据进行显示。优选地，步骤A中的Web文档的对象包括在线Web文档、电子邮件、电子文档、新闻组、网站日志数据或通过Web形成的交易数据库中的数据。优选地，步骤B中的固定格式数据在Web上具有较好的统计性。固定格式数据包括天气预报、实时新闻、财经新闻、航班信息或股票信息。优选地，步骤B中的无用信息包括冗余广告链接、冗余格式标签、自动识别段落或自动识别字段。优选地，在步骤C中，对要为采集的信息进行模式发现包括在同一个网站内或多个网站之间进行模式发现。在步骤D中，对等待的采集信息进行模式分析包括对步骤C中产生的模式进行验证和解释。优选地，等待采集信息按照预定的压缩算法进行压缩后，然后存储在本地计算机。 (三)有益效果本发明基于web数据挖掘信息采集的方法集成了多种数据挖掘方法，对于不同的数据类型为采集信息，通过采用相应的数据挖掘方法，可以以更低的成本和更短的时间满足需求简单、数据量小的信息采集信息需求。同时，对于半结构化数据，首先进行模态分析后，模态模板自动保存.当采集这类信息重复出现时，不需要再次进行模态分析，进一步减少了运算时间。

　　图。图1为本发明实施例基于网页数据挖掘的信息采集方法流程图。

　　具体实施方式以下结合附图和例子，对本发明的具体实施方式进行说明。

　　更详细地描述。以下实施例用于说明本发明，但不用于限制本发明的范围。实施例一本实施例假设采集信息为新浪网新闻频道的新闻数据。图1为本发明实施例基于网页数据挖掘的信息采集方法流程图。如图1所示，该方法包括步骤A，从目标Web文档中获取采集的信息。这里的目标Web文件是新浪网新闻频道的Web文件。需要说明的是，本发明的目标Web文档还可以包括电子邮件、电子文档、新闻组、网站日志数据或通过Web形成的交易数据库中的数据。步骤B 判断出待采集的信息类型不是固定格式数据后，利用决策树、分类、聚类、关联规则等，将待采集的信息中无用信息去掉，然后排序信息，然后转到步骤C。无用信息包括广告链接、冗余格式标签、自动识别段落或自动识别字段等。信息组织是将待处理的采集信息组织成规则的逻辑形式。 Step C 对要为采集的信息进行模式发现，即搜索当前的Web模型结构，分析标准HTML页面的内容，检索头信息，使用HITS（Hypertext-hduced Topic Search）算法和I^ ageRank (Webpage Level Algorithm) 该算法进行数据分析，计算网页之间超链接的质量，从而得到页面的权重，分析有效链接地址，最终得到信息对应的模式为采集，然后执行步骤 D。

　　这里，待定采集信息的模式发现包括同一个网站内或多个网站之间的模式发现。步骤D，判断待采集信息的模式模板是否保存，如果保存，则执行步骤E；否则，解析待采集信息的模式模板并保存模式模板，然后执行步骤E。对待采集信息进行模式分析，包括对步骤C中生成的模式进行验证和解释，当第一次执行采集这类信息时，需要对采集信息进行模式分析k15@ 并保存其模式模板；再次执行此类信息采集时，只需直接读取模式模板即可。然后直接访问数据，从而有效节省信息采集的时间。步骤E 根据不同的信息类型将信息明细分类为采集，去除重复信息后创建搜索目录。在步骤F中，将待采集的信息按照预定的压缩算法进行压缩，然后存储在本地计算机上。步骤G 等待采集信息解压后，从等待采集信息中获取待使用数据并显示。实施例二在本实施例中，假设采集信息为航班信息，如图1所示。如图1所示，该方法包括步骤A，从目标Web文档中获取等待的采集信息。航班信息的一般格式比较固定，更新频率很低，而且很多现有的WebServers都提供相关服务，所以可以选择使用RSS（Really Simple Syndication）采集器来自一个可用的ffebServers 采集航班信息设置航班信息更新周期后，RSS采集器可以定期从可用的Webservers获取航班信息。

　　步骤B 判断等待的采集信息即航班信息属于固定格式数据后，直接执行步骤E。与航班信息类似，固定格式数据还包括天气预报、实时新闻、财经新闻或股票

　　机票、优惠券等 Step E 对航班信息进行简单分类，去除重复信息后创建搜索目录。步骤F：按照预定的压缩算法对航班信息进行压缩，然后存储在本地计算机上。步骤G 航班信息解压后，从等待的采集信息中获取到要使用的数据并显示出来。本发明实施例中基于网页数据挖掘的信息采集方法集成了多种数据挖掘方法，对于不同类型的数据为采集信息，可以以较低的成本使用相应的数据挖掘方法和更短的时间满足需求简单、数据量小的信息采集。同时，对于半结构化数据，在第一次模态分析后会自动保存模态模板。当采集这类信息重复出现时，就不需要再次进行模态分析，进一步减少了运算时间。以上实施例仅用以说明本发明，并不用于限制本发明。相关技术领域的普通技术人员还可以在不脱离本发明的精神和范围的情况下进行各种变化和修改。因此，所有等同的技术方案也属于本发明的范围，本发明的专利保护范围应以权利要求书为准。

　　声明

　　1.一种基于Web数据挖掘的信息采集方法，其特征在于包括步骤A，从目标Web文档中获取信息为采集； B判断采集的信息类型是否为固定格式数据，如果是，则转步骤E；否则，从等待的采集信息中去除无用信息，然后进行信息排序，再进行步骤C； C判断等待的采集信息类型是否为半结构化数据，如果是，则对挂起的采集信息进行模式发现，然后执行步骤D；否则，执行步骤E； D 判断待处理的采集信息的模式模板是否保存，如果保存，则执行步骤E；否则，分析等待采集信息的模式后，保存其模式模板，然后执行步骤E； E 对等待的采集信息进行分类，去除重复信息后创建搜索目录； F 将采集信息存储在本地计算机上。

　　2.如权利要求1所述的方法，其特征在于，在所述步骤F之后，还包括步骤G，从所述信息中获取待使用的数据为采集进行展示。

　　3.如权利要求2所述的方法，其特征在于，在步骤G中，将信息解压为采集后，获取待使用的数据进行显示。

　　4.如权利要求1所述的方法，其中步骤A中的目标Web文档包括形成的交易数据库中的在线Web文档、电子邮件、电子文档、新闻组、网站日志数据或Web数据。

　　5.如权利要求1所述的方法，其特征在于，步骤B中的固定格式数据具有Web上的统计数据资源供爬取；固定格式数据包括天气预报、实时新闻、财经新闻、航班信息或股票信息。

　　6.如权利要求1所述的方法，其中步骤B中的无用信息包括冗余广告链接、冗余格式标签、自动识别段落或自动识别字段。

　　7.如权利要求1所述的方法，其特征在于，在步骤C中，待处理采集信息的模式发现包括：同一网站内或多个网站之间及时模式发现。

　　8.如权利要求1所述的方法，其中，在步骤D中，对要成为采集的信息进行模式分析包括验证和解释步骤C中生成的模式。

　　9.如权利要求1所述的方法，其特征在于，在步骤F中，将待采集的信息按照预定的压缩算法进行压缩，然后存储在本地计算机上。

　　全文摘要

　　本发明公开了一种基于网页数据挖掘的信息采集方法，涉及数据挖掘技术领域。该方法包括步骤A，从目标Web文档中获取信息为采集； B判断采集的信息类型是否为固定格式数据，如果是，则执行步骤E；否则，对去除无用信息后的信息进行整理，执行步骤C； C判断采集的信息类型是否为半结构化数据，如果是，进行模式发现，转步骤D；否则，转到步骤E； D判断是否有存储的模式模板，如果有，转步骤E；否则，进行形态分析后，保存形态模板，执行步骤E； E 删除重复信息并将其存储在本地计算机上。该方法可以以较低的成本和较短的时间满足需求简单、数据量小的信息采集的需求。

　　文件编号 G06F17/30GK102402592SQ20111034478

　　出版日期 2012 年 4 月 4 日申请日期 2011 年 11 月 4 日优先权日期 2011 年 11 月 4 日

　　发明人张旭良、戴福豪、王磊、马彤申请人：

0

2021-07-15

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

半结构化数据挖掘的几种主要特点是什么？

0 个评论

发起人