网页数据自动抽取系统

优采云发布时间: 2020-08-31 02:31

　　网页数据自动提取系统

　　计算机工程和应用简介2004.191随着Internet的普及和WWW的广泛使用，出现了许多HTML网页. 在这些网页中，有文本网页和数据网页. 其中，大多数数据网页是由数据密集型网站发布的. 这些数据网页基本上是由后端数据库根据用户要求并使用某些脚本程序构成的. 这样的数据对于诸如电子商务中的信息获取之类的应用非常有用. 但是，由于HTML网页主要用于浏览，而不是用于操纵和使用数据，因此其中的数据很难被应用程序直接使用. 尽管XMLeXtensibeMarketLanguage语言克服了HTML的一些缺点，但是由于Internet上存在大量的历史数据，并且到目前为止，大多数网页仍是HTML页面，但从网络中提取数据仍然很复杂且困难. 页面并将它们传递给应用程序. 但这是一项有意义的任务. 从网页提取数据通常是由包装程序完成的. 所谓的包装器是一种软件程序，可以从HTML网页中提取数据并将其还原为结构化数据，例如XML数据. 编写包装的方法已经历了三个阶段: 手动编写，*敏*感*词*生成和正在研究的全自动生成. 在手动编写阶段，具有一定知识的专业专业人员首先分析网页，然后编写包装. 在现阶段，对这类专业人员的要求很高，而且任务艰巨. 通过使用人工智能技术，在一定程度上采用了机器学习14，数据挖掘56和概念建模7等方法，以使包装材料的生产能够自动进行. 然而，在这些技术中，不仅需要提供用户设置的识别样本，而且还需要具有一定的先验知识. 在过去的一年中，已经提出了两种基本上可以完全自动化的方法. 89只要输入相应的网页，这两种方法就可以自动分析和生成包装器并从网页中提取数据. 在整个过程中唯一需要用户干预的地方是最终数据结构的语义分析部分.

　　采用这种全自动方法可以大大减少用户的工作量，并大大改善网页提取工作. 但是这两种方法也有某些缺点. 其中，Road-Runner8系统中的ALIGN算法根据比较示例页面的HTML代码的匹配部分和不匹配部分确定通用包装器，但是在这种匹配过程中，该算法只是将HTML代码视为字符串流. 为了进行比较，它没有使用HTML代码的某些结构特征来使其对可重复项的处理更加复杂. EXALG算法9的核心是查找和确定网页之间最大的频繁发生等价类. 然后，大型且频繁发生的Euivaencecasses会基于此类生成模板. 提取数据通过对算法实验数据的分析，发现该算法提取的数据在结构上存在一定问题. 有一定的自动Web数据提取系统用于确定可重复项. 王如1宋汉涛1陆玉昌21北京工业大学计算机科学学院，北京1000812，清华大学，智能技术与系统国家重点实验室，北京摘要互联网上有大量的半结构化HTML网页. 为了使用这些丰富的网页数据，有必要再次从网页中提取数据. 本文介绍了一种基于树结构和自动生成包装器的系统的新信息提取方法DAEDOMbasedAutomaticExtraction，该方法将HTML网页数据转换为XML数据. 提取过程基本上不需要人工干预，从而实现了提取过程. 自动化.

　　此方法可以应用于信息搜索代理或数据集成系统. 关键词包装的摘录信息生成DOM树文章文档代号419 013 504 CLC TP311AnAutomaticWebDataExtractionSystemWangRu1SongHantao1LuYuchang21Dep中国extractthedatafrompages.AnautomaticwebpagesdataextractionsystemDAEispresentsinthis paperandanewtreebasedmethodofinformationextractionisasoproposed.Inthissystemthewra pperisautomaticaygeneratedandtheHTMLwebpagesdatacanbeautomaticaytransformedinto XMLformat.KeywordsdataextractionwrappergenerationDOMtree的t.ofComputerBeijingInstituteofTechnoogyBeijing1000812StateKeyLabofInteigentTechno ogyandSystemDept.ofComputerTsinghuaUniversityBeijing100084AbstractThereareaotof HTMLwebpagesintheInternet.Thesepageshavesomestructuresandtheyaredynamicaygener atedusingscriptsfromthecontentofbackedendDBMS.Ifpeopewanttousethesedatatheyhaveto国家自然科学基金资助项目编号: 79990580国家973重点基础研究发展计划项目号G1998030414作者简介王儒博士19722000研究是异构数据库互连的主要研究方向.

　　宋汉涛教授1940年担任博士生导师的主要研究方向是异构数据库和无线移动网络的互连和使用. 陆玉昌教授在1937年的主要研究方向是机器学习和KDD. 1352004.19计算机工程和应用程序错误. 迄今为止，国内的研究基本上处于包装器的*敏*感*词*生成阶段，关于自动识别网页并生成包装器提取数据的方法尚无相关研究数据. 在中国，最典型的系统和算法是基于中国人民大学数据与知识研究所提出的预定义模式的1个包装器. 在图11中，用户定义了模式并给出了模式与HTML网页之间的映射关系. 然后系统导出规则并同时生成包装器. 2中国科学院软件提出的基于DOM的信息12该算法基于文档对象模型DOM，并使用DOM层次结构中要提取的信息的路径作为信息提取的“坐标”，并进行设计基于此基本原理的算法. 归纳学习算法用于*敏*感*词*生成提取规则，然后根据提取规则生成JAVA类. 此类用作Web数据源包装器的重要组件. 3河北大学基于样本实例的Web信息提取13用户首先基于OR模型选择样本页面和预定义模式，然后在样本页面中标记样本页面和样本记录，学习形成包括提取规则和关联规则的规则，并放入规则，然后输入知识库，最后使用知识库从其他类似页面中自动提取信息，并将其存储在对象关系数据库中.

　　4中国科学技术大学提出的基于多层模型的多记录网页信息提取方法14基本思想是HTML网页信息提取仅由多层描述模型，以便可以使用各层之间的互连特性来帮助动态获取与每层HTML页面内容的特定描述格式密切相关的信息识别模式的知识，并最终使用获得的多层信息识别模式来完成每个HTML页面的特定信息提取工作. 这些算法有一定的局限性. 首先，需要更多的手动干预. 由于需要更多的先验知识和不同系统使用的不同描述语言，需要干预的人员不仅需要熟悉网页的结构分析和生成，还需要对使用的描述语言有更好的理解通过系统. 要求比较严格. 其次，基于某些先验知识生成包装器的方法导致系统的适应性较差. 也就是说，根据特定情况生成的包装器只能应用于特定情况. 当网页结构更改时，需要重新手动执行. 因此，干预和识别很难很好地适应变化. 本文提出了一种基于DAEDOM的新系统，该系统可自动生成包装器. 系统中的核心算法借鉴了ALIGN算法的一些思想，但已得到很大改进. DAE系统利用HTML代码的树状特征来更好地解决确定可重复项和可选项的问题，特别是对于嵌套数据的提取而言，更为方便. DAE系统在数据语义分析中还具有一些独特的功能. 包装程序的整个生成和数据提取过程是自动的，除了需要用户参与的语义分析.

　　此系统是WebMEWebMiningEnvironment系统的一部分. 它是作者设计的网络数据定制，自动采集，过滤，填充，格式转换，异构集成，存储，分类和聚类，模式提取和高效检索的集合. ，网络导航，信息定制和推荐，数据挖掘支持等功能，构成了整个网络挖掘原型系统. 2系统概述DAE系统是WebMEWebMiningEnvironment系统的一部分. WebME系统首先使用信息定制方法从相应的网站下载网页，然后使用唯一的网页分类方法对网页进行分类. 对于数据网页，请使用DAE算法从分类的网页中提取数据. 数据存储在结构化的数据结构中，然后对数据进行挖掘和使用. 对于文本网页，使用文本分类方法和倒排方法来索引要搜索的网页. DAE系统主要从基于数据的网页中提取数据. 所谓数据类型网页，是指由后端数据库针对不同的用户查询，并使用某种脚本语言返回结果的网页. 数据提取问题的标准化定义是10“给几个相同类型的示例网页以找出其源数据集的嵌套结构并从这些网页中提取源数据集”. 如图1所示，用于两个网页的DAE算法比较两个网页之间的相似性和差异，以获得一个公共包装，然后将其与更多的示例网页进行比较，以生成此类网页的包装. 经过语义分析和数据模型生成之后，使用包装程序提取数据并将其与数据模型组合以存储在结构化XML数据集中. 数据存储在XML数据集中，因为XML数据格式是Internet上数据交换的标准形式，并且XML数据也可以轻松转换为关系数据库. 这样，数据的共享和使用可用于以数据集中XMLSchema的形式定义数据的结构. 数据的语义在系统的最后部分确定.

　　DAE系统由4个部分组成，系统结构如图2所示. 1用于包装和数据模式的系统中的数据预处理DP图1数据类型网页示例136计算机工程和应用2004.19生成主要取决于由于HTML文档采用树状语法结构，因此首先将HTML文档转换为HTM树一种具有自定义形式的树模型. 在此模块中，由于并非所有网页都严格遵循XHTML规范，因此需要纠正网页中的某些不规则之处. 模块结束后，将输出HTM树. 2对包装器的分析和AGW的生成是系统的核心部分. 在此模块中，包装是通过比较不匹配的不同网页来确定的. 同时，根据生成的包装器生成数据模式. 在此过程中，使用HTM树的父子节点和同级节点之间的某些固有关系会大大降低确定数据选项和可重复项的难度. 3数据项的语义分析DSA的数据提取不仅是从网页中简单地提取数据，而且还需要赋予数据项某种语义. 通过对HTML网页的分析，可以发现通常在数据项的前面有一些数据项的描述，这些描述可以用来确定数据项的语义. 在HTM树中，这一点尤其明显. 数据项的描述部分通常可以在数据项节点的相邻兄弟节点或祖先节点上找到. 由于无法自动完成数据项的语义分析，因此此任务需要用户的参与. 用户最终可以根据系统提供的相关语义信息来确定数据项的语义.

　　4数据提取和存储DEM生成包装器并且已对数据项进行语义分析时，可以在输入网页上执行数据提取. 提取的数据以XML格式存储，并与相应的XMLSchema模式链接. 图2 DAE系统的体系结构在整个系统的工作过程中，除了需要用户参与的语义分析部分外，其余部分均由程序自动完成，从而大大提高了自动化程度. 3包装程序的分析和生产AGW包装程序可以看作是一些特殊程序，可以自动从网站提取数据并将信息转换为结构化形式. 生成包装器的工具可以分类如下: 10种包装器开发语言，基于HTML内部结构的工具，基于NLP的工具，用于包装器推理的工具，基于建模的工具，基于本体的工具等. 该系统使用了基于HTML内部结构的分析和生成方法，该方法类似于RoadRunner系统中的ALIGN算法，但比ALIGN算法有更大的改进. 3.1理论基础HTML文档的嵌套类型与无联合正则表达式之间存在完全的对应关系. 如果给定了一组HTML字符串s1s2 ... sk，则它对应于源数据集的编码，也就是说，可以通过推导最小无联合来表示嵌套类型实例集i1i2 ... ik. 正则表达式输入收录字符串s1s2 ... sk的语言l以获取类型.

　　因此，它可用作包装器来解析字符串s1s2 ... sk并重建源数据集i1i2 ... ik，以便模式发现和数据提取等效于找到最小的无联合正则表达式无联盟的正则表达式语言收录输入字符串s1s2 ... sk. 由于所研究的htm网页具有严格的嵌套和标识符配对结构，因此定义了HTT树来表示网页的正则表达式. HTT树的定义如下. 1htm网页的基本单位标记是一个标识符. 标识符是一对，或者字符串是只有一个叶节点的HTT树. 2如果网页的形式为B1 ... Bn，即B1 ... Bn为n个HTT树，则形成一个以n个子树B1 ... Bn为根的HTT树. 3可选表达式r对应于以OPTIONAL为根，r为子树的树. 4重复表达式r对应于以ITERATOR为根，r为子树的树. HTT树不仅可以表示HTML网页，还可以表示一种网页生成模板. 如图3所示，有两个网页和HTT树，以及相应的模板和HTT树. 图3网页及其相应的HTT树3.2实现技术AGW算法AGW算法借鉴了RoanRunner系统中ALIGN算法的一些思想. 主要处理工作是同时比较和校正两个输入的HTT树之间的不同节点. 最小的HTT树.

　　算法的输入是一组示例网页. 每次将包装树与示例网页树进行比较并生成新的包装树时，然后将包装树与另一个示例网页树进行比较，直到将所有包装树都进行比较. 在比较包装树和示例网页树的过程中，这两种树是通过预遍历方法同时处理的. 如果两个树中的节点相同，则处理下一个节点，直到比较并处理所有节点为止. 完成后，将生成新的包装器HTT树. 在遍历和比较过程中，存在两种基本类型的不匹配字符串不匹配和标识符不匹配. 1372004.19计算机工程与应用程序匹配. 因为这两个不匹配的原因不同，所以它们对包装器和数据模式的影响也不同. 字符串不匹配在属于同一类别的两个不同的网页中，字符串不匹配是由数据库字段的不同值引起的. 因此，如果存在字符串不匹配，则可以认为它对应于数据库中的字段. 处理方法是在包装器中将此位置标记为PCDATA，并认为在数据模式下此处存在一个字段. 如图3所示，“ wangru”和“ Louis”属于字符串不匹配，因此包装程序指示PCDATA数据模式中存在一个字段. 标识符不匹配标识符不匹配是指包装器和示例网页之间的HTML标识符不匹配，或左侧包装器中“ LI”下的标识符和单词之间的不匹配，中间示例网页“ LI”中有两个子项，其中有三个子项，因此遍历和搜索图层时会出现标识符不匹配的情况.

　　这样做的原因是因为这里有重复的数据项. 另一种可能性是这里有一个可选项，即数据项是可选的. 该算法首先判断它是否是数据项的重复，如果不是，则判断它是否是可选的. 遍历结束后，将生成新的包装树，并处理所有示例网页以生成最终的包装树. 根据包装树，生成包装，并且基于树的层次关系，可以容易地确定这种网页的数据模式，并且可以提供有价值的语义分析数据. 如图4所示，图3中提取的数据及其数据模型已添加了语义. AGW算法使用HTT树作为基本表示模型. 使用该模型不仅实现了HTML网页的抽象，而且在算法的实现中充分利用了树本身的某些节点之间的关系，从而提高了算法的性能，降低了算法的时间复杂度. . 4结束语为了适应在线数据更改的动态需求，生成包装器的算法可以具有更高的自动化和适应性. 本文提出了一种新的自动生成包装器的系统，即基于DAEDOM的自动提取. 该系统是WebMEWebMiningEnvironment系统的一部分. 与RoadRunner系统中的ALIGN算法相比，它有了很大的改进. DAE系统使用HTML代码的树状特征来更好地解决确定可重复项和可选项的问题，特别是对于嵌套数据的提取而言，这样做更加方便，同时增加了数据提取的灵活性并减少了部分内容. 数据提取. DAE系统的时间复杂度在数据语义分析中也具有一些独特的功能.

　　下一步将要进行的工作是分析提取的数据项的语义一致性. 收到2003年9月参考1.CHsuMDung.Generatingfinite-statetransducersforsemistructureddataextractionfromthe webJ.InformationSystem19982382.NKushmerik.WrapperinductionEfficiencyandexpressi venessJ.Arti-ficialIntelligence20001183.IMusleaSMintonCAKnobolock.Ahierarchicalap proachtowra-pperinductionC.InProcofAutonomousAgents19994.SSoderland.Learninginf ormationextractionrulesforsemistructuredandfreetextJ.MachineLearning1999341-35.BAd elberg. 结节-atoolforsemi-automaticallyextractingstructuredandsemistructureddatafro mtextdocuments.InSIGMOD986.BARibeiro-NetoALaender.Extractingsemistructureddat athroughexample.InCIKM997.DWEmbleyDMCampbell.Aconceptual-modelingapproach toextractingdatafromtheweb.InER988.VCrescenziGMecca.RoadRunnerTowardsautomati cdataextractionfromlargewebsitesC.In27thVLDB20019.ArvindArasuHectorGarcia - 莫林a.ExtractingstructureddatafromwebpagesR.TechnicalReportStanfordUniversity200210.Al bertoHLaenderBerthierARibeiro-Neto.ABriefSurveyofWebDataExtractionToolsJ. Acms IGMODRecord200231211. 孟小峰，王海燕，顾明哲等. 基于XWIS J中预定义模式的包装器. 计算机应用程序2001-0912. 李晓东顾玉清. 基于DOM的Web信息提取J. Computer Journal 2002-0513. 张少华徐林浩杨文柱. 基于样本实例Web信息抽取的研究. 河北大学学报自然科学版2001414. 基于多层模式的多记录网页信息提取方法J.计算机工程信息技术. 2003年，路易斯·伊斯特德2002年第二版. 2003图4生成数据模式并提取数据138

0

2020-08-31

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页数据自动抽取系统

0 个评论

发起人

AI时代内容工厂

网页数据自动抽取系统

0 个评论

发起人

相关问题