如何识别Web表格的结构,启发式识别准则!!
优采云 发布时间: 2021-07-25 20:22如何识别Web表格的结构,启发式识别准则!!
为了提取数据行信息,我们必须确定Web表的结构。根据表格的HTML标记,你也可以稍微观察一下上图中存在的规则。定位好表格后,就可以依次搜索表格了。 >标识后,不难发现,实际收录数据的两行HTML代码非常相似。如果仔细查看网页表单部分的代码,您会发现所有这些都是由一系列连续的相似结构组成的重复结构。该结构非常有利于我们设计一个程序来遍历分析表单。它们可以组织成以下启发式识别标准: 表识别:整个表收录在行和列中。识别:行收录在TR>中,列收录在属性中。如果有 font> item 并且 size 属性有不同的值,对于大字体的 Row,就是标题行。字体颜色检测:在表格的每一行中,如果字体颜色发生变化,则在表格顶部显示相同颜色的标题。以及收录属性的行为标题行。标识检查:TH>中收录的行,这些行是表的标题行。匹配检测:从第一行开始,将单元格与应用本体中的同义词词典进行比较。只要匹配成功,该行就会被判断为2.4XML 格式转换和数据归档。上面的步骤已经进行了并且经过内容映射过程(将提取的内容映射到规则定义的数据表的对应字段),我们得到了一个标准的HTML格式的数据表。
为了便于管理,我们需要将这些HTML格式的信息转换成XML格式进行存储,并与对应的Schema模式进行链接。将采集信息导入数据库是本系统的最后一个环节。在这里,我们为每种类型的信息设计了两个数据库,即实时数据库和历史数据库。定义判断算法。如果数据发生变化,将信息发送到实时数据库,同时将更新的数据发送到历史数据库,并生成日志并添加到更新日志数据库中。工作完成后,您可以轻松地对这些数据进行比较和分析,最终生成报告。这些内容不在本文讨论范围之内。在测试中,我们重点测试了数据分析提取模块,包括页面清理的整体满意度、表格数据提取率、准确率等,测试中使用的数据来源来自WTO TBT咨询网站。这些数据项的组织比较规范,缺失或顺序变化较大的数据项很少,符合系统所针对对象的特点。测试使用的电脑配置为 cpu2.0G 内存 256M 3.1 页面清理效果测试选取50个样本页面,批量清理时间22秒。效果评价见表。页面清洗效果评价 清洗效果文本块链接块是否可用 使用可用和不可用页数463.2 选择样本页50进行提取测试,提取时间36秒,效果评价显示在表中。数据提取效果评价提取效果数据项提取数据项匹配正确不正确正确不正确的表数50更好3.3 测试结论通过测试可以看出系统的可信度很高,基本上可以达到更多95%以上;速度基本可以保证秒级,但还有待进一步提升。
另外,提取过程已经达到了预期的目标,但是提取的数据项的匹配还需要进一步优化。结论本文设计并初步实现了一个TBT预警数据实时监控系统,实现了目标页面数据的自动抓取,设计了一系列有效的表格分析规则。介绍了本体的概念。当应用领域发生变化时,我们只需要修改应用本体。进一步的研究仍在继续。我们正在改进一些部分,例如匹配学习机制。我们正在考虑引入一些人工智能方法进行处理,自动提取的性能还有待进一步提升。 Ontology-based Web Information Extraction An HTML Web Page Purification Method Information Journal, 2004. Research and Implementation of Web Page Cleaning Technology Computer Engineering, 2002 PeterAndreae.LearningInformationExtractionPatternsfromTabularWebPageswithoutManualLabelling.Proceedingsoftthe IEEE JunAdachi.InformationExtractionfromHTMLPagesanditsingsm