外贸智能文章采集系统(如何识别Web表格的HTML代码十分相似识别准则?)
优采云 发布时间: 2022-02-18 22:26外贸智能文章采集系统(如何识别Web表格的HTML代码十分相似识别准则?)
为了提取数据行信息,我们必须识别Web表的结构。根据表格的HTML标记,我们也可以从上图中稍微观察到其中的规则。定位到表格之后,也就是顺序查找和表格>标记之后,不难发现,实际上收录数据的两行HTML代码非常相似。如果你仔细看网页的表单部分,你会发现所有这些都是由一系列连续的相似结构组成的重复结构,那么这样的结构对我们来说非常重要。设计一个程序来遍历分析表格是非常有利的。它们可以组织成以下启发式识别标准: 表格识别:整个表格收录在行和列中的行,也就是标题行。字体颜色检测:在表格的每一行中,如果字体颜色发生变化,则表格上方相同颜色的行为标题。以及收录 STRONG> 属性的行为标题行。Logo Detection:TH>中收录的行,这些行是表头行。匹配检测:从第一行开始,将单元格与应用本体中的同义词词典进行比较。只要匹配成功,该行就会被判断为标记为2.4XML格式转换并在上面进行了数据归档。并且经过内容映射过程(将提取的内容映射到规则定义的数据表的相应字段),我们得到的是一个标准的HTML格式数据表。表格上方相同颜色的行将是标题。以及收录 STRONG> 属性的行为标题行。Logo Detection:TH>中收录的行,这些行是表头行。匹配检测:从第一行开始,将单元格与应用本体中的同义词词典进行比较。只要匹配成功,该行就会被判断为标记为2.4XML格式转换并在上面进行了数据归档。并且经过内容映射过程(将提取的内容映射到规则定义的数据表的相应字段),我们得到的是一个标准的HTML格式数据表。表格上方相同颜色的行将是标题。以及收录 STRONG> 属性的行为标题行。Logo Detection:TH>中收录的行,这些行是表头行。匹配检测:从第一行开始,将单元格与应用本体中的同义词词典进行比较。只要匹配成功,该行就会被判断为标记为2.4XML格式转换并在上面进行了数据归档。并且经过内容映射过程(将提取的内容映射到规则定义的数据表的相应字段),我们得到的是一个标准的HTML格式数据表。匹配检测:从第一行开始,将单元格与应用本体中的同义词词典进行比较。只要匹配成功,该行就会被判断为标记为2.4XML格式转换并在上面进行了数据归档。并且经过内容映射过程(将提取的内容映射到规则定义的数据表的相应字段),我们得到的是一个标准的HTML格式数据表。匹配检测:从第一行开始,将单元格与应用本体中的同义词词典进行比较。只要匹配成功,该行就会被判断为标记为2.4XML格式转换并在上面进行了数据归档。并且经过内容映射过程(将提取的内容映射到规则定义的数据表的相应字段),我们得到的是一个标准的HTML格式数据表。
为了方便管理,我们需要将这些HTML格式的信息转换成XML格式进行存储,与对应的Schema schema链接,将采集的信息导入数据库是本系统的最后一个环节。在这里,我们为每种类型的信息设计了两个数据库,即实时数据库和历史数据库。定义判断算法。如果数据发生变化,信息会被发送到实时数据库,更新的数据会被发送到历史数据库,并生成一个日志并添加到更新日志库中。工作完成后,方便对这些数据进行对比分析,最后生成报告,这超出了本文的范围。在测试中,我们重点关注数据分析提取模块,包括页面清理的整体满意度、表格数据提取率、准确率等。测试使用的数据来源来自WTO TBT的咨询网站。这些数据项的组织是相对标准化的。数据项少或顺序变化较大,符合系统目标对象的特点。测试使用的电脑配置为cpu2.0G内存256M3.1页清洗效果测试选取50个样本页面,批量清洗时间为22秒,效果评价见表页清洗效果评价清洗效果文本块链接块中可用和不可用页面的数量为46 3.2 抽取测试选择样本页面50,抽取时间为36秒,效果评价见表。正确表数50个比较好3.3 测试结论 经过测试,我们可以看到系统具有很高的可靠性,基本可以达到95%以上;速度基本可以保证秒级,但仍需进一步提升。
此外,提取过程达到了预期目标,但提取数据项的匹配需要进一步优化。结论 本文设计并初步实现了TBT预警数据实时监控系统,实现了目标页面数据的自动抓取,并设计了一系列有效的分析表格规则。引入本体的概念。当应用领域发生变化时,我们只需要修改应用本体即可。进一步的研究还在继续,我们正在改进一些部分,比如匹配学习机制,我们考虑引入一些人工智能方法进行处理,自动提取的性能还有待进一步提高。基于本体的 Web 信息提取一种用于提纯 HTML 网页的方法 信息杂志,2004。