网页表格抓取(和数据挖掘项目的表格中提取文本和数字数据介绍)
优采云 发布时间: 2021-11-30 22:23网页表格抓取(和数据挖掘项目的表格中提取文本和数字数据介绍)
作为数字化和数据挖掘项目的一部分,我正在尝试从 PDF 页面中的表格中提取文本和数字数据。作为数字化和数据挖掘项目的一部分,我正在尝试从 PDF 页面中的表格中提取文本和数字数据。和数字数据。
要处理的 PDF 文档数量超过 80,000 个,每个文档可能有 4 到 80 页,结合了图像、文本、注释和多种类型的表格。可能有 4 到 80 页,结合了图像、文本、注释和多种类型的表格。我已经成功地使用 PDFMiner 来处理页面并从中采集最相关的数据,但是,在尝试不同的技术数周后,我未能从表格中获取完美的数据。相关数据,但是在尝试了几个星期不同的技术后,我未能从表中得到完美的数据。不幸的是,这些表格有几种布局:它们的一些列是对齐的(对齐在单词之间添加空格),一些单元格有很多行,整个表格的行距不同,还有多列单元格。不幸的是,这些表格有几种布局:它们的一些列是对齐的(对齐会在单词之间增加空格),一些单元格有很多行,整个表格的行距不一样,并且有多个单元格列。
对普通页面产生最佳性能的字符边距、行边距和字边距参数在应用于表格处理时会产生混乱的结果。当应用于表处理时,参数可能会产生令人困惑的结果。幸运的是,3/4 的表格具有垂直和水平线,可用于将其区域划分为单元格并找到每个单元格的坐标。幸运的是,3/4 的表格都有垂直和水平线,可以用来划分它们的区域为单元格并找到每个单元格的坐标。但是pdfminer.pdfinterp.PDFPageInterpreter和pdfminer.converter.PDFPageAggregator带来的LTText实例往往不尊重每个单元格的边界。细胞边界。
我花了很多天尝试不同的技术,包括对 laparams 和字符串解释和拆分的更改,以获取和使用整个页面处理生成的 LTText 实例。并通过字符串解释和拆分更改获取并使用整个页面处理生成的 LTText 实例。真正有用的东西会用 interpreter.process_cell(page, xmin, ymin, xmax, ymax) xmax, ymax) 替换 interpreter.process_page(page)
我相信如果有一些方法使用 PDFMiner 函数和方法来获取收录在单元格边界内的对象,使用保守的 laparameters 来避免混乱的结果,我相信可能存在解决方案。我相信如果有一些方法使用PDFMiner函数和方法来获取单元格边界内收录的对象,使用保守的laparameters来避免混淆结果,我相信可能会有解决方案。理想的方法应该足够快,因为它必须多次应用。在 StackOverflow 中搜索时,我发现从 PDF 页面的某些区域中提取文本?在 StackOverflow 中搜索时,我发现从 PDF 页面的某些区域提取文本? ,这是相似的,但没有回答。
我还发现从 pdf 中提取区域和按坐标提取 PDF 文本,它们使用了其他库和技术。我还发现从 pdf 中提取区域和按坐标提取 PDF 文本,这使用了其他库和技术。我不想混合不同的库和它们的对象来解决这个问题,因为 PDFMiner 在恢复除表格之外的所有信息方面确实非常有效。 PDFMiner 在恢复除表格之外的所有信息方面确实非常有效。有没有人有建议?有人有建议吗?