网页表格抓取(和数据挖掘项目的表格中提取文本和数字数据介绍)

优采云发布时间: 2021-11-30 22:23

　　作为数字化和数据挖掘项目的一部分，我正在尝试从 PDF 页面中的表格中提取文本和数字数据。作为数字化和数据挖掘项目的一部分，我正在尝试从 PDF 页面中的表格中提取文本和数字数据。和数字数据。

　　要处理的 PDF 文档数量超过 80,000 个，每个文档可能有 4 到 80 页，结合了图像、文本、注释和多种类型的表格。可能有 4 到 80 页，结合了图像、文本、注释和多种类型的表格。我已经成功地使用 PDFMiner 来处理页面并从中采集最相关的数据，但是，在尝试不同的技术数周后，我未能从表格中获取完美的数据。相关数据，但是在尝试了几个星期不同的技术后，我未能从表中得到完美的数据。不幸的是，这些表格有几种布局：它们的一些列是对齐的（对齐在单词之间添加空格），一些单元格有很多行，整个表格的行距不同，还有多列单元格。不幸的是，这些表格有几种布局：它们的一些列是对齐的（对齐会在单词之间增加空格），一些单元格有很多行，整个表格的行距不一样，并且有多个单元格列。

　　对普通页面产生最佳性能的字符边距、行边距和字边距参数在应用于表格处理时会产生混乱的结果。当应用于表处理时，参数可能会产生令人困惑的结果。幸运的是，3/4 的表格具有垂直和水平线，可用于将其区域划分为单元格并找到每个单元格的坐标。幸运的是，3/4 的表格都有垂直和水平线，可以用来划分它们的区域为单元格并找到每个单元格的坐标。但是pdfminer.pdfinterp.PDFPageInterpreter和pdfminer.converter.PDFPageAggregator带来的LTText实例往往不尊重每个单元格的边界。细胞边界。

　　我花了很多天尝试不同的技术，包括对 laparams 和字符串解释和拆分的更改，以获取和使用整个页面处理生成的 LTText 实例。并通过字符串解释和拆分更改获取并使用整个页面处理生成的 LTText 实例。真正有用的东西会用 interpreter.process_cell(page, xmin, ymin, xmax, ymax) xmax, ymax) 替换 interpreter.process_page(page)

　　我相信如果有一些方法使用 PDFMiner 函数和方法来获取收录在单元格边界内的对象，使用保守的 laparameters 来避免混乱的结果，我相信可能存在解决方案。我相信如果有一些方法使用PDFMiner函数和方法来获取单元格边界内收录的对象，使用保守的laparameters来避免混淆结果，我相信可能会有解决方案。理想的方法应该足够快，因为它必须多次应用。在 StackOverflow 中搜索时，我发现从 PDF 页面的某些区域中提取文本？在 StackOverflow 中搜索时，我发现从 PDF 页面的某些区域提取文本？，这是相似的，但没有回答。

　　我还发现从 pdf 中提取区域和按坐标提取 PDF 文本，它们使用了其他库和技术。我还发现从 pdf 中提取区域和按坐标提取 PDF 文本，这使用了其他库和技术。我不想混合不同的库和它们的对象来解决这个问题，因为 PDFMiner 在恢复除表格之外的所有信息方面确实非常有效。 PDFMiner 在恢复除表格之外的所有信息方面确实非常有效。有没有人有建议？有人有建议吗？

0

2021-11-30

网页表格抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页表格抓取(和数据挖掘项目的表格中提取文本和数字数据介绍)

0 个评论

发起人