自动采集文章内容(如何提取PDF文件里的内容，这要怎么办？)

优采云发布时间: 2022-01-08 09:10

　　前面的文章""介绍了如何提取PDF文件中的内容，但是提取方法非常简单粗暴，无论内容多少，都被提取出来。

　　但是在日常工作中，对于很多pdf文件，我们其实只需要提取部分页面的内容，我们应该怎么做呢？

　　下面分两种常见的情况进行讲解，其中有一些隐藏的技巧值得注意。

　　- 1 -

　　指定单个页面或范围

　　首先，如果要提取的页面清晰，比如具体的页面（比如第3页）或者某个页码范围（比如第8-10页），就很简单了，在提取的步骤中PDF 文件的内容只需简单的设置：

　　1、取某一页（例如第3页）

　　在“要提取的页数”中选择“单页”，在“单页码”中输入具体的页码：

　　2、取一定的页码范围（如8-10页）

　　在“Pages to Extract”中选择“Range”，在“Starting Page Number”和“Ending Page Number”中分别输入对应的值：

　　- 2 -

　　非连续多页

　　理论上，如果要提取的页码支持以逗号分隔的形式输入，这个问题就很容易解决，例如输入“2,4”表示提取第2页和第4页。

　　但是，不幸的是，Power Automate 的“从 PDF 中提取文本”功能不支持这样的设置：

　　在这种情况下，一种方法是预先设置一个列表，然后使用循环控制提取多个页面的内容。但是，我个人认为这种方法不是最好的方法，但是有一个更简单的方法：

　　先“将PDF页面提取到新的PDF”，然后从新的pdf文件中提取所有页面——因为“将PDF页面提取到新的PDF”功能直接支持不连续页面的提取：

　　- 3 -

　　更复杂的情况

　　以上是提取多页PDF文件时的两种常见情况。另外，有朋友提出了一种特殊情况：比如对于多个PDF文件，最后几页不是统一要求的。

　　比如很多公司的pdf报告中，前面收录数据的页面是不固定的，最后几页是一些例行的备注。这样，我们就需要动态获取之前的数据页数，最重要的是能够获取整个 pdf 报表的页数。

　　但是，目前在Power Automate中没有获取pdf文件页数的操作或方法。所以这个问题需要通过Power Automate自动调用第三方工具来实现，比较复杂。推荐给大家！

0

2022-01-08

自动采集文章内容

0 个评论

要回复文章请先登录或注册