自动采集文章内容(如何提取PDF文件里的内容,这要怎么办?)

优采云 发布时间: 2022-01-08 09:10

  自动采集文章内容(如何提取PDF文件里的内容,这要怎么办?)

  前面的文章""介绍了如何提取PDF文件中的内容,但是提取方法非常简单粗暴,无论内容多少,都被提取出来。

  但是在日常工作中,对于很多pdf文件,我们其实只需要提取部分页面的内容,我们应该怎么做呢?

  下面分两种常见的情况进行讲解,其中有一些隐藏的技巧值得注意。

  - 1 -

  指定单个页面或范围

  首先,如果要提取的页面清晰,比如具体的页面(比如第3页)或者某个页码范围(比如第8-10页),就很简单了,在提取的步骤中PDF 文件的内容 只需简单的设置:

  1、取某一页(例如第3页)

  在“要提取的页数”中选择“单页”,在“单页码”中输入具体的页码:

  2、取一定的页码范围(如8-10页)

  在“Pages to Extract”中选择“Range”,在“Starting Page Number”和“Ending Page Number”中分别输入对应的值:

  - 2 -

  非连续多页

  理论上,如果要提取的页码支持以逗号分隔的形式输入,这个问题就很容易解决,例如输入“2,4”表示提取第2页和第4页。

  但是,不幸的是,Power Automate 的“从 PDF 中提取文本”功能不支持这样的设置:

  在这种情况下,一种方法是预先设置一个列表,然后使用循环控制提取多个页面的内容。但是,我个人认为这种方法不是最好的方法,但是有一个更简单的方法:

  先“将PDF页面提取到新的PDF”,然后从新的pdf文件中提取所有页面——因为“将PDF页面提取到新的PDF”功能直接支持不连续页面的提取:

  - 3 -

  更复杂的情况

  以上是提取多页PDF文件时的两种常见情况。另外,有朋友提出了一种特殊情况:比如对于多个PDF文件,最后几页不是统一要求的。

  比如很多公司的pdf报告中,前面收录数据的页面是不固定的,最后几页是一些例行的备注。这样,我们就需要动态获取之前的数据页数,最重要的是能够获取整个 pdf 报表的页数。

  但是,目前在Power Automate中没有获取pdf文件页数的操作或方法。所以这个问题需要通过Power Automate自动调用第三方工具来实现,比较复杂。推荐给大家!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线