java从网页抓取数据(怎样从PDF中提取内容，了解一下)

优采云发布时间: 2021-12-15 07:53

　　指南：了解如何从 PDF 中提取内容。

　　如果有办法自动验证PDF的内容，程序员的生活该有多轻松！

　　不知道大家有没有听说过Java提供了一个可以提取PDDF内容的工具。本文将向您介绍这个工具，它的名字是 Apache PDFBox。

　　什么是PDFBox

　　Apache PDFBox 库是一个用于处理 PDF 文档的开源 Java 工具。它可以帮助我们：

　　1）新建一个PDF文档；

　　2）更新现有文档；

　　比如添加样式、添加超链接等；

　　3）建议来自 PDF 文档的内容。

　　从 PDF 读取内容

　　当我们能够从 PDF 中提取文本内容时，问题就解决了一半。让我们以一个代码示例来完成此任务。

　　Apche PDFTextStripper 的类 PDFTextStripper() 可以以去除所有格式的形式提取PDF中的文本。它将忽略所有格式和特殊样式。

　　tStripper = new PDFTextStripper();tStripper.setStartPage(1);tStripper.setEndPage(3);<br />PDDOocument document = PDDocument.load(new File("youpdfname.pdf"));<br />document.getClass(); if(!document.isEncrypted()){ pdfFileInText = tStripper.getText(document); lines = pdfFileIntext.split("\\r\\n\\r\\n"); for(String line : llines){ System.out.printlln(line); content += line; } }System.out.println(content.trim());

　　从 PDF 文件中获取所有超链接

　　第二件事是验证PDF中的超链接。以下代码为您提供了 PDF 文档中的超链接。

　　PDPage class() 中的 getAnnotations() 方法提供文档中的注释列表。接下来，使用 PDActionURI() 获取文档或页面中的 URI 列表

<p>PDDocument document = PDDocument.load(new File("name.pdf"));document.getClass();PDPage pdfpage = document.getPage(1); annotations = pdfpage.getAnnotations(); for (int j = 0; j

0

2021-12-15

java从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java从网页抓取数据(怎样从PDF中提取内容，了解一下)

0 个评论

发起人

AI时代内容工厂

java从网页抓取数据(怎样从PDF中提取内容，了解一下)

0 个评论

发起人

相关问题