java从网页抓取数据(怎样从PDF中提取内容,了解一下)
优采云 发布时间: 2021-12-15 07:53java从网页抓取数据(怎样从PDF中提取内容,了解一下)
指南:了解如何从 PDF 中提取内容。
如果有办法自动验证PDF的内容,程序员的生活该有多轻松!
不知道大家有没有听说过Java提供了一个可以提取PDDF内容的工具。本文将向您介绍这个工具,它的名字是 Apache PDFBox。
什么是PDFBox
Apache PDFBox 库是一个用于处理 PDF 文档的开源 Java 工具。它可以帮助我们:
1)新建一个PDF文档;
2)更新现有文档;
比如添加样式、添加超链接等;
3)建议来自 PDF 文档的内容。
从 PDF 读取内容
当我们能够从 PDF 中提取文本内容时,问题就解决了一半。让我们以一个代码示例来完成此任务。
Apche PDFTextStripper 的类 PDFTextStripper() 可以以去除所有格式的形式提取PDF中的文本。它将忽略所有格式和特殊样式。
tStripper = new PDFTextStripper();tStripper.setStartPage(1);tStripper.setEndPage(3);<br />PDDOocument document = PDDocument.load(new File("youpdfname.pdf"));<br />document.getClass(); if(!document.isEncrypted()){ pdfFileInText = tStripper.getText(document); lines = pdfFileIntext.split("\\r\\n\\r\\n"); for(String line : llines){ System.out.printlln(line); content += line; } }System.out.println(content.trim());
从 PDF 文件中获取所有超链接
第二件事是验证PDF中的超链接。以下代码为您提供了 PDF 文档中的超链接。
PDPage class() 中的 getAnnotations() 方法提供文档中的注释列表。接下来,使用 PDActionURI() 获取文档或页面中的 URI 列表
<p>PDDocument document = PDDocument.load(new File("name.pdf"));document.getClass();PDPage pdfpage = document.getPage(1); annotations = pdfpage.getAnnotations(); for (int j = 0; j