java从网页抓取数据(怎样从PDF中提取内容,了解一下)

优采云 发布时间: 2021-12-15 07:53

  java从网页抓取数据(怎样从PDF中提取内容,了解一下)

  指南:了解如何从 PDF 中提取内容。

  

  如果有办法自动验证PDF的内容,程序员的生活该有多轻松!

  不知道大家有没有听说过Java提供了一个可以提取PDDF内容的工具。本文将向您介绍这个工具,它的名字是 Apache PDFBox。

  什么是PDFBox

  Apache PDFBox 库是一个用于处理 PDF 文档的开源 Java 工具。它可以帮助我们:

  1)新建一个PDF文档;

  2)更新现有文档;

  比如添加样式、添加超链接等;

  3)建议来自 PDF 文档的内容。

  从 PDF 读取内容

  当我们能够从 PDF 中提取文本内容时,问题就解决了一半。让我们以一个代码示例来完成此任务。

  Apche PDFTextStripper 的类 PDFTextStripper() 可以以去除所有格式的形式提取PDF中的文本。它将忽略所有格式和特殊样式。

  tStripper = new PDFTextStripper();tStripper.setStartPage(1);tStripper.setEndPage(3);<br />PDDOocument document = PDDocument.load(new File("youpdfname.pdf"));<br />document.getClass();  if(!document.isEncrypted()){    pdfFileInText = tStripper.getText(document);    lines = pdfFileIntext.split("\\r\\n\\r\\n");    for(String line : llines){      System.out.printlln(line);      content += line;    }  }System.out.println(content.trim());

  从 PDF 文件中获取所有超链接

  第二件事是验证PDF中的超链接。以下代码为您提供了 PDF 文档中的超链接。

  PDPage class() 中的 getAnnotations() 方法提供文档中的注释列表。接下来,使用 PDActionURI() 获取文档或页面中的 URI 列表

<p>PDDocument document = PDDocument.load(new File("name.pdf"));document.getClass();PDPage pdfpage = document.getPage(1);            annotations = pdfpage.getAnnotations();            for (int j = 0; j 

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线