返回介绍

阅读文本(Reading Text)

发布于 2021-06-11 14:05:01 字数 2310 浏览 1478 评论 0 收藏 0

在上一章中,我们已经了解了如何将文本添加到现有PDF文档中。 在本章中,我们将讨论如何从现有PDF文档中读取文本。

从现有PDF文档中提取文本

提取文本是PDF框库的主要功能之一。 您可以使用PDFTextStripper类的getText()方法提取文本。 此类提取给定PDF文档中的所有文本。

以下是从现有PDF文档中提取文本的步骤。

第1步:加载现有PDF文档

使用PDDocument类的静态方法load()加载现有PDF文档。 此方法接受文件对象作为参数,因为这是一个静态方法,您可以使用类名调用它,如下所示。

File file = new File("path of the document") 
PDDocument document = PDDocument.load(file);

第2步:实例化PDFTextStripper类

PDFTextStripper类提供了从PDF文档中检索文本的方法,因此,实例化此类,如下所示。

PDFTextStripper pdfStripper = new PDFTextStripper();

第3步:检索文本

您可以使用PDFTextStripper类的getText()方法从PDF文档中读取/检索页面的内容。 对于此方法,您需要将文档对象作为参数传递。 此方法检索给定文档中的文本,并以String对象的形式返回它。

String text = pdfStripper.getText(document);

第4步:关闭文档

最后,使用PDDocument类的close()方法关闭文档,如下所示。

document.close();

例子 (Example)

假设,我们有一个PDF文档,其中包含一些文本,如下所示。

示例PDF

此示例演示如何从上述PDF文档中读取文本。 在这里,我们将创建一个Java程序并加载名为new.pdf的PDF文档,该文档保存在路径C:/PdfBox_Examples/ 。 将此代码保存在名为ReadingText.java的文件中。

import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class ReadingText {
   public static void main(String args[]) throws IOException {
      //Loading an existing document
      File file = new File("C:/PdfBox_Examples/new.pdf");
      PDDocument document = PDDocument.load(file);
      //Instantiate PDFTextStripper class
      PDFTextStripper pdfStripper = new PDFTextStripper();
      //Retrieving text from PDF document
      String text = pdfStripper.getText(document);
      System.out.println(text);
      //Closing the document
      document.close();
   }
}

使用以下命令从命令提示符编译并执行保存的Java文件。

javac ReadingText.java 
java ReadingText

执行时,上述程序从给定的PDF文档中检索文本并显示如下所示。

This is an example of adding text to a page in the pdf document. we can add as many lines
as we want like this using the ShowText() method of the ContentStream class.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文