当前位置：文江博客话题详情

是否可以使用 Apache Tika 按页提取 word/pdf 文件中的文本？

发布于 2024-11-04 06:54:27 字数 73 浏览 6 评论 0原文

我能找到的所有文档似乎都表明我只能提取整个文件的内容。但我需要单独提取页面。我需要为此编写自己的解析器吗？我是否缺少一些明显的方法？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

内心荒芜 2024-11-11 06:54:27

实际上，Tika 确实通过在页面开始之前发送元素

和

来处理页面（至少在 pdf 中）页面结束后。您可以使用它轻松地在处理程序中设置页数（仅使用

来计算页数）：

public abstract class MyContentHandler implements ContentHandler {
    private String pageTag = "p";
    protected int pageNumber = 0;
    ...
    @Override
    public void startElement (String uri, String localName, String qName, Attributes atts) throws SAXException  {  

        if (pageTag.equals(qName)) {
            startPage();
        }
    }

    @Override
    public void endElement (String uri, String localName, String qName) throws SAXException {  

        if (pageTag.equals(qName)) {
            endPage();
        }
    }

    protected void startPage() throws SAXException {
    pageNumber++;
    }

    protected void endPage() throws SAXException {
    return;
    }
    ...
}

当使用 pdf 执行此操作时，当解析器不发送文本行时，您可能会遇到问题正确的顺序 - 请参阅使用 Apache 从 PDF 文件中提取文本Tika 0.9（以及底层的 PDFBox）介绍了如何处理这个问题。

Actually Tika does handle pages (at least in pdf) by sending elements <div><p> before page starts and </p></div> after page ends. You can easily setup page count in your handler using this (just counting pages using only <p>):

public abstract class MyContentHandler implements ContentHandler {
    private String pageTag = "p";
    protected int pageNumber = 0;
    ...
    @Override
    public void startElement (String uri, String localName, String qName, Attributes atts) throws SAXException  {  

        if (pageTag.equals(qName)) {
            startPage();
        }
    }

    @Override
    public void endElement (String uri, String localName, String qName) throws SAXException {  

        if (pageTag.equals(qName)) {
            endPage();
        }
    }

    protected void startPage() throws SAXException {
    pageNumber++;
    }

    protected void endPage() throws SAXException {
    return;
    }
    ...
}

When doing this with pdf you may run into the problem when parser doesn't send text lines in proper order - see Extracting text from PDF files with Apache Tika 0.9 (and PDFBox under the hood) on how to handle this.

回复收藏 0 原文

谈场末日恋爱 2024-11-11 06:54:27

您需要使用底层库 - Tika 在页面级别不执行任何操作。

对于 PDF 文件，PDFBox 应该能够为您提供一些页面内容。对于 Word，Apache POI 中的 HWPF 和 XWPF 并不真正执行页面级别的操作 - 分页符不存储在文件中，而是需要根据文本 + 字体 + 页面大小动态计算...

回复收藏 0 原文

桃扇骨 2024-11-11 06:54:27

您可以使用元数据获取 Pdf 中的页数对象的 xmpTPg:NPages 键如下所示：

Parser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
ParseContext parseContext = new ParseContext();
parser.parse(fis, handler, metadata, parseContext);
metadata.get("xmpTPg:NPages");

You can get the number of pages in a Pdf using the metadata object's xmpTPg:NPages key as in the following:

Parser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
ParseContext parseContext = new ParseContext();
parser.parse(fis, handler, metadata, parseContext);
metadata.get("xmpTPg:NPages");

回复收藏 0 原文

~没有更多了~