从 pdf 中提取文本的最佳 Perl 模块是什么?

发布于 2024-10-12 09:32:08 字数 27 浏览 2 评论 0原文

从 pdf 中提取文本的最佳方法是什么?

What is the best way to extract text from a pdf?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

暮光沉寂 2024-10-19 09:32:08

CAM::PDF 模块对于提取文本和维护一些相关信息非常有用它在文档中来自哪里。它安装 /usr/local/bin/getpdftext.pl ,演示简单的提取。但是,CAM::PDF 只能读取完全有效的 PDF。

如果您正在处理格式不正确的 PDF,则可能需要更宽松的解析器,例如 pdftotext。它将 foo.pdf 转储到 foo.txt,然后您可以将其读入 Perl。

The CAM::PDF module is pretty useful for extracting text and maintaining some information about where it came from in the document. It installs /usr/local/bin/getpdftext.pl which demonstrates simple extraction. However, CAM::PDF can only read PDFs that are completely valid.

If you are dealing with ill-formed PDFs, you may need a more lenient parser, such as pdftotext. It dumps foo.pdf to foo.txt, which you could then read into Perl.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文