从 pdf 中提取文本的最佳 Perl 模块是什么?
从 pdf 中提取文本的最佳方法是什么?
What is the best way to extract text from a pdf?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
从 pdf 中提取文本的最佳方法是什么?
What is the best way to extract text from a pdf?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(1)
CAM::PDF 模块对于提取文本和维护一些相关信息非常有用它在文档中来自哪里。它安装 /usr/local/bin/getpdftext.pl ,演示简单的提取。但是,CAM::PDF 只能读取完全有效的 PDF。
如果您正在处理格式不正确的 PDF,则可能需要更宽松的解析器,例如 pdftotext。它将 foo.pdf 转储到 foo.txt,然后您可以将其读入 Perl。
The CAM::PDF module is pretty useful for extracting text and maintaining some information about where it came from in the document. It installs /usr/local/bin/getpdftext.pl which demonstrates simple extraction. However, CAM::PDF can only read PDFs that are completely valid.
If you are dealing with ill-formed PDFs, you may need a more lenient parser, such as pdftotext. It dumps foo.pdf to foo.txt, which you could then read into Perl.