当前位置：文江博客话题详情

从 pdf 中提取文本的最佳 Perl 模块是什么？

发布于 2024-10-12 09:32:08 字数 27 浏览 2 评论 0原文

从 pdf 中提取文本的最佳方法是什么？

需要登录才能够评论，你可以免费注册一个本站的账号。

暮光沉寂 2024-10-19 09:32:08

CAM::PDF 模块对于提取文本和维护一些相关信息非常有用它在文档中来自哪里。它安装 /usr/local/bin/getpdftext.pl ，演示简单的提取。但是，CAM::PDF 只能读取完全有效的 PDF。

如果您正在处理格式不正确的 PDF，则可能需要更宽松的解析器，例如 pdftotext。它将 foo.pdf 转储到 foo.txt，然后您可以将其读入 Perl。

~没有更多了~

暂无简介

0 文章

0 评论

24 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0