哪个模块可以有效地一次性解析 .pdf 文件？ CAM::PDF 或 PDF::API2

发布于 2024-11-07 22:29:40 字数 134 浏览 2 评论 0原文

我想从一个巨大的 pdf 文件 [50MB] 中提取所有关键字？哪个模块适合解析大型 pdf 文件？我关心解析大文件和内存的问题。提取几乎所有关键词！这里我想要 SAX 类型的解析 [一次性解析] &不是 DOM 类型的[类似于 XML]。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

始于初秋 2024-11-14 22:29:40

要从 PDF 中读取文本，我们使用 CAM::PDF ，效果很好。对于一些较大的文件来说，它的速度不是很快，但是处理大文件的能力还不错。我们当然有一些大约 100Mb 的数据，并且处理得很好。如果我记得的话，我们在 32 位 (Windows) Perl 上处理一些 130Mb 的数据时遇到了困难，但当时内存中还有很多其他数据。我们确实研究了 PDF::API2，但它似乎更倾向于生成 PDF 并从中读取。我们没有将大文件放入 PDF::API2，因此我无法给出真正的基准数据。

我们发现使用 CAM::PDF 的唯一显着缺点是 PDF 1.6 变得越来越普遍，而这在 CAM::PDF 中根本不起作用。这对您来说可能不是问题，但可能值得考虑。

在回答你的问题时，我很确定两个模块都以一种或另一种形式将整个源 PDF 读入内存，但我不认为 CAM::PDF 构建了那么多更复杂的结构它的。所以两者都不是真正的 SAX，但 CAM::PDF 似乎总体上更轻，并且一次可以检索一页，因此可能会减少提取非常大的文本的负载。