当前位置：文江博客话题详情

OCR 库，可以将 OCR 文本插入源 PDF

发布于 2024-10-19 09:18:12 字数 172 浏览 7 评论 0原文

是否有一个库（或可执行文件）可以 OCR PDF（通常是通过扫描纸张创建的 PDF），并将识别的文本重新注入 PDF？可能是扫描图像后面的隐形文本。

最好是开源的。

（目标：我有一个由 Lucene 索引的庞大 PDF 文件库。如果 PDF 包含文本，Lucene 会更容易找到相关的 PDF。）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

你与清晨阳光 2024-10-26 09:18:12

最好的选择之一可能是使用 Abbyy FineReader，因为它会为您提供很多选项，包括创建隐藏文本。 www.abbyy.com 我快速浏览了他们的网站，还发现了他们的 Transformer 产品，该产品可能更适合您的需求。

http://www.abbyy.com.au/pdftransformer/product_features/

回复收藏 0 原文

醉梦枕江山 2024-10-26 09:18:12

如果 PDF 不包含文本，Lucene 会索引什么？

看一下 Docsplit (https://github.com/documentcloud/docsplit)，它可以使用 Tesseract 来执行 OCR。您将获得一个纯文本文件，它反映了 PDF 的内容。然后，您可以在这些文本文件之上构建 Lucene 索引，并将对 PDF 的引用存储在 Lucene 索引中。查询 Lucene 索引后，您将获得包含原始 PDF 引用的文档列表。

回复收藏 0 原文

~没有更多了~