当前位置：文江博客话题详情

将图像转换为可搜索的 pdf

发布于 2025-01-01 03:21:06 字数 243 浏览 4 评论 0原文

您好，我正在寻找一个开源 java API，可以将 tiff 图像转换为可搜索的 pdf (OCR)。我进行了研究，但到目前为止什么也没发现。

注意我看过这篇文章，但这个 API 没有将图像转换为 pdf Java OCR 实现。然而，我仍然在玩弄代码。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

香草可樂 2025-01-08 03:21:06

您可以使用 iText 将图像转换为 PDF。这里最困难的是进行 OCR，而不是创建 PDF。

我要警告您：任何值得使用的 OCR 引擎都会花费您大量的金钱。免费和/或开源项目通常是宠物项目，是某种算法或另一种算法的概念证明。不适合现实世界的 OCR 应用。 Tesseract 可能是其中最好的，但即便如此，它的精度也比商业引擎差得多。

我们有一个商业 OCR 应用程序，我在评估引擎时一直沿着这条路走 - 我建议您硬着头皮联系引擎提供商并获取报价：Abbyy（最准确，最昂贵，速度较慢）， Expervision（快，不太准确，中间价格），Nuance（中间速度、准确性和价格）。这些都不会用 Java 编写，因此您应该计划一些时间围绕其 API 开发 JNI 代码。

祝你好运 - 这是一个大项目！

回复收藏 0 原文