将图像转换为可搜索的 pdf

发布于 2025-01-01 03:21:06 字数 243 浏览 4 评论 0原文

您好,我正在寻找一个开源 java API,可以将 tiff 图像转换为可搜索的 pdf (OCR)。我进行了研究,但到目前为止什么也没发现。

注意 我看过这篇文章,但这个 API 没有将图像转换为 pdf Java OCR 实现。然而,我仍然在玩弄代码。

Hi I am looking for a open-source java API that can convert tiff image to searchable pdf (OCR). I have research around but found nothing so far.

NOTE
I have looked at this post but this API does not convert the image to pdf
Java OCR implementation. However, I am still playing with the code a bit.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

香草可樂 2025-01-08 03:21:06

您可以使用 iText 将图像转换为 PDF。这里最困难的是进行 OCR,而不是创建 PDF。

我要警告您:任何值得使用的 OCR 引擎都会花费您大量的金钱。免费和/或开源项目通常是宠物项目,是某种算法或另一种算法的概念证明。不适合现实世界的 OCR 应用。 Tesseract 可能是其中最好的,但即便如此,它的精度也比商业引擎差得多。

我们有一个商业 OCR 应用程序,我在评估引擎时一直沿着这条路走 - 我建议您硬着头皮联系引擎提供商并获取报价:Abbyy(最准确,最昂贵,速度较慢), Expervision(快,不太准确,中间价格),Nuance(中间速度、准确性和价格)。这些都不会用 Java 编写,因此您应该计划一些时间围绕其 API 开发 JNI 代码。

祝你好运 - 这是一个大项目!

You can convert images to PDF using iText. The hard thing here is doing the OCR, not creating the PDF.

I will warn you: any OCR engine that is worth using is going to cost you a significant amount of money. Free and/or open source ones are generally pet projects, proof of concept for some algorithm or another. Not suitable for real world OCR applications. Tesseract is probably the best of the bunch, but even that has accuracies that are far, far worse than commercial engines.

We have a commercial OCR application, and I've been down this path while evaluating engines - I'd suggest that you bite the bullet and reach out to the engine providers and get quotes: Abbyy (best accuracy, most expensive, slower), Expervision (fast, not as accurate, middle of the road price), Nuance (middle of the road speed, accuracy and price). None of these will be written in Java, so you should plan some time to develop JNI code around their APIs.

Good luck - it's a big project!

笑梦风尘 2025-01-08 03:21:06

Cuneiform 是免费且易于使用的,它将以 hocr 格式输出,然后可以使用 hocr2pdf 工具(ExactImage 的一部分)在 PDF 上生成不可见的文本图层。

Cuneiform is free and easy to use, it will output in hocr format, which can then be used to generate an invisible text layer on a PDF using hocr2pdf tool, which is part of ExactImage.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文