tesseract ocr 多页 pdf 挂起

发布于 2024-11-19 20:06:22 字数 229 浏览 3 评论 0原文

我们正在使用 Tesseract 的 Java 库(称为 Tess4j)将 PDF 文件转换为文本。 它可以很好地处理 Tiff 文件以及一页 PDF 文件。但对于多页 PDF,它确实会生成输出文件,当涉及到最后一页时,控件似乎不会返回到调用 doOCR 调用的原始应用程序。它只是停留/挂在那里而不做任何事情。 是否是本机调用未返回的问题。我不知道,

如果有此问题的解决方案,请尽快告诉我。

问候
维什

We are using Tesseract's Java library, Called Tess4j to convert PDF files to text.
It works nicely with Tiff files as well as one page PDF files. But with multi-page PDF's it does generate the output file, when it comes to the last page, the control doesn't seem to come back to the original application which invoked the doOCR call. It just stays/hangs there without doing anything.
Is it an issue with the native call not returning back.i have no clue,

Please let me know if there is a solution to this issue, as soon as possible.

Regards
Vish

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

蓝眸 2024-11-26 20:06:22

Tess4J 支持多页 PDF 和多页 TIFF。在单元测试用例中替换为您的 PDF 文件并尝试一下。

Tess4J does support multi-page PDF and multi-page TIFF. Substitute with your PDF file in the unit test case and give it a try.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文