tesseract ocr 多页 pdf 挂起
我们正在使用 Tesseract 的 Java 库(称为 Tess4j)将 PDF 文件转换为文本。 它可以很好地处理 Tiff 文件以及一页 PDF 文件。但对于多页 PDF,它确实会生成输出文件,当涉及到最后一页时,控件似乎不会返回到调用 doOCR 调用的原始应用程序。它只是停留/挂在那里而不做任何事情。 是否是本机调用未返回的问题。我不知道,
如果有此问题的解决方案,请尽快告诉我。
问候
维什
We are using Tesseract's Java library, Called Tess4j to convert PDF files to text.
It works nicely with Tiff files as well as one page PDF files. But with multi-page PDF's it does generate the output file, when it comes to the last page, the control doesn't seem to come back to the original application which invoked the doOCR call. It just stays/hangs there without doing anything.
Is it an issue with the native call not returning back.i have no clue,
Please let me know if there is a solution to this issue, as soon as possible.
Regards
Vish
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Tess4J 支持多页 PDF 和多页 TIFF。在单元测试用例中替换为您的 PDF 文件并尝试一下。
Tess4J does support multi-page PDF and multi-page TIFF. Substitute with your PDF file in the unit test case and give it a try.