当前位置：文江博客话题详情

开源 OCR

发布于 2024-10-19 16:53:03 字数 1539 浏览 3 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

泪之魂 2024-10-26 16:53:03

Tesseract是一个非常好的OCR引擎：https://github.com/tesseract-ocr/tesseract

该项目已由 HP 实验室发起，现在由 Google 继续并赞助（针对 Google 图书！）。它是在 Apache 许可证下发布的，并且在 Linux 上运行。它使用 Tiff 或 PNG 文件；对于 PDF，您需要转换为其中一种格式。我想没有绑定，所以你应该调用这个软件作为子程序......

回复收藏 0 原文

鯉魚旗 2024-10-26 16:53:03

Cuneiform 是免费的并且做得不错。您可以将其作为子程序调用，但据我所知没有语言绑定。它不会直接读取 PDF，但您可以轻松地分解作为扫描图像序列的 PDF，并将其输入楔形文字。还有一些脚本可以将图像和文本重新组合成可搜索的 PDF。

回复收藏 0 原文

桜花祭 2024-10-26 16:53:03

尝试 tesjeract，它使用 JNI 调用 Tesseract OCR API。

对于 PDF，您需要首先使用 GhostScript 将它们转换为图像。

回复收藏 0 原文

~没有更多了~

关于作者

贱贱哒

暂无简介

0 文章

0 评论

521 人气

关注发私信

友情链接

文江博客

开源 OCR

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

开源 OCR

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。