Python Tesseract 无法识别这种字体

发布于 2024-08-11 11:33:31 字数 385 浏览 5 评论 0原文

我有这个图像：

alt text

我想使用 python 将其读取为字符串，我没想到会那么难。我发现了 tesseract，然后是使用 tesseract 的 python 脚本的包装器。

所以我开始阅读图像，效果很好，直到我尝试阅读这张图像。我是否需要训练它来读取特定的字体？关于特定字体是什么有什么想法吗？或者有没有更好的 ocr 引擎我可以与 python 一起使用来完成这项工作。

编辑：也许我可以围绕数字制作某种矢量，然后以更大的尺寸重新绘制它们？图像越大，tesseract ocr 似乎读取它们的效果越好（毫不奇怪，哈哈）。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

疯狂的代价 2024-08-18 11:33:31

只需针对 10 位数字和“.”训练引擎即可。应该可以做到这一点。并确保在 OCR 之前将图像更改为灰度。

回复收藏 0 原文

不知所踪 2024-08-18 11:33:31

训练是艰苦的，并不是这里真正需要的。无论脚本如何，O 和 0 以及 l 和 1 之间的区别都将很困难。如果上下文允许，将 OCR 限制为仅在数字之间进行选择可以大大简化问题。

我对超正方体的兴趣在于处理旧政府报告中的大量数字。在本例和所讨论的情况下，字符集将类似于“0123456789”。根据 eric_taj 在 2007 年 3 月 21 日在 tesseract 的旧 (sourceforge) 新闻组中发表的评论，您可以修改classify/intproto.cpp 中的 Templates->IndexFor 和 Templates->ClassIdFor 以屏蔽掉不适合的字符。被允许。我对该方法进行了一些修改，以便在运行时在环境变量中读取允许的字符集，以便我可以动态调整允许的字符集。

回复收藏 0 原文