当前位置：文江博客话题详情

Tesseract OCR - 手写字体

发布于 2024-12-24 16:03:29 字数 345 浏览 9 评论 0原文

我正在尝试使用 Tesseract-OCR 来检测纯图像的文本其中有文本，但这些文本具有名为 Journal 的手写字体。

示例：

在此处输入图像描述

结果不是最好的：

千里马！尺寸`宽（35）

是否有可能改进结果或更确切地说获得准确的结果？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谈情不如逗狗 2024-12-31 16:03:29

我很惊讶 Tesseract 做得这么好。通过一些训练，您应该能够训练小写“l”被正确识别。

您遇到的主要问题是大 T 字符的顶部。水平线延伸穿过 2 个（可能是 3 个）其他字符单元，这会导致任何 OCR 引擎在尝试分割字符进行识别时出现问题。在这种情况下，培训可能会有所帮助。

下一个问题是 .和：它们非常轻/薄，可能会在 OCR 开始之前通过图像预处理来去除。

总的来说，改善 Tesseract 效果的唯一机会是研究训练。以下是一些可能有帮助的链接。

Tesseract OCR 培训的替代方案？
Tesseract OCR 库学习字体
 Tesseract 混淆两个数字

回复收藏 0 原文

南七夏 2024-12-31 16:03:29

正如 Andrew Cash 提到的那样，对 T 字母执行 OCR 非常困难，因为它与许多后续字符相交。

为了提高结果，您可能需要尝试更准确的 SDK。看看ABBYY Cloud OCR SDK，它是ABBYY最近推出的基于云的OCR SDK。它处于测试阶段，因此目前完全免费使用。我在 ABBYY 工作，如有必要，可以为您提供有关我们产品的更多信息。我已将您附加的图片发送到我们的 SDK 并收到以下回复：

Maximal size: lall (35)

Like Andrew Cash mentioned, it'll be very hard to perform OCR for that T letter because of its intersection with a number of next characters.

For results improvement you may want to try a more accurate SDK. Have a look at ABBYY Cloud OCR SDK, it's a cloud-based OCR SDK recently launched by ABBYY. It's in beta, so for now it's totally free to use. I work @ ABBYY and can provide you additional info on our products if necessary. I've sent the image you've attached to our SDK and got this response: