改进 OCR/图像识别的预处理

发布于 2024-11-27 06:39:57 字数 799 浏览 1 评论 0原文

目前我对图像处理和光学字符识别非常感兴趣。经过一些基本的认识和一些过滤后，我决定开始一些更困难的事情。

我正在尝试读取这些验证码的值： http://img851.imageshack.us/img851/9579/57859946.png

我编写了一些用于预处理的过滤器：

替换颜色（变为白色）删除蓝线删除穿过文本的线条（两个）
阈值图像（255）

输出这样的图像； http://img232.imageshack.us/img232/2325/00i3q45j1zt.png

正如您所看到的，某些字母上有洞。我一开始想也许最好把线条留在字母上，但这让情况变得更糟。我正在使用 tesseract OCR 引擎我使用 Elephant 字体（验证码使用的字体）对其进行训练。我也尝试过使用其他 OCR 引擎（如 GOCR），但这会让一切变得更糟。有了 tesseract，我现在的识别率达到了 20%。我正在使用 C# (.NET 4.0) 进行编码。

验证码由名为 PHPCaptcha 的软件包生成。

现在我的问题是：是否有任何算法或标记来填补字母中的漏洞？还有其他方法可以得到更好的认可吗？

我很高兴收到你们的

来信

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鸵鸟症 2024-12-04 06:39:57

第 0 部分 - 前言

i) 在此之前，您可能需要阅读我的 OCR 相关答案这里，这可能会给你一些使用正方体的技巧

ii) 我假设你可以将所有内容变成黑白（在您的情况下，彩色处理不会给您带来优势）

第 1 部分 - 预处理

在删除蓝线后填补“漏洞”。您始终可以膨胀或执行“先膨胀然后腐蚀”操作。在这里，膨胀意味着在 8 个方向上放大每个像素（使像素更大）。扩大像素后，看看是否可以识别它们，或者看看字符是否“过度填充”（扩大太多）。如果无法识别字符或字符膨胀太多，则可以应用腐蚀操作。当然有先进的合成算法，但我认为你最好先从更简单的图像处理操作开始。

第 2 部分 - OCR/Tesseract

使用 Tesseract，如果您将整个图像输入 Tesseract，它会执行线条分析等等。由于验证码中的字符的行为与普通文本不同，因此进行行分析或在组中识别它们可能会在一定程度上降低识别率。所以我的建议是先逐字识别。