当前位置：文江博客话题详情

训练 Tesseract 3 识别燃气表真实图像中的数字

发布于 2024-11-24 11:56:16 字数 208 浏览 1 评论 0原文

我正在尝试训练超正方体来识别燃气表真实图像中的数字。

我用于训练的图像是用相机制作的，因此存在很多问题：图像分辨率差、图像模糊、光线差或由于过度曝光、反射、阴影等而导致对比度低......

用于训练，我创建了一个大图像，其中包含燃气表图像捕获的一系列数字，并手动编辑文件框以创建 .tr 文件。结果是，只有更清晰和锐利图像的数字被识别，而模糊图像的数字未被超立方体捕获。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

倾其所爱 2024-12-01 11:56:16

据我所知，您需要 OpenCV 来识别数字所在的框，但 OpenCV 并不是 OCR 之神。找到盒子后，只需裁剪该部分，进行图像处理，然后将其交给 tesseract 进行 OCR。

我需要 OpenCV 方面的帮助，因为我不知道如何在 OpenCV 中编程。

以下是一些现实世界的例子。

第一张图像是原始图像（裁剪后的功率计数字）
第二张图像是 GIMP 中稍微清理过的图像，在 tesseract 中 OCR 准确度约为 50%
第三张图像是完全清理过的图像 - 无需任何训练即可识别 100% OCR！

第一张图片
第二张图片
第三张图片

回复收藏 0 原文

你怎么这么可爱啊 2024-12-01 11:56:16

我会首先尝试这个简单的 ImageMagick 命令：（

 convert          \
    original.jpg  \
   -threshold 50% \
    result.jpg

稍微使用 50% 参数 - 尝试使用更小和更高的值...）

阈值基本上只留下 2 个值，零或最大值，用于每个颜色通道。低于阈值的值设置为 0，高于阈值的值设置为 255（如果工作在 16 位深度，则为 65535）。

根据您的原始 .jpg，您可能会得到一个支持 OCR 的、有效的、对比度非常高的图像。

I would try this simple ImageMagick command first:

 convert          \
    original.jpg  \
   -threshold 50% \
    result.jpg

(Play a bit with the 50% parameter -- try with smaller and higher values...)

Thresholding basically leaves over only 2 values, zero or maximum, for each color channel. Values below the threshold get set to 0, values above it get set to 255 (or 65535 if working at 16-bit depth).

Depending on your original.jpg, you may have a OCR-able, working, very high contrast image as a result.

回复收藏 0 原文

只想待在家 2024-12-01 11:56:16

我建议你：

使用一个工具来编辑框，比如 jTessBoxEditor，它非常有帮助，让你赢得了一次。您可以从此处轻松安装它，
最好训练实际情况的字母（嘈杂、模糊）。您的训练集仍然有限，您可以添加更多训练样本。
我建议您使用 Tesseract 的 API 本身来增强图像（去噪、标准化、锐化...）
例如： Boxa * tesseract::TessBaseAPI::GetConnectedComponents(Pixa** pixa) （它允许您到达每个字符的边界框）
Pix* pimg = tess_api->GetThresholdedImage();

此处您可以找到一些示例