当前位置：文江博客话题详情

Tesseract OCR：如何找到每个返回字符的读取错误幅度？

发布于 2024-11-29 10:31:45 字数 426 浏览 2 评论 0原文

我在 iPhone 应用程序中使用 Tesseract OCR 引擎从账单发票照片中读取特定的数字字段。使用大量的照片预处理（自适应阈值处理、伪影清理等），结果最终相当准确，但仍有一些情况我想改进。

如果用户在弱光条件下拍照，并且图片中存在一些噪点或伪影，OCR 引擎会将这些伪影解释为附加数字。在某些后部情况下，它可以将数字金额“32,15”欧元读取为“5432,15”欧元，这对于最终用户对产品的信心来说根本没有好处。

我假设，如果存在与每个读取的字符相关的内部 OCR 引擎读取错误，则我之前示例中的“54”位数字会更高，因为它们是通过小噪声像素识别的，并且如果我有权访问通过这个读取错误值，我将能够轻松地丢弃错误的数字。

您知道有什么方法可以获取从 tesseract OCR 引擎返回的每个单独字符的读取误差大小（或任何“准确度因子”值）吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦旅人picnic 2024-12-06 10:31:45

在 Tesseract 术语中，它被称为“置信度”值。在tesseract-ocr Group中搜索该术语会发现许多提到 TesserracExtractResult 的答案方法。

hOCR 输出也包含此值。

回复收藏 0 原文

~没有更多了~

关于作者

許願樹丅啲祈禱

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

Tesseract OCR：如何找到每个返回字符的读取错误幅度？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

Tesseract OCR：如何找到每个返回字符的读取错误幅度？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。