设计专门用于渲染文本的开源 OCR 引擎（截图）

发布于 2024-10-09 21:28:54 字数 760 浏览 3 评论 0原文

所以我目前的个人项目是能够自动抓取游戏的屏幕截图，对文本进行 OCR，并计算给定单词出现的次数。

在花了整个晚上研究不同的 OCR 解决方案后，我开始意识到大多数 OCR 软件包都是为扫描文本而设计的。如果有任何软件包可以可靠地读取屏幕文本，那么它们远远超出了该爱好者的预算。

我一直在阅读其他一些问题，我发现最接近的是 OCR 引擎设计用于屏幕阅读。

在我看来，阅读渲染文本应该比打印和扫描文本容易得多。线条始终是直的，并且任何给定的字母将始终以完全相同的像素表示形式出现（无论如何，大多数情况下）。另外，为什么不使用实际的字体文件（如果有的话）作为识别字符的备忘单？使用这样的系统，我们实际上可能达到 100% 的准确率。

假设您有备忘单的字体文件，并且源图像是完美的正方形且没有噪音，您将如何识别屏幕上的字符？

（我可以预见的问题是 ui 线条和图像可能会混淆任何粗略的像素猜测尝试。）

如果您已经知道专为屏幕阅读而设计的免费/开源 OCR 软件包，请告诉我。但我有点怀疑这是否会出现，因为似乎也没有其他提问者获得领先。

Python 接口是首选，但乞丐不能挑剔。

编辑：
为了澄清这一点，我正在寻找专门用于从屏幕截图中读取文本的 OCR 解决方案的设计建议。像 tesseract 这样的流行工具（在我链接的问题中提到）最多很难使用，因为它们不是为这种源文件设计的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧故 2024-10-16 21:28:54

所以我一直在考虑这个问题，我觉得最好的方法是计算每个斑点/字形/字符中的像素数。这确实应该减少我需要做的区分字形的测试数量。

遗憾的是，我必须对字体非常具体。该软件只能识别正确 dpi 的字体、正确的字体和粗细等。

这并不理想，我仍然希望看到对这些东西有更多了解的人为渲染文本设计 OCR ;但它适用于我有限的情况。

回复收藏 0 原文

滴情不沾 2024-10-16 21:28:54

如果您的目标是计算游戏中某些事件的发生次数，那么 OCR 确实不是正确的方法。也就是说，如果您决定使用 OCR，那么 tesseract-OCR 是一个不错的选择-用于执行光学字符识别的已知开源包。我不太确定您对扫描文本与渲染文本的了解，但 tesseract 可能会像任何可用的开源包一样出色。 OCR 仍然是一门棘手的艺术，所以我不期望 100% 的准确性。

回复收藏 0 原文