tesseract-ocr 只使用 ascii 吗?

发布于 2024-08-29 08:32:31 字数 86 浏览 9 评论 0原文

我一直在使用 tesseract-ocr (在 .NET 中),它运行良好。我提供的图像仅是 ASCII (A-z0-9)。有没有办法告诉它不要使用特殊字符?

I have been using tesseract-ocr (in .NET) which has been working well. The images i feed it are ascii only (A-z0-9). Is there a way i can tell it not to use special characters?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

2024-09-05 08:32:31

详细说明@Victor的答案:
如果您知道只会遇到该语言中可用字符的子集(例如仅数字),则可以使用 tessedit_char_whitelist 配置变量。请参阅

就我而言,我是这样设置的:

client.SetVariable("tessedit_char_whitelist", " !\"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~")

To elaborate on @Victor's answer:
If you know you will only encounter a subset of the characters available in the language, such as only digits, you can use the tessedit_char_whitelist configuration variable. See the FAQ for an example.

In my case, I set it thusly:

client.SetVariable("tessedit_char_whitelist", " !\"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~")
度的依靠╰つ 2024-09-05 08:32:31

Google 上有关于此问题的新帖子上面链接的论坛。第一个答案的结论是这可能是不可能的。

据我所知,如果您使用的是与 Tesseract 一起打包的语言数据文件,这是正确的。不过,如果您在您的自己的盒子文件。它实际上是自动的:如果 unicharset_extractor 在 box 文件中没有找到任何非 ASCII 字符,您将永远不会在输出中看到非 ASCII 字符。

同样,我对所有 interpuncts 和其他 不寻常的字符出现在我的输出中,并且对我自己的盒子文件进行训练解决了这个问题。您甚至可以使用 Tesseract 训练数据作为起点。

There's a new thread about this question over at the Google forum linked above. The first answer concludes that it probably isn't possible.

As far as I know, this is correct, if you're using the language data files that are packaged with Tesseract. You can, however, very easily limit the output characters if you're training on your own box files. It's practically automatic: if unicharset_extractor doesn't find any non-ASCII characters in the box files, you'll never see non-ASCII characters in the output.

I was similarly frustrated by all the interpuncts and other unusual characters in my output when I first started using Tesseract, and training on my own box files solved the problem. You can even use the Tesseract training data as a starting point.

挖个坑埋了你 2024-09-05 08:32:31

使用 tessedit_char_whitelist 配置选项。

use the tessedit_char_whitelist config option.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文