Linux 上使用 OCRopus/Tesseract 识别 Fraktur
我正在尝试使用 ocropus 对带有 fraktur 字体的德语文本进行识别,但它似乎没有使用 deu-f 包。
这是我执行的步骤。
- 编译并安装了 tesseract 和 ocropus。
- 已下载 http://tesseract-ocr.googlecode.com /files/tesseract-2.01.deu-f.tar.gz,解压到tessdata/。
但当我打电话时
$ ocroscript recognize --tessLanguage=deu-f --output-mode=text image.png
结果和我打电话时一样
$ ocroscript recognize --tessLanguage=eng --output-mode=text image.png
有什么想法吗?
I am trying to perform recognition of a german text with fraktur typeface with ocropus but It doesn't seem to be using deu-f package.
Here are the steps I performed.
- Compiled and installed tesseract and ocropus.
- Downloaded http://tesseract-ocr.googlecode.com/files/tesseract-2.01.deu-f.tar.gz, unpacked it to tessdata/.
But when I call
$ ocroscript recognize --tessLanguage=deu-f --output-mode=text image.png
the results are the same as when I call
$ ocroscript recognize --tessLanguage=eng --output-mode=text image.png
Any ideas what the problem is?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
http://code.google.com/p 中描述了该问题/ocropus/issues/detail?id=87。只需要将补丁应用到 ocropus 并重建它即可。
The problem is described in http://code.google.com/p/ocropus/issues/detail?id=87. Just need to apply the patch to ocropus and rebuild it.