有没有可以训练新符号的 OCR?
是否有任何免费/开源 OCR 可以用于新符号的训练,并且还可以输出目标图像中找到的符号的坐标?我读到可以训练tesseract OCR,但是OCR后它可以给我坐标吗?有什么例子吗?我需要代码/步骤来使用包含一个 sybmol 的图像来训练 ocr。一张图像中每个待训练的符号大约有 20 个。然后使用经过训练的 OCR 来检测目标图像中的那些符号,如果找到,则也给出坐标。
Is there any free/open source OCR available that can be trained for new symbols and can also output the coordinates of symbol found in the target image? I have read that tesseract OCR can be trained, but can it give me coordinates after OCR? any example? I need the code/steps to train a ocr using an image that contains one sybmol. There are around 20 symbols each in one image to be trained. and then use the trained OCR to detect those sybmols in the target image and if found, then give coordinates too.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以训练 Tesseract 识别新符号。 hocr 格式包含已识别单词的坐标。
https://github.com/tesseract-ocr/tesseract/wiki/Training-正方体
http://vietocr.sourceforge.net/training.html
https://github.com/tesseract-ocr/tesseract/ wiki/命令行用法#hocr-output
You can train Tesseract to recognize new symbols. The hocr format contains the coordinates of the recognized words.
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract
http://vietocr.sourceforge.net/training.html
https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage#hocr-output