tesseract-ocr的问题。我装好后下了个英文文章,可以识别出来,但是我自己做了一个主是四个数字的验证码却输出是空
费了好大的劲 装好了tesseract-ocr 真的好坑这个东西
python层面的包 我也装好好几个 tesserorc , pytesser, pytsseract
网上资料极其乱,我到现在都 不明白 在PYTHON层面上 上面这三个包有啥区别。
然后以为可以了,自己做了一个最简单的验证码,就是白底黑字四个数字,居然输得出empty page 崩溃了
折腾了好久。都不明白为啥 难道这么简单的都 识别不了?
然后我弄了个纯英文的文章,满长的,在那跑了好久 居然全给识别出来了。我晕了
难道tesseract-ocr的 tessdata里面没有数字识别?
大佬们这要咋办,这种情况该怎么处理了 有点蒙了
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
命令tesseract imagename outputbase digits只识别数字,不过如果是验证码的数字估计识别出来是空,因为有噪声和倾斜,需要先使用jTessBoxEditor工具训练