python3 识别教务管理系统验证码方法?
最近想爬取校内的学生教务系统,用python3.6 + requests库,手动输入验证码便成功用post登录进去,手动输入验证码也挺麻烦的。对图像处理,验证码识别这个方面了解不多,请问以下的这种图片用pytesseract库、Pillow 库+Tesseract-OCR 引擎容易自动识别吗?难的话只能手动输入了。
看了一些博客说主要步骤有:将彩色图像转化为灰度图、降噪,图片二值化,最后识别文本等。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
二值化,然后去噪点,切割成单个字符。然后旋转矫正,然后机器学习就可以识别出来了。样本数量足够大,就会更精确
上学时用php写过一个,思路就是去噪点,图片二值化,切分内容,最后把切好的字母和“字典”进行比对,取相似度最高的。 但是上面的实现比较笨,现在机器学习很火,可以用机器学习框架来做。推荐个入门的框架:http://scikit-learn.org
我是教务处长,今天下课来我办公室一趟。
opencv应该没问题,只要大量样本把库训练好了就行了
你说的那些都是库里干的活
用你说的那些库,很容易的额
之前搞过java版本的 用的ocr 解析这种问题不大