返回介绍

第 18 章 OCR

发布于 2024-02-10 15:26:30 字数 3057 浏览 0 评论 0 收藏 0

第 18 章 OCR

目录

18.1. EasyOCR
18.1.1. 安装 EasyOCR
18.1.2. 操作演示
18.1.3. 命令行运行
18.1.4. 函数
18.1.5. urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)>
18.2. Tesseract
18.2.1. 安装 Tesseract
18.2.2. 演示 Tesseract
18.2.3.

OCR(Optical Character Recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

OCR 的应用场景:

  • 扫描件的文字识别:纸质扫描件,PDF文件,纸书籍转电子书
  • 卡证文字识别:名片,身份证,银行卡
  • 车牌设别:多用在停车场和交警执法
  • 票据识别:报销凭证,税务票据,医疗票据
  • 教育领域:公式识别,自动判卷,自动答题

OCR 原理

扫描/拍照 > 图像输入 > 二值化 > 去噪声 > 倾斜校正 > 版面分析 > 字符切割 > 字符识别 > 版面恢复 > 文字校对	

扫描或拍照:使用扫描仪将纸质资料扫描成图像文件,手机拍照也能达到同样效果,然后将图像文件交给OCR软件进行处理。

首先把彩色图像编程黑白图像(黑色文字,白色背景),识别系统不关心颜色。

通过算法去除图像中的影响因素,噪点,污染,这部叫去噪声,类似Ps中的色阶,降噪,模糊一类的操作,让图像中的文字更突出。

然后矫正倾斜的图像,分析文本段落,切割字符,识别字符。

将识别的字符,重新排版,生成 Text 文本文件。

较为高级OCR系统,带有AI语法分析,能够实现拼写检查,语法校对等等。

18.1. EasyOCR

https://www.jaided.ai

18.1.1. 安装 EasyOCR

pip install easyocr		

EasyOCR 源码

https://github.com/JaidedAI/EasyOCR

安装最新版

pip install git+git://github.com/jaidedai/easyocr.git		

18.1.2. 操作演示

import easyocr

reader = easyocr.Reader(['ch_sim','en']) 
result = reader.readtext('test.jpg')

print(result)

for text in result:
    word = text[1]
    print(word)	

18.1.3. 命令行运行

$ easyocr -l ch_sim en -f chinese.jpg --detail=1 --gpu=True		

18.1.4. 函数

18.1.4.1. Reader()

禁用 GPU

reader = easyocr.Reader(['ch_sim','en'], gpu = False)			

18.1.4.2. readtext() 函数

进输出识别结果

reader.readtext('chinese.jpg', detail = 0)

输出结果

['愚园路', '西', '东', '315', '309', 'Yuyuan Rd.', 'W', 'E']

18.1.5. urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)>

解决方法,加入下面代码

import ssl
ssl._create_default_https_context = ssl._create_unverified_context		

或运行

pip install --upgrade certifi		

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文