光学字符识别简介

发布于 2024-11-04 00:24:54 字数 221 浏览 2 评论 0原文

有人给了我一大堆令人惊奇的信息。它是 200MB 的 .tiff 公告扫描图像,可以追溯到 40 年代。我想将其数字化,但我对 OCR 一无所知。一些早期材料几乎无法被人类阅读,更不用说机器了。它也是希伯来语。

我正在寻找有关如何解决此问题的建议。关于书籍、文章、代码库或软件的好建议(所有这些都应该可以在网络上免费获得)。我精通 C++ 和 Python,如果需要的话可以选择其他语言。

谢谢。

Someone gave me a trove full of amazing information. It is 200MB .tiff images of scanned announcements that goes back until the 40's. I want to digitize this, but I have no knowledge whatsoever about OCR. Some of the early material is barely readable by a human, let alone a machine. It is also in Hebrew.

I'm looking for advice on how to approach this. A good suggestion about books, articles, code libraries or software (all of them should be available freely on the web). I'm proficient in C++ and Python and can pick up another language if it is needed.

Thank you.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

唐婉 2024-11-11 00:24:54

对于使用 OCR 库的 Python 来说,这听起来是一项伟大的任务。快速 Google 搜索出现了 pytesser

PyTesser 是 Python 的光学字符识别模块。它将图像或图像文件作为输入并输出字符串。

PyTesser 使用 Tesseract OCR 引擎,将图像转换为可接受的格式并调用作为外部脚本的 Tesseract 可执行文件。 Windows 可执行文件随 Python 脚本一起提供。这些脚本也应该可以在其他操作系统中运行。

...

使用示例

<前><代码>>>>从 pytesser 导入 *
>>>>> image = Image.open('fnord.tif') # 使用 PIL 打开图像对象
>>>>> print image_to_string(image) # 在图像上运行 tesseract.exe
福诺德
>>>>>打印 image_file_to_string('fnord.tif')
福诺德

This sounds like a great task for Python, using an OCR library. A quick Google search turned up pytesser:

PyTesser is an Optical Character Recognition module for Python. It takes as input an image or image file and outputs a string.

PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. A Windows executable is provided along with the Python scripts. The scripts should work in other operating systems as well.

...

Usage Example

>>> from pytesser import *
>>> image = Image.open('fnord.tif')  # Open image object using PIL
>>> print image_to_string(image)     # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文