光学字符识别简介
有人给了我一大堆令人惊奇的信息。它是 200MB 的 .tiff 公告扫描图像,可以追溯到 40 年代。我想将其数字化,但我对 OCR 一无所知。一些早期材料几乎无法被人类阅读,更不用说机器了。它也是希伯来语。
我正在寻找有关如何解决此问题的建议。关于书籍、文章、代码库或软件的好建议(所有这些都应该可以在网络上免费获得)。我精通 C++ 和 Python,如果需要的话可以选择其他语言。
谢谢。
Someone gave me a trove full of amazing information. It is 200MB .tiff images of scanned announcements that goes back until the 40's. I want to digitize this, but I have no knowledge whatsoever about OCR. Some of the early material is barely readable by a human, let alone a machine. It is also in Hebrew.
I'm looking for advice on how to approach this. A good suggestion about books, articles, code libraries or software (all of them should be available freely on the web). I'm proficient in C++ and Python and can pick up another language if it is needed.
Thank you.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
对于使用 OCR 库的 Python 来说,这听起来是一项伟大的任务。快速 Google 搜索出现了 pytesser:
This sounds like a great task for Python, using an OCR library. A quick Google search turned up pytesser: