当前位置：文江博客话题详情

OCR纠错算法

发布于 2024-10-31 19:47:03 字数 423 浏览 7 评论 0原文

我正在对大量扫描文档进行数字化，使用 Tesseract 3 作为我的 OCR 引擎。其输出质量平庸，因为它经常在实际文本之前和之后产生垃圾字符，以及文本中的拼写错误。

对于前一个问题，似乎必须有一些策略来确定哪些文本实际上是文本，哪些文本不是（这些文本大部分是人名之类的东西，所以我正在寻找除在文本中查找单词之外的解决方案）字典）。

对于拼写错误问题，大多数错误源于一些字母的错误分类（将 l、1 和 I 相互替换，例如例如），似乎应该有一些方法来猜测哪些单词拼写错误（因为英语中没有太多单词中间有“1”），并猜测适当的更正是什么。

这个领域的最佳实践是什么？是否有免费/开源的算法实现可以完成此类事情？谷歌已经发表了大量论文，但具体的内容并不多。如果没有可用的实现，那么众多论文中哪一篇是一个好的起点？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夜雨飘雪 2024-11-07 19:47:03

对于“确定哪些文本实际上是文本，哪些文本不是”，您可能需要查看开发 Tesseract 的同一部门（ISRI）的 rmgarbage。我编写了一个 Perl 实现，还有一个 Ruby 实现。对于 1 vs. l 问题，我正在尝试使用 ocrspell（同样来自同一部门），其中他们的原始来源可用。

我只能发布两个链接，因此缺少的链接是：