当前位置：文江博客话题详情

使用 OCR 分离单词中相连字母的典型方法是什么

发布于 2024-08-29 07:49:04 字数 219 浏览 0 评论 0原文

我对 OCR 非常陌生，对用于识别单词的算法几乎一无所知。我对此才刚刚熟悉。

有人可以建议用于识别和分隔连接形式的单个字符的典型方法吗（我的意思是所有字母都链接在一起的单词）？忘记手写，假设字母使用已知字体连接在一起，确定单词中每个单独字符的最佳方法是什么？当字符单独书写时没有问题，但是当它们连接在一起时，我们应该知道每个字符在哪里开始和结束，以便进行下一步并将它们单独匹配到一个字母。有没有已知的算法？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

自我难过 2024-09-05 07:49:04

这个过程的标准术语是“字符分割”——分割是图像处理术语，用于将图像分成分组区域以进行识别。 “阿拉伯字符分割”在如果您想了解更多信息，请访问谷歌学术。

我建议您查看Tesseract - 一种开源 OCR 实现，尤其是文档。

词汇表中定义的功能对此有一些介绍，但这里有大量信息。

基本上，Tesseract 通过查看 blob 来解决问题（来自 Tesseract 的工作原理）（不是字母），然后将这些斑点组合成单词。这避免了您所描述的问题，同时又产生了新的问题。

对于阿拉伯语（正如您所指出的），Tesseract 不起作用。我对这个领域不太了解，但是本文似乎暗示动态时间扭曲（DTW） ) 是一种有用的技术。这会尝试拉伸单词以将其与已知单词相匹配，并且再次在单词而不是字母空间中起作用。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

苦中寻乐

文章 0 评论 0

lueluelue

文章 0 评论 0

嗼ふ静

文章 0 评论 0

王权女流氓

文章 0 评论 0

与花如笺

文章 0 评论 0

残酷

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文