当前位置：文江博客话题详情

algorithm graphics ocr cjk computer-vision

如何提取汉字的笔画

发布于 2024-11-28 18:07:42 字数 329 浏览 2 评论 0原文

我多次尝试创建一种算法来从汉字中提取笔画信息。我尝试了各种方法，但没有一个非常令人满意，可能是因为我对图形算法的了解有限。

基本上，我有以下数据：

汉字，可以是像素或矢量（黑色）
整体笔画的轮廓，以像素为单位（红色）
总体方向（蓝色箭头）。

在此处输入图像描述

由此，我尝试提取笔划。如果您必须这样做，根据可用数据，您会使用什么方法？你能想到任何自动提取笔划的方法吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

灰色世界里的红玫瑰 2024-12-05 18:07:42

我首先计算每个蓝色像素到最近的白色像素的距离。然后你可以保留所有比最近的白色像素更近的红色像素。之后可以使用一些过滤器来平滑效果（可能类似于侵蚀，然后是关闭）。

回复收藏 0 原文

离不开的别离 2024-12-05 18:07:42

您可能正在寻找内侧轴，也称为拓扑骨架。简而言之，您将解决找到与边缘上多个点等距的所有点的问题。您可能需要对结果曲线进行一些平滑或简化。

棘手的部分是分离多个笔画所共有的形状部分。我不相信有明确的方法可以做到这一点。也许将“公共区域”定义为以每个骨架交叉点为中心、与最近的边缘相切的圆？那么也许可以对间隙上的笔划宽度进行一些插值？

回复收藏 0 原文

给妤﹃绝世温柔 2024-12-05 18:07:42

我认为你不可能想出一个没有不正确情况的算法。有些汉字的某些部分是相同的，但笔画数并不相同。例如，从视觉角度（当然不是语言角度）来看，马在技术上还包括口。

我唯一的想法是将区域分成小区域并编写一个算法，尝试遵循笔画的设定顺序，但我无法想象这会很容易，并且根据字体，某些线条被扩展到它们不应该出现的区域。

还有一些字符由于其不寻常的布局而根本无法与算法很好地配合 - 只有遵循严格的笔画顺序规则才能获得正确的数字：示例包括凹和凸。

我不得不问——笔划计数是每个字符的基本信息——为什么你需要创建一个算法来计算它？进行字符识别并只需在自定义词典中查找该字符的笔画数不是更容易吗？

回复收藏 0 原文

女皇必胜 2024-12-05 18:07:42

从蓝线和示例图像来看，我认为这三步方法可能适用于相当多的情况：

对于沿线的每个点，选择所有更接近的红色像素
到该点比最接近的白色像素。这将粗略地给出字符的笔划，但在两个笔划交叉的区域周围有凸起，并且您将排除笔划两端的一些像素。
要消除凸起，请隔离笔划的边缘像素，并计算霍夫变换对于该边缘图像。从中选择两条最重要的行。这将为您提供（如果笔划足够直）沿着笔划边缘的两条线。消除笔划中在垂直方向上距离蓝线比这两条线更远的所有红色像素。现在（对于足够直的笔划）您所缺少的只是一些孤立的小像素块，这些像素块可能会在步骤 1 或步骤 2 中被消除，因此：
添加仅接触您的笔划的所有小的孤立的像素区域，并且没有字符的其他部分的笔划。如果您在步骤 2 中找到的线条太靠近蓝线，您还可以在步骤 1 和 2 之间执行此步骤。

回复收藏 0 原文

转角预定愛 2024-12-05 18:07:42

我认为最简单的可行方法是：

绘制蓝色箭头，一一
计算每个蓝色线段的距离变换
，将此离散距离与红色区域相交
，删除与蓝色线段距离大于 T 的红色区域

一次完成此操作后，您就可以制定更复杂的策略来选择良好的、依赖于细分市场的 T。

回复收藏 0 原文

~没有更多了~

关于作者

独自唱情﹋歌

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文