如何在行切分的时候切割上下结构的中文字符

发布于 2022-08-26 18:19:14 字数 159 浏览 17 评论 0

当一行中只有一个上下结构的中文字符时,程序会判断把上下结构的字符切割成两个部分,怎么样来处理这样的情况?分割

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

星星的轨迹 2022-09-02 18:19:14

按照你的回复三切分成三而不是三个一, 那么你这个问题实质上在图形学角度恐怕是无解的, 类型 "亢" 这种做上下结构还是做独体都是有歧义的,程序角度,就图形判断, 三应该是三个一. 除非你能给 "上下结构" 做一个精确的定义,现在 "上下结构" 在图形角度是个没有明确定义的东西.

实际上有个笨方法可能是最聪明的,就是人工标注, 比如实际上汉字的总数是有限的, 比如如果是gb2312其实只有6000多个汉字,就算是gbk汉字也就两三万, 人工标注(或者有现成的数据库更好)哪些字是上下结构, 比如假设有2000个上下结构的字,把这2000个存起来,到时候判断的时候就变成判断字符是否在这2000多个里面了. 排序好按二分查找,2000只需要比较11次(2048)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文