如何在行切分的时候切割上下结构的中文字符
当一行中只有一个上下结构的中文字符时,程序会判断把上下结构的字符切割成两个部分,怎么样来处理这样的情况?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
当一行中只有一个上下结构的中文字符时,程序会判断把上下结构的字符切割成两个部分,怎么样来处理这样的情况?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(1)
按照你的回复三切分成三而不是三个一, 那么你这个问题实质上在图形学角度恐怕是无解的, 类型 "亢" 这种做上下结构还是做独体都是有歧义的,程序角度,就图形判断, 三应该是三个一. 除非你能给 "上下结构" 做一个精确的定义,现在 "上下结构" 在图形角度是个没有明确定义的东西.
实际上有个笨方法可能是最聪明的,就是人工标注, 比如实际上汉字的总数是有限的, 比如如果是gb2312其实只有6000多个汉字,就算是gbk汉字也就两三万, 人工标注(或者有现成的数据库更好)哪些字是上下结构, 比如假设有2000个上下结构的字,把这2000个存起来,到时候判断的时候就变成判断字符是否在这2000多个里面了. 排序好按二分查找,2000只需要比较11次(2048)