当前位置：文江博客话题详情

检测字符是简体字还是繁体字

发布于 2024-10-10 17:19:35 字数 596 浏览 3 评论 0原文

我发现这个问题这给了我能够检查字符串是否包含中文字符。我不确定 unicode 范围是否正确，但它们似乎对日语和韩语返回 false，对中文返回 true。

它不会判断该字符是繁体字还是简体字。你会如何发现这一点？

更新

问：如何从 Unicode 字符的 32 位值中识别出中文、韩文或日文字符？

http://unicode.org/faq/han_cjk.html

他们的论点是字符无论其形状具有相同的含义，因此应由相同的代码表示。好吧，这对我来说并不是毫无意义，因为我正在分析不适合他们的解决方案的单个字符：

更好的解决方案是从整体上查看文本：如果有大量假名，则可能是日语，如果有大量韩文，则可能是韩语。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鸵鸟症 2024-10-17 17:19:36

我想你已经发现了，你不能。简体字和繁体字只是相同字符的两种书写方式——就像欧洲语言的罗马字体和哥特字体之间的区别一样。

回复收藏 0 原文

夜声 2024-10-17 17:19:35

如前所述，您无法可靠地从单个字符检测脚本样式，但对于足够长的文本样本是可能的。请参阅 https://github.com/jpatokal/script_detector 来获取完成这项工作的 Ruby gem，以及简体中文 Unicode 表供一般性讨论。

回复收藏 0 原文

〃安静 2024-10-17 17:19:35

对于某些字符来说是可能的。繁体字符集和简体字符集重叠，因此基本上具有三组字符：

仅繁体字符。
仅简化的字符。
角色未受影响，并且在两者中都可用。

以“面”字为例。它既属于 #2 又属于 #3...作为简化字符，它代表面和面，脸和面条。而面只是一个繁体字。所以在Unihan数据库中，面有一个kSimplifiedVariant，它指向面。所以你可以推断它只是一个繁体字。

但是面也有一个kTraditionalVariant，它指向面。这就是系统崩溃的地方：如果你用这些数据来推断“面”只是一个简化字符，那么你就错了……

另一方面，韩有一个 kTraditionalVariant，指向韩，而这两个是“真正的”简体/繁体对。但 Unihan 数据库中没有任何内容可以区分韩/韩等案例与面/面等案例。

回复收藏 0 原文

~没有更多了~

关于作者

耀眼的星火

暂无简介

0 文章

0 评论

23 人气

关注发私信

胡图图

文章 0 评论 0

关注

zt006

文章 0 评论 0

关注

z祗昰~

文章 0 评论 0

关注

冰葑

文章 0 评论 0

关注

野の

文章 0 评论 0

关注

天空

文章 0 评论 0

友情链接

文江博客

检测字符是简体字还是繁体字

更新

update

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

检测字符是简体字还是繁体字

更新

update

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。