当前位置：文江博客话题详情

测试字符串中的日文/中文字符

发布于 2024-07-18 14:11:35 字数 186 浏览 11 评论 0原文

我有一个程序可以读取一堆文本并对其进行分析。文本可能是任何语言，但我需要专门测试日语和中文，以便以不同的方式分析它们。

我读过，我可以测试每个字符的 unicode 编号，以查明它是否在 CJK 字符范围内。这很有帮助，但是如果可能的话，我想将它们分开，以便根据不同的词典处理文本。有没有办法测试一个字符是日语还是中文？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

韬韬不绝 2024-07-25 14:11:35

由于 unihan 代码点在 Unicode 标准中的实现方式，您将无法测试单个字符来确定它是日语还是中文。基本上，每个汉字都是潜在的日语字符。然而，反之则不然。此外，还有许多约定可用于测试文本块是否采用一种语言或另一种语言。

简化 - 如果您测试的角色是中华人民共和国简化，例如门仅在大陆可用中国人。
假名 - 如果该字符是众多日语假名字符之一，例如あいうえお，那么该文本会阻止您合作的肯定是日本人。

问题是由于共同的字符和单词的数量过多而产生的。但是，如果我需要一个快速而肮脏的解决方案来解决这个问题，我会检查整个文本块中的假名 - 如果文本包含假名，那么我就知道它是日语。如果您还需要区分韩语，我会测试韩文。另外，如果您需要区分中文类型，测试简化类型将是最好的方法。

回复收藏 0 原文

梦晓ヶ微光ヅ倾城 2024-07-25 14:11:35

Unicode的发展过程包括汉统。这是因为很多日语字符都源自汉字，或者与汉字相同；与韩语类似。有一些字符（片假名和平假名 - 请参阅第 12 章日语中常用的 Unicode 标准 v5.1.0）表明文本是日语而不是中文，但我相信这将是一个统计测试而不是确定性的。

查看 O'Reilly 的关于 CJKV 信息处理的书（CJKV 是 Chinese、Japan、Korean 的缩写），越南语；我有 CJK 前身潜伏在某处）。还有 O'Reilly 的关于 Unicode Explaned 的书，这可能会有所帮助，但可能不适用于这个问题（我不记得有关如何识别日语和中文文本的讨论）。

回复收藏 0 原文