当前位置：文江博客话题详情

是否有一种语言在使用 UTF-8 编码时每个字符需要三个或更多字节？哪些？

发布于 2024-09-18 07:30:38 字数 111 浏览 11 评论 0原文

常用的 ofc、克林贡语不算 :-)

谢谢，伙计们，让我运行 willItFit() 测试用例

好的，现在我弄清楚使用 UTF-8 保存字节导致的问题比解决的问题更多，再次感谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

温暖的光 2024-09-25 07:30:38

需要 3 个字节的字符从 U+0800 开始以及所有后续字符，因此潜在字符的数量巨大。这包括东亚文字，例如日语、中文、韩语和泰语。

有关脚本范围的完整列表，您可以参考Unicode 的块数据。只有这些块可以用 1 或 2 个字节表示，所有其他块中的字符需要 3 或 4 个字节：

0000..007F Basic Latin
0080..00FF Latin-1 Supplement
0100..017F Latin Extended-A
0180..024F Latin Extended-B
0250..02AF IPA Extensions
02B0..02FF Spacing Modifier Letters
0300..036F Combining Diacritical Marks
0370..03FF Greek and Coptic
0400..04FF Cyrillic
0500..052F Cyrillic Supplement
0530..058F Armenian
0590..05FF Hebrew
0600..06FF Arabic
0700..074F Syriac
0750..077F Arabic Supplement
0780..07BF Thaana
07C0..07FF NKo

Characters requiring 3 bytes start at U+0800 and all subsequent characters, so that's a HUGE number of potential characters. This includes East Asian scripts such as Japanese, Chinese, Korean, and Thai.

For a complete list of script ranges, you can refer to Unicode's block data. Only these blocks can be represented with 1 or 2 bytes, characters from all other blocks require 3 or 4 bytes:

0000..007F Basic Latin
0080..00FF Latin-1 Supplement
0100..017F Latin Extended-A
0180..024F Latin Extended-B
0250..02AF IPA Extensions
02B0..02FF Spacing Modifier Letters
0300..036F Combining Diacritical Marks
0370..03FF Greek and Coptic
0400..04FF Cyrillic
0500..052F Cyrillic Supplement
0530..058F Armenian
0590..05FF Hebrew
0600..06FF Arabic
0700..074F Syriac
0750..077F Arabic Supplement
0780..07BF Thaana
07C0..07FF NKo

回复收藏 0 原文

疯狂的代价 2024-09-25 07:30:38

开始了：

所以前 128 个字符 (US-ASCII)
需要一个字节。接下来 1,920
字符需要两个字节来编码。
这包括拉丁字母
希腊语的变音符号和字符，
西里尔文、科普特文、亚美尼亚文、希伯来文、
阿拉伯语、叙利亚语和塔纳语字母。
其余部分需要三个字节
基本多语言平面（
几乎包含了所有字符
共同使用）。需要四个字节
其他位面的人物
Unicode，其中包括不太常见的 CJK
人物和各种历史
脚本。

更多详细信息：

http://en.wikipedia.org/wiki/Mapping_of_Unicode_character_planes ，基本多语言平面，从 0x8000 开始的代码。

一些示例：印度文字、泰语、菲律宾文字、平假名、片假名。所有东亚文字和其他一些文字。