Unicode 联盟是否打算让 UTF-16 字符耗尽？

发布于 2025-01-08 03:32:39 字数 273 浏览 1 评论 0 原文

当前版本的 UTF-16 只能编码 1,112,064 个不同的数字（码点）； 0x0-0x10FFFF。

即创建一个代码点> 0x10FFFF

如果不是，为什么有人要编写 utf-8 解析器的代码来接受 5 或 6 字节序列？因为它会为其功能添加不必要的指令。

1,112,064 还不够吗，我们真的需要更多字符吗？我的意思是：我们多久就会用完？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

公布 2025-01-15 03:32:39

截至 2011 年我们已经消耗了 109,449 个字符并留出供应用程序使用(6,400+131,068)< /a>：

为超过 860,000 个未使用的字符留出空间；足够用于 CJK 扩展 E（约 10,000 个字符）以及另外 85 个类似的集合；因此，一旦接触到费伦吉文化，我们就应该做好准备。

2003 年 11 月，IETF 限制 UTF-8 以 U+10FFFF 结尾，RFC 3629，为了匹配 UTF-16 字符编码的约束：UTF-8 解析器不应接受会溢出 utf-16 集的 5 或 6 字节序列，或会溢出 utf-16 集的 4 字节序列中的字符大于 0x10FFFF

请将对 unicode 代码点限制大小构成威胁的编辑列表集放入此处，如果它们超过 CJK 扩展 E（约 10,000 个字符）：

CJK 扩展 E(~10,000字符）
Ferengi 文化字符（约 5,000 个字符）

回复收藏 0 原文

彩虹直至黑白 2025-01-15 03:32:39

目前，Unicode 标准没有定义任何高于 U+10FFFF 的字符，因此您可以对应用程序进行编码以拒绝高于该点的字符。

预测未来很困难，但我认为采用这种策略在短期内是安全的。老实说，即使 Unicode 在遥远的将来扩展到超过 U+10FFFF，它几乎肯定不会用于关键任务字形。您的应用程序可能与 2063 年推出的新 Ferengi 字体不兼容，但当它真正成为问题时，您始终可以修复它。

回复收藏 0 原文

遗忘曾经 2025-01-15 03:32:39

切入正题：

编码系统确实是有意只支持最大到 U+10FFFF 的代码点。

似乎并不存在任何很快就会用完的真正风险。

回复收藏 0 原文

怎会甘心 2025-01-15 03:32:39

除了支持实际使用它们的任何遗留系统之外，没有理由编写支持 5-6 字节序列的 UTF-8 解析器。当前官方 UTF-8 规范不支持 5-6 字节序列，以适应与 UTF-16 之间的 100% 无损转换。如果 Unicode 有一天必须支持 U+10FFFF 以上的新代码点，那么将有足够的时间为更高的位数设计新的编码格式。或者，也许到那时，内存和计算能力就足够了，每个人都会将所有内容切换到 UTF-32，它最多可以处理超过 40 亿个字符的 U+FFFFFFFF。