Emacs 23 使用比 Unicode 大四倍的字符集 - 为什么？

发布于 2024-08-09 10:56:40 字数 829 浏览 8 评论 0原文

从 Emacs 23.1 NEWS 开始：

*** Emacs 字符集现在是 Unicode 的超集。（它有大约四倍的代码空间，其中应该足够了）。

稍后会有更多详细信息：

*** 在多字节缓冲区和字符串中，字符由 UTF-8 表示字节序列。字符代码空间现在是 0x0..0x3FFFFF，没有差距;代码点 0x0..0x10FFFF 是相同代码的 Unicode 字符点，而代码点 0x3FFF80..0x3FFFFF 是原始 8 位字节。

根据维基百科，BMP 的 UCS 有 65536 个字符，最新版本的 Unicode 包含超过 107000 个字符，UCS 拥有超过一百万个代码点。 0x3FFFFF 超过四百万。

可以解决哪些问题，或者拥有 Unicode 超集的内部字符集有何好处？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

千年*琉璃梦 2024-08-16 10:56:40

Unicode 旨在包含所有人类语言所需的字符集，这对于代码的全球化/本地化当然很有用，但由于 Emacs 是众神的工具，它还必须包含神可能使用的每个字符各种类型（包括但不限于旧日支配者的可怕符文）、太空种族（包括但不限于我们未来的外星霸主）、超智能机器智能（包括但不限于我们未来的机器人主人））以及所有其他渴望无限宇宙力量的存在。这可能是很多角色！

或者这可能与 UTF-8 作为一种字符编码方式有关，它比 Unicode 集占用的空间大得多，而 Emacs 只支持整个 UTF-8，但我更喜欢上面的解释。

回复收藏 0 原文

~没有更多了~