当前位置：文江博客话题详情

内部和外部编码与 Unicode

发布于 2024-12-05 21:06:11 字数 253 浏览 0 评论 0原文

由于此问题的评论中存在许多发帖者传播的错误信息：C++ ABI 问题列表

我创建这个是为了澄清。

需要登录才能够评论，你可以免费注册一个本站的账号。

淡看悲欢离合 2024-12-12 21:06:11

实现定义。甚至是应用程序定义的；标准
并没有真正对应用程序的用途施加任何限制
他们，并期望很多行为取决于区域设置。全部
真正定义的实现是字符串中使用的编码
文字。
在什么意义上。大多数操作系统都会忽略大部分编码；你会
如果 '\0' 不是空字节，则会出现问题，但即使 EBCDIC 也满足这一要求
要求。否则，根据上下文，会有一些
可能很重要的其他字符（路径名中的 '/'，
例如）;所有这些都使用 Unicode 中的前 128 种编码，因此
将采用 UTF-8 进行单字节编码。举个例子，我用过
Linux 下的文件名采用 UTF-8 和 ISO 8859-1。唯一真实的
问题在于显示它们：例如，如果您在 xterm 中执行 ls，
ls 和 xterm 将假定文件名位于相同的位置
编码作为显示字体。
这主要取决于区域设置。根据区域设置，它是
窄字符串的内部编码很可能不
对应于字符串文字所使用的内容。（但是怎么可能
否则，因为字符串文字的编码必须在以下位置确定
编译时，作为窄字符的内部编码
字符串取决于用于读取它的区域设置，并且可能会有所不同
字符串到下一个。）

如果您正在 Linux 中开发新应用程序，我强烈建议
建议对所有内容使用 Unicode，对宽字符使用 UTF-32
字符串，UTF-8 用于窄字符串。但不要指望
字符串中前 128 个编码点之外的任何内容
文字。

天暗了我发光 2024-12-12 21:06:11

这取决于架构。大多数 Unix 体系结构对宽字符串 (wchar_t) 使用 UTF-32，对 (char) 使用 ASCII。请注意，ASCII 只是 7 位编码。 Windows 一直使用 UCS-2，直到 Windows 2000，更高版本使用变量编码 UTF-16（对于 wchar_t）。
不会。Linux 上的大多数系统调用都是与编码无关的（它们不关心编码是什么，因为它们不以任何方式解释它）。外部编码实际上是由您当前的区域设置定义的。
窄字符串和宽字符串使用的内部编码是固定的，它不会随着区域设置的变化而改变。通过更改语言环境，您可以更改对进入/离开程序的数据进行编码和解码的翻译函数（假设您坚持使用标准 C 文本函数）。