当前位置：文江博客话题详情

C++ 中的 UTF 使用代码

发布于 2024-07-06 20:21:13 字数 266 浏览 16 评论 0原文

UTF 和 UCS 有什么区别。

在 C++ 字符串中表示非欧洲字符集（使用 UTF）的最佳方法是什么？我想知道您对以下方面的建议：

需要登录才能够评论，你可以免费注册一个本站的账号。

岛歌少女 2024-07-13 20:21:13

UTF 和 UCS 有什么区别。

UCS 编码是固定宽度的，并以每个字符使用多少字节来标记。例如，UCS-2 每个字符需要 2 个字节。代码点超出可用范围的字符无法使用 UCS 编码进行编码。

UTF 编码是可变宽度的，并以存储字符的最小位数来标记。例如，UTF-16 要求每个字符至少 16 位（2 个字节）。具有较大代码点的字符使用较大数量的字节进行编码 - UTF-16 中的星体字符为 4 个字节。

代码内的内部表示
最佳存储表示（即在文件中）
最佳有线传输格式（在可能的应用程序之间传输
位于不同的架构上并且具有
不同的标准区域设置）

对于现代系统，最合理的存储和传输编码是 UTF-8。在某些特殊情况下，其他可能也适用 - UTF-7 适用于旧的邮件服务器，UTF-16 适用于写得不好的文本编辑器 - 但 UTF-8 是最常见的。

首选内部代表将取决于您的平台。在 Windows 中，它是 UTF-16。在 UNIX 中，它是 UCS-4。每个字符串都有其优点：

UTF-16 字符串永远不会比 UCS-4 字符串使用更多的内存。如果您存储许多主要在基本多语言平面 (BMP) 中包含字符的大型字符串，则 UTF-16 所需的空间将比 UCS-4 少得多。在 BMP 之外，它将使用相同的数量。
UCS-4 更容易推理。由于 UTF-16 字符可能会拆分为多个“代理对”，因此正确拆分或呈现字符串可能具有挑战性。 UCS-4文本没有这个问题。 UCS-4 的行为也很像“char”数组中的 ASCII 文本，因此可以轻松移植现有的文本算法。

最后，一些系统使用 UTF-8 作为内部格式。如果您需要与现有的基于 ASCII 或 ISO-8859 的系统进行互操作，这非常有用，因为 UTF-8 文本中间不存在 NULL 字节——它们位于 UTF-16 或 UCS-4 中。