C++ 字符串：UTF-8 还是 16 位编码？

发布于 2024-07-04 18:52:34 字数 885 浏览 27 评论 0原文

我仍在尝试决定我的（家庭）项目是否应该使用 UTF-8字符串（根据 std::string 实现，必要时带有附加的 UTF-8 特定函数）或一些 16 位字符串（作为 std::wstring 实现）。该项目是一种编程语言和环境（如VB，它是两者的组合）。

有一些愿望/限制：

如果它可以在有限的硬件（例如内存有限的计算机）上运行，那就太酷了。
我希望代码能够在 Windows、Mac 和（如果资源允许）Linux 上运行。
我将使用 wxWidgets 作为我的 GUI 层，但我希望与该工具包交互的代码限制在代码库的一角（我将有非 GUI 可执行文件）。
在处理用户可见文本和应用程序数据时，我想避免使用两种不同类型的字符串。

目前，我正在使用 std::string，目的是仅在必要时使用 UTF-8 操作函数。它需要更少的内存，并且似乎是许多应用程序正在发展的方向。

如果您推荐 16 位编码，请选择哪一种：UTF-16？ UCS-2？另一个？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蓝礼 2024-07-11 18:52:34

UTF-16 仍然是一种变长字符编码（有超过 2^16 个 unicode 代码点），因此无法进行 O(1) 字符串索引操作。如果你做了很多这样的事情，你不会比 UTF-8 节省任何速度。另一方面，如果您的文本包含大量 256-65535 范围内的代码点，则 UTF-16 可以显着改善大小。 UCS-2 是 UTF-16 的变体，它是固定长度的，但代价是禁止任何大于 2^16 的代码点。

在不了解您的要求的更多情况下，我个人会选择 UTF-8。由于其他人已经列出的所有原因，这是最容易处理的。

回复收藏 0 原文

牵你的手，一向走下去 2024-07-11 18:52:34

老实说，我从来没有找到任何理由使用 UTF-8 之外的任何东西。

回复收藏 0 原文

み青杉依旧 2024-07-11 18:52:34

如果您决定使用 UTF-8 编码，请查看此库：http://utfcpp.sourceforge.net/

它可能会让您的生活变得更加轻松。

回复收藏 0 原文

夏至、离别 2024-07-11 18:52:34

我实际上已经编写了一个广泛使用的应用程序（超过 500 万用户），因此从字面上看，使用的每千字节都会增加。尽管如此，我还是坚持使用 wxString。我已将其配置为从 std::wstring 派生，因此我可以将它们传递给需要 wstring const& 的函数。

请注意，std::wstring 是 Mac 上的本机 Unicode（U+10000 以上的字符不需要 UTF-16），因此它使用 4 个字节/wchar_t。这样做的一大优点是 i++ 总是为您提供下一个字符。在 Win32 上，只有 99.9% 的情况是这样。作为一名程序员，你会明白 99.9% 是多么渺小。

但如果您不相信，请将函数编写为大写的 std::string[UTF-8] 和 std::wstring。这两个函数会告诉你哪种方式是疯狂的。

您的磁盘格式是另一回事。为了可移植性，应该是 UTF-8。 UTF-8 中没有字节序问题，也没有关于宽度 (2/4) 的讨论。这可能就是许多程序似乎使用 UTF-8 的原因。

稍微不相关的一点是，请阅读 Unicode 字符串比较和规范化。或者您最终会遇到与 .NET 相同的错误，其中您可以有两个变量 föö 和 föö，仅在（不可见的）标准化方面有所不同。

回复收藏 0 原文