C++ 中的跨平台字符串（和 Unicode）

发布于 2024-10-02 08:43:11 字数 752 浏览 10 评论 0原文

所以我终于回到了我的主要任务 - 将一个相当大的 C++ 项目从 Windows 移植到 Mac。

我立刻就遇到了一个问题：wchar_t 在 Windows 上是 16 位，但在 Mac 上是 32 位。这是一个问题，因为所有字符串都由 wchar_t 表示，并且 Windows 和 Mac 机器之间会来回字符串数据（以磁盘数据和网络数据形式）。由于它的工作方式，在发送和接收数据之前将字符串转换为某种通用格式并不完全简单。

最近我们也确实开始支持更多的语言，因此我们开始处理大量的 Unicode 数据（以及处理从右到左的语言）。

现在，我可能会在这里混淆多种想法，并给自己带来比需要的更多的问题，这就是我问这个问题的原因。我们认为将所有内存中字符串数据存储为 UTF-8 很有意义。它解决了 wchar_t 大小不同的问题，这意味着我们可以轻松支持多种语言，并且还大大减少了我们的内存占用（我们加载了很多 - 主要是英语 - 字符串） - 但似乎没有很多人在这样做这。我们还缺少什么吗？您必须处理一个明显的问题，即字符串长度可能小于存储该字符串数据的内存大小。

或者使用 UTF-16 是一个更好的主意吗？或者我们应该坚持使用 wchar_t 并编写代码在 wchar_t 和例如 Unicode 之间进行转换，在我们读/写磁盘或网络的地方？

我意识到这与征求意见是危险的 - 但我们很紧张，因为我们忽略了一些明显的东西，因为似乎没有很多 Unicode 字符串类（例如） - 但仍然有大量的代码可以转换为/来自 Unicode，如 boost::locale、iconv、utf-cpp 和 ICU。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小巷里的女流氓 2024-10-09 08:43:11

当涉及文件或网络连接时，始终使用按字节定义的协议。不要依赖 C++ 编译器如何在内存中存储任何内容。对于 Unicode 文本，这意味着同时选择编码和字节顺序（好吧，UTF-8 不关心字节顺序）。即使您当前想要支持的平台具有类似的架构，另一个具有不同行为的流行平台，甚至是适用于您现有平台之一的新操作系统也可能会出现，您会很高兴编写了可移植代码。

回复收藏 0 原文