当前位置：文江博客话题详情

C++0x 是否支持 std::wstring 与 UTF-8 字节序列之间的转换？

发布于 2024-07-15 05:51:42 字数 165 浏览 11 评论 0原文

我看到 C++0x 将添加对 UTF-8、UTF-16 和 UTF-32 文字的支持。但是这三种表示形式之间的转换又如何呢？

我计划在代码中的任何地方使用 std::wstring 。但我在处理文件和网络时还需要操作UTF-8编码的数据。 C++0x 也会提供对这些操作的支持吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

马蹄踏│碎落叶 2024-07-22 05:51:42

在 C++0x 中，char16_t 和 char32_t 将用于存储 UTF-16 和 UTF-32，而不是 wchar_t。

来自草案 n2798：

22.2.1.4 类模板codecvt
2 codecvt 类用于从一种代码集转换为另一种代码集时使用，例如从宽字符到多字节字符或在宽字符编码（例如 Unicode 和 Unicode）之间转换。
EUC。
3 表 76 (22.1.1.1.1) 中所需的专业化转换了实现-
定义的本机字符集。 codecvt 实现了退化
转换; 它根本不转换。专门化codecvt 在 UTF-16 和 UTF-8 编码方案之间进行转换，并且
专门化 codecvt 在 UTF-32 和
UTF-8 编码方案。 codecvt 在原生之间进行转换
窄字符和宽字符的字符集。 mbstate_t 执行的专业化
库实现者已知的编码之间的转换。
可以通过专门处理用户定义的 stateT 类型来转换其他编码。 stateT 对象可以包含任何对于与专用 do_in 或从专用 do_in 进行通信有用的状态
do_out 成员。

关于 wchar_t 的事情是它不会为您提供有关所使用的编码的任何保证。它是一种可以容纳多字节字符的类型。时期。如果您现在要编写软件，您就必须接受这种妥协。与 C++0x 兼容的编译器还有很长的路要走。您始终可以尝试一下 VC2010 CTP 和 g++ 编译器，看看它是否值得。此外，wchar_t 在不同平台上具有不同的大小，这是另一件事需要注意（VS/Windows 上为 2 字节，GCC/Mac 上为 4 字节等）。然后，GCC 的 -fshort-wchar 等选项使问题进一步复杂化。

因此，最好的解决方案是使用现有的库。追踪 UNICODE 错误并不是精力/时间的最佳利用方式。我建议你看一下：