当前位置：文江博客话题详情

Windows wchar_t 如何处理基本多语言平面之外的 unicode 字符？

发布于 2024-12-11 22:10:10 字数 594 浏览 7 评论 0原文

我在这里和其他地方查看了许多其他帖子（见下文），但我仍然没有对这个问题的明确答案：Windows wchar_t 如何处理基本多语言平面之外的 unicode 字符？

即：

许多程序员似乎认为UTF-16是有害的因为它是一个可变长度的代码。
wchar_t 在 Windows 上为 16 位宽，但是 32 位宽Unix/MacOS
Windows API 使用宽字符，而不是 Unicode。

那么当你想在Windows上编写像

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

晨与橙与城 2024-12-18 22:10:10

Windows stdlib 下的 wchar_t 实现是忽略 UTF-16 的：它只知道 16 位代码单元。

因此，您可以将 UTF-16 代理序列放入字符串中，并且可以选择使用更高级别的处理将其视为单个字符。字符串实现不会为您提供任何帮助，也不会阻碍您；它允许您在字符串中包含任何代码单元序列，甚至是在解释为 UTF-16 时无效的代码单元序列。

Windows 的许多高级功能确实支持由 UTF-16 代理项组成的字符，这就是为什么您可以调用文件

回复收藏 0 原文

听风念你 2024-12-18 22:10:10

Windows 过去使用 UCS-2，但在 Windows 2000 中采用了 UTF-16。Windows wchar_t API 现在生成和使用 UTF-16。

并非所有第三方程序都能正确处理此问题，因此 BMP 之外的数据可能会出现错误。

另请注意，UTF-16 作为一种可变长度编码，不符合与 wchar_t 一起使用的编码的 C 或 C++ 要求。这会导致一些问题，例如一些采用单个 wchar_t 的标准函数（例如 wctomb）无法在 Windows 上处理超出 BMP 的字符，以及 Windows 定义了一些使用更宽类型的附加函数以便能够处理单个字符BMP 之外。我忘记了它是什么函数，但我遇到了一个返回 int 而不是 wchar_t 的 Windows 函数（并且它不是 EOF 可能结果的函数）。

回复收藏 0 原文

~没有更多了~