Windows 中的 Unicode 标准化

发布于 2024-11-29 16:10:43 字数 856 浏览 0 评论 0原文

我在 Windows 中使用“unicode 字符串”已有很长时间了...我了解了 Unicode（例如毕业后）。然而，Win32API 非常宽松地提到“unicode”，这始终让我感到困惑。特别是，MSN提到的“unicode”变体是UTF-16（尽管“wide char”术语来自于它曾经是UCS-2，而不是Unicode）。然而，它几乎没有提到 Unicode 规范化。

MSN 有一些关于 Unicode 的页面Unicode 规范化用于更改规范化表单的表单和函数。关于标准化的页面甚至说：

Win32 和 .NET Framework 支持所有四种规范化形式。

但是，我在文档中没有找到 Win32 API 使用（或理解）什么规范化形式。

问题 1：用户输入（例如编辑控件）和通过 MultiByteToWideChar() 进行转换时默认使用什么规范化形式？

问题 2：传递给 Win32API 函数的字符串必须采用特定的规范化形式，还是内核和文件系统规范化不可知？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

西瑶 2024-12-06 16:10:43

来自 MSDN 文章使用 Unicode 规范化来表示字符串< /a>.

Windows、Microsoft 应用程序和 .NET Framework 通常使用普通输入方法生成 C 形式的字符。对于 Windows 上的大多数用途，形式 C 是首选形式。例如，形式 C 中的字符是由 Windows 键盘输入产生的。但是，从 Web 和其他平台导入的字符可能会在数据流中引入其他规范化形式。

更新：我已经添加了一些与问题#2 相关的具体细节。

关于文件系统，不需要规范化 - 基于文章命名文件、路径和命名空间。

无需对 Windows 文件 I/O API 函数使用的路径和文件名字符串执行任何 Unicode 规范化，因为文件系统将路径和文件名视为不透明的 WCHAR 序列。您的应用程序所需的任何规范化都应牢记这一点，在对相关 Windows 文件 I/O API 函数的任何调用之外。

对于 SQL Server，不需要标准化 - 数据保存在数据库。也就是说，在比较字符串时，SQL Server 2000 使用它自己的索引内部的字符串规范化机制；但我找不到具体细节。 SQL Server 2005 文章也有相同的说明。

SQL Server 7.0 中的一个重要变化是提供了一种独立于操作系统的字符串比较模型，以便从 Windows 95 到 Windows 2000 的所有操作系统之间的排序规则保持一致。此字符串比较代码基于 Windows 2000 用于其自身字符串规范化的相同代码，并且经过封装，在所有计算机和所有版本的 SQL Server 中都相同。

回复收藏 0 原文

负佳期 2024-12-06 16:10:43

用户输入默认使用什么规范化形式

取决于您的键盘布局/IME。如果您愿意，可以生成正常形式 C、D 或两者的疯狂混合。

键盘布局倾向于 NFC，因为在 Unicode 出现之前，它们通常会在每次按键时在本地代码页中输出一个字节字符。但也有例外。

例如，使用 Windows 越南语键盘布局，一些变音符号被键入为与字母组合的单个按键（例如音调â），而一些变音符号被键入为组合变音符号（例如坟墓à）。 graheme a-with-circumflex-and-grave 将被键入为 a-circumflex 后跟combining-grave，ầ，这将是越南代码页 1258 中的 0xE2,0xCC，并且将输出为Unicode 中的 U+00E2、U+0300。

这不是正常形式 C（这将是 ầ U+1EA7 带扬抑符和重音符的拉丁小写字母 A），也不是 D（这将是 ầ U+0061， U+0302，U+0300）。

在 Windows 世界和网络上普遍存在对 NFC 的文化偏好，而在 Apple 世界中则存在对 NFD 的文化偏好。但它并没有严格执行，您应该能够应对任何组合和分解字符的混合。