规范 Unicode 字符串形式

发布于 2024-12-28 14:27:36 字数 202 浏览 1 评论 0原文

我有一个 Unicode 字符串编码，例如 UTF8。 Unicode 中的一个字符串可以有几个字节表示。我想知道，是否有任何或可以创建任何规范（规范化）形式的 Unicode 字符串 - 所以我们可以将这些字符串与 memcmp(3) 等进行比较。可以例如 ICU 或任何其他 C/C++ 库可以做到这一点吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

天冷不及心凉 2025-01-04 14:27:36

您可能正在寻找Unicode 规范化。本质上有四种不同的范式，每种范式都确保所有等效字符串之后都有一个共同的形式。但是，在许多情况下，您还需要考虑区域设置，因此虽然这可能是进行字节到字节比较的廉价方法（如果您确保相同的 Unicode 转换格式，例如 UTF-8 或 UTF-16）和相同的范式）除了有限的用例之外，它不会给你带来太多好处。

回复收藏 0 原文

最冷一天 2025-01-04 14:27:36

比较 Unicode 代码点序列：

UTF-8 本身就是一种规范表示形式。由相同 Unicode 代码点组成的两个 Unicode 字符串将始终被编码为完全相同的 UTF-8 字节序列，因此可以与 memcmp 进行比较。这是UTF-8编码的必要属性，否则不容易解码。但我们可以更进一步，对于所有官方 Unicode 编码方案（UTF-8、UTF-16 和 UTF-32）都是如此。它们将字符串编码为不同的字节序列，但它们始终将相同的字符串编码为相同的序列。如果考虑字节顺序和平台独立性，则推荐使用 UTF-8 编码方案，因为在读取或写入 16 位或 32 位值时不必处理字节顺序。

所以答案是，如果两个字符串使用相同的编码方案（例如 UTF-8）和字节序（这不是 UTF-8 的问题）进行编码，则生成的字节序列将相同。

比较 Unicode 字符串：

还有一个更难处理的问题。在 Unicode 中，某些字形（您在屏幕或纸张上看到的字符）可以用单个代码点或两个连续代码点的组合（称为组合字符）表示。对于带有重音符号、变音符号等的字形通常是这样。由于不同的代码点表示，它们相应的字节序列会有所不同。在考虑这些组合字符的同时比较字符串不能通过简单的字节比较来执行，首先您必须对其进行规范化。

其他答案提到了一些 Unicode 规范化技术、规范形式和库，可用于将 Unicode 字符串转换为其规范形式。然后您将能够将它们与任何编码方案进行逐字节比较。

回复收藏 0 原文

九厘米的零° 2025-01-04 14:27:36

您希望将字符串规范化为一种 Unicode 规范化形式。 libicu 可以为您执行此操作，但不能在 UTF-8 字符串上执行此操作。您必须首先使用 ucnv_toUChars 将其转换为 UChar，然后使用 unorm_normalize 进行标准化，然后使用 ucnv_fromUChars 转换回来。我认为还有一些特定版本的 ucnv_* 用于 UTF-8 编码。

如果 memcmp 是您唯一的目标，您当然可以在 unorm_normalize 之后直接在 UChar 数组上执行此操作。

回复收藏 0 原文

~没有更多了~