当前位置：文江博客话题详情

C：确定 UTF-8 字符串中的 UTF-16 字符串需要多少字节的最有效方法

发布于 2024-11-02 04:38:18 字数 408 浏览 10 评论 0原文

我已经看到一些非常聪明的代码用于在 Unicode 代码点和 UTF-8 之间进行转换，所以我想知道是否有人拥有（或愿意设计）这个。

给定一个 UTF-8 字符串，同一字符串的 UTF-16 编码需要多少字节。
假设 UTF-8 字符串已经过验证。它没有 BOM、没有超长序列、没有无效序列、以 null 终止。它不是 CESU-8。
必须支持带有代理的完整 UTF-16。

具体来说，我想知道是否有捷径可以知道何时需要代理对，而无需将 UTF-8 序列完全转换为代码点。

我见过的最好的 UTF-8 到代码点代码使用矢量化技术，所以我想知道这是否也可能在这里。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

你是我的挚爱i 2024-11-09 04:38:18

效率始终是速度与尺寸的权衡。如果速度比大小更重要，那么最有效的方法就是根据源字符串的长度进行猜测。

需要考虑 4 种情况，只需将最坏的情况作为最终缓冲区大小：

U+0000-U+007F - 将在 utf8 中编码为 1 个字节，在 utf16 中编码为每个字符 2 个字节。 (1:2 = x2)
U+0080-U+07FF - 编码为 2 字节 utf8 序列，或每个字符 2 字节 utf16 字符。 (2:2 = x1)
U+0800-U+FFFF - 存储为 3 字节 utf8 序列，但仍适合单个 utf16 字符。 (3:2 = x.67)
U+10000-U+10FFFF - 存储为 4 字节 utf8 序列，或 utf16 中的代理对。 (4:4 = x1)

最糟糕的情况扩展因子是当将 U+0000-U+007f 从 utf8 转换为 utf16 时：缓冲区（按字节）只需是源字符串的两倍即可。当编码为 utf16 时，每个其他 unicode 代码点都会产生与 utf8 相同的大小或更小的字节分配。

回复收藏 0 原文

坏尐絯℡ 2024-11-09 04:38:18

很简单：计算头字节数，重复计算字节F0及以上。

在代码中：

size_t count(unsigned char *s)
{
    size_t l;
    for (l=0; *s; s++) l+=(*s-0x80U>=0x40)+(*s>=0xf0);
    return l;
}

注意：此函数返回 UTF-16 代码单元的长度。如果您想要所需的字节数，请乘以 2。如果要存储空终止符，您还需要为此考虑空间（一个额外的代码单元/两个额外的字节）。

Very simple: count the number of head bytes, double-counting bytes F0 and up.

In code:

size_t count(unsigned char *s)
{
    size_t l;
    for (l=0; *s; s++) l+=(*s-0x80U>=0x40)+(*s>=0xf0);
    return l;
}

Note: This function returns the length in UTF-16 code units. If you want the number of bytes needed, multiply by 2. If you're going to store a null terminator you'll also need to account for space for that (one extra code unit/two extra bytes).

回复收藏 0 原文

你在看孤独的风景 2024-11-09 04:38:18

这不是一种算法，但如果我理解正确的话，规则是这样的：

每个 MSB 为 0 的字节都会添加 2 个字节（1 个 UTF-16 代码单元）
- 该字节表示 U+0000 - U+007F 范围内的单个 Unicode 代码点
每个具有 MSB 110 或 1110 的字节添加 2 个字节（1 个 UTF- 16个代码单元）
- 这些字节分别开始 2 字节和 3 字节序列，表示 U+0080 - U+FFFF 范围内的 Unicode 代码点
每个具有 4 MSB 集的字节（即以 1111 开始）添加4 个字节（2 个 UTF-16 代码单元）
- 这些字节开始 4 字节序列，覆盖 Unicode 范围的“其余部分”，可以用 UTF-16 中的低位和高位代理表示
每隔一个字节的低位和高位代理来表示（即以 1010 开头的字节）代码>) 可以跳过
- 这些字节已经与其他字节一起计算在内。