当前位置：文江博客话题详情

Unicode 连字字符在 UTF8 中是否可以有多种表示形式？

发布于 2025-01-07 19:36:36 字数 87 浏览 0 评论 0原文

Unicode 连字字符 fi (Unicode U+FB01) 在 UTF8 中是否可以有多个表示形式？哪一个？对于每个标准化形式？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

吃→可爱长大的 2025-01-14 19:36:36

该字符应编码为 0xEF 0xAC 0x81 在 utf-8 中，但同一个字符可以依次分解为 f 和 i，它们合起来就是0x66 0x69。您的问题实际上由 unicode 规范中的此图表直接回答：

连字的规范化形式

如您所见，NFD 和 NFC 规范化仍然使用相同的连字代码点，而 NFKD 和 NFKC 形式使用 f + i 组合。

回复收藏 0 原文

七堇年 2025-01-14 19:36:36

这取决于“字符”的含义，而“字符”的含义相当晦涩。在 Unicode 中，“字符”通常表示分配给字符的代码点，这确实符合“字符”的直观概念。

单个代码点（例如 U+FB01）在 UTF-8 中只有一种表示形式，因为 UTF-8 定义了一种用于生成编码形式的明确算法。

诸如丝线之类的直观字符可能具有不同的表示形式作为代码点或代码点序列，每个代码点都具有 UTF-8 表示形式。 Unicode 规范化规则部分定义了此类替代项之间的映射。

但 U+FB01 的兼容性映射（到 U+0066 U+0069，即“f”后跟“i”）不会保留直观字符的标识：连字被映射到两个普通字母。

另一方面，您可以通过在两个字母（例如“f”和“i”）之间插入 U+200D ZERO WIDTH JOINER (ZWJ) 来请求或建议连字行为。从某种意义上说，序列U+0066 U+200D U+0069是丝连字的另一种表示，但这不是字符的形式属性，取决于渲染软件是否关注ZWJ。

回复收藏 0 原文

~没有更多了~

关于作者

感性

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

Unicode 连字字符在 UTF8 中是否可以有多种表示形式？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

微信用户

小情绪

追我者格杀勿论

ゞ记忆︶ㄣ

笨死的猪

彭明超

友情链接

Unicode 连字字符在 UTF8 中是否可以有多种表示形式？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

微信用户

小情绪

追我者格杀勿论

ゞ记忆︶ㄣ

笨死的猪

彭明超

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。