Unicode 中是否存在每个“字符”都包含的编码？只是一个代码点吗？

发布于 2024-10-10 16:32:47 字数 140 浏览 0 评论 0原文

尝试改写：您能否将每个组合字符组合映射到一个代码点？

我是 Unicode 的新手，但在我看来，在 Unicode 中，没有一种编码、规范化或表示方式可以使一个字符在每种情况下都是一个代码点。这是正确的吗？

基础多语言飞机也是如此吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

幸福％小乖 2024-10-17 16:32:47

如果你的意思是一个字符==一个数字（即：每个字符由相同数量的字节/单词/你有什么表示）：在UCS-4中，每个字符由一个4字节数字表示。对于每个字符都可以用单个值表示来说，这已经足够大了，但是如果您不需要任何更高的字符，那就非常浪费了。

如果您指的是兼容性序列（即：其中 e + ´ => é）：现有现代语言中使用的大多数组合都有单字符表示形式。如果你正在编写自己的语言，你可能会遇到问题……但如果你坚持使用人们实际使用的语言，那就没问题了。

回复收藏 0 原文

青朷 2024-10-17 16:32:47

你能映射每个组合字符吗
组合成一个代码点？

每个组合字符组合？您建议的编码将如何表示字符串“à̴̵̶̷̸̡̢̧̨̛̖̗̘̙̜̝̞̟̠̣̤̥̦̩̪̫̬̭̮̯̰̱̲̳̹̺̻̼͇͈͉͍͎́̂̃̄̅̆̇̈̉̊̋̌̍字符串̎̏̐̑̒̓̔̽̾̿̀́͂̓̈́͆͊͋͌̕̚ͅ͏͓͔͕͖͙͚͐͑͒͗͛ͣͤͥͦͧͨͩͪͫͬͭͮͯ͘͜͟͢͝͞͠͡"？（一个带有一百多个组合标记的“a”？）这并不实用。

然而，Unicode 中有很多“预组合”字符，例如 áçñü。标准化形式 C 将尽可能使用这些而不是分解版本。

回复收藏 0 原文

拧巴小姐 2024-10-17 16:32:47

在我看来，在 Unicode 中，没有一种编码、规范化或表示方法可以使一个字符在每种情况下都是一个代码点。这是正确的吗？

取决于“字符”一词的含义。 Unicode 具有抽象字符（标准第 3 章中的定义 7：“用于组织、控制或表示文本数据的信息单元”）和编码字符<的概念/em> （定义 11：“抽象字符和代码点之间的关联（或映射）”）。因此，字符永远不是代码点，但对于许多代码点，存在映射到代码点的抽象字符，这种映射称为“编码字符”。但是（定义 11，第 4 段）：“单个抽象字符也可以由代码点序列表示”