程序如何读取unicode?

发布于 2024-12-09 16:35:56 字数 1432 浏览 0 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

多情癖 2024-12-16 16:35:56

首先,并非所有 Unicode 表示形式都是可变长度的。 UTF-32 和 USC-2 是固定长度的。 UTF-8 和 UTF-16 各自以自己的方式可变长度。

其次,如果您阅读规范,您将了解到序列是自描述的。可以作为第一个字节的字节值(UTF-8 中)不能是第二个或第三个字节等。对于表示 UTF-16 中的非 BMP 字符的代理项对也是如此。

First, not all Unicode representations are variable length. UTF-32 and USC-2 are fixed length. UTF-8 and UTF-16 are each in their own way variable length.

Second, if you read the specification, you will learn that the sequences are self-describing. The byte values (in UTF-8) that can be first bytes can't be second or third, etc. Ditto for the surrogate pairs that represent non-BMP characters in UTF-16.

爱*していゐ 2024-12-16 16:35:56

常用的编码是 UTF-8。它的结构方式是字符字节的一些预定义位告诉您是否还有更多字节。

请参阅http://en.wikipedia.org/wiki/UTF-8#Design 一个漂亮的图表。

A commonly used encoding is UTF-8. The way it's structured is that some predefined bits of the character's bytes tell you whether there are more bytes to come.

See http://en.wikipedia.org/wiki/UTF-8#Design for a nice diagram.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文