当前位置：文江博客话题详情

Big Endian 和 Little Endian 字节顺序的区别

发布于 2024-07-16 07:38:14 字数 96 浏览 11 评论 0原文

Big Endian 和 Little Endian 字节顺序有什么区别？

这两个似乎都与 Unicode 和 UTF16 有关。我们到底在哪里使用它？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

新一帅帅 2024-07-23 07:38:14

Big-Endian (BE) / Little-Endian (LE) 是组织多字节字的两种方法。例如，当使用两个字节来表示 UTF-16 中的字符时，有两种方法可以将字符 0x1234 表示为字节串（0x00-0xFF）

Byte Index:      0  1
---------------------
Big-Endian:     12 34
Little-Endian:  34 12

：使用 UTF-16BE 或 UTF-16LE，规范建议在字符串前面添加一个字节顺序标记 (BOM)，表示字符 U+FEFF。因此，如果 UTF-16 编码的文本文件的前两个字节是 FE、FF，则编码为 UTF-16BE。对于FF、FE，它是UTF-16LE。

直观示例：不同编码中的“Example”一词（带 BOM 的 UTF-16）：

Byte Index:   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15
------------------------------------------------------------
ASCII:       45 78 61 6d 70 6c 65
UTF-16BE:    FE FF 00 45 00 78 00 61 00 6d 00 70 00 6c 00 65
UTF-16LE:    FF FE 45 00 78 00 61 00 6d 00 70 00 6c 00 65 00

有关更多信息，请阅读 Wikipedia 页面字节序和/或 UTF-16。

Big-Endian (BE) / Little-Endian (LE) are two ways to organize multi-byte words. For example, when using two bytes to represent a character in UTF-16, there are two ways to represent the character 0x1234 as a string of bytes (0x00-0xFF):

Byte Index:      0  1
---------------------
Big-Endian:     12 34
Little-Endian:  34 12

In order to decide if a text uses UTF-16BE or UTF-16LE, the specification recommends to prepend a Byte Order Mark (BOM) to the string, representing the character U+FEFF. So, if the first two bytes of a UTF-16 encoded text file are FE, FF, the encoding is UTF-16BE. For FF, FE, it is UTF-16LE.

A visual example: The word "Example" in different encodings (UTF-16 with BOM):

Byte Index:   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15
------------------------------------------------------------
ASCII:       45 78 61 6d 70 6c 65
UTF-16BE:    FE FF 00 45 00 78 00 61 00 6d 00 70 00 6c 00 65
UTF-16LE:    FF FE 45 00 78 00 61 00 6d 00 70 00 6c 00 65 00

For further information, please read the Wikipedia page of Endianness and/or UTF-16.

回复收藏 0 原文

治碍 2024-07-23 07:38:14

费迪南德的答案（和其他人）是正确的，但不完整。

Big Endian (BE) / Little Endian (LE) 与 UTF-16 或 UTF-32 无关。
它们早在 Unicode 之前就已存在，并影响数字字节在计算机内存中的存储方式。它们取决于处理器。

如果您有一个值为 0x12345678 的数字，那么在内存中它将表示为 12 34 56 78 (BE) 或 78 56 34 12 （LE）。

UTF-16 和 UTF-32 恰好分别用 2 个和 4 个字节表示，因此字节的顺序遵循该平台上任何数字遵循的顺序。

回复收藏 0 原文

离线来电— 2024-07-23 07:38:14

UTF-16 将 Unicode 编码为 16 位值。大多数现代文件系统都在 8 位字节上运行。因此，例如，要将 UTF-16 编码的文件保存到磁盘，您必须决定 16 位值的哪一部分进入第一个字节，哪一部分进入第二个字节。

维基百科有更完整的解释。

回复收藏 0 原文

懵少女 2024-07-23 07:38:14

little-endian：形容词。

描述一种计算机体系结构，其中在给定的 16 位或 32 位字中，较低地址的字节具有较低的重要性（该字以“小端优先”的方式存储））。 PDP-11 和 VAX 系列计算机和 Intel 微处理器以及许多通信和网络硬件都是小端字节序。该术语有时用于描述字节以外的单位的排序；最常见的是一个字节内的位。

big-endian：形容词。

[常见；摘自《斯威夫特的格列佛游记》，通过丹尼·科恩 (Danny Cohen) 撰写的著名论文《论圣战与和平诉求》，USC/ISI IEN 137，日期为 1980 年 4 月 1 日]

描述了一种计算机体系结构，其中在给定的多字节数字表示中，最有效字节具有最低地址（该字存储为“大端优先”）。大多数处理器，包括 IBM 370 系列、PDP-10、Motorola 微处理器系列以及大多数各种 RISC 设计都是大端字节序。大端字节顺序有时也称为网络顺序。

---来自行话文件：http://catb.org/~esr/jargon /html/index.html

回复收藏 0 原文

请恋爱 2024-07-23 07:38:14

字节尾数（大或小）需要为 Unicode/UTF-16 编码指定，因为使用多个字节的字符代码，可以选择是否读/写最高有效字节第一个或最后一个。 Unicode/UTF-16，因为它们是可变长度编码（即每个字符可以由一个或多个字节表示），所以需要指定这一点。（但请注意，UTF-8“单词”的长度始终为 8 位/一个字节[尽管字符可以是多个点]，因此字节顺序不存在问题。）如果表示 Unicode 文本的字节流的编码器和解码器未就所使用的约定达成一致，可能会解释错误的字符代码。因此，要么预先知道字节序约定，要么更常见的是字节顺序标记通常在任何 Unicode 文本文件/流的开头指定，以指示是否使用大端或小端顺序。

回复收藏 0 原文