为什么 OCaml 中的 int 只有 31 位?

Haven't seen this "feature" anywhere else. I know that the 32nd bit is used for garbage collection. But why is it that way only for ints and not for the other basic types?

栩栩如生 2024-10-01 12:55:30

这称为标记指针表示,是一种非常常见的优化技巧,在许多不同的解释器、虚拟机和运行时系统中使用了数十年。几乎每个 Lisp 实现都使用它们,许多 Smalltalk VM、许多 Ruby 解释器等等。

通常,在这些语言中,您总是传递指向对象的指针。对象本身由对象头组成,对象头包含对象元数据(例如对象的类型、其类,可能是访问控制限制或安全注释等),然后是实际的对象数据本身。因此,一个简单的整数将表示为一个指针加上一个由元数据和实际整数组成的对象。即使使用非常紧凑的表示形式,一个简单整数也大约有 6 个字节。

此外,您无法将这样的整数对象传递给 CPU 来执行快速整数运算。如果要添加两个整数,实际上只有两个指针,它们指向要添加的两个整数对象的对象头的开头。因此,您首先需要对第一个指针执行整数运算,将对象中的偏移量添加到存储整数数据的位置。然后你必须取消引用该地址。对第二个整数再次执行相同操作。现在您有了两个整数,您可以实际要求 CPU 将其相加。当然,您现在需要构造一个新的整数对象来保存结果。

因此,为了执行一个整数加法,您实际上需要执行三个整数加法加上两次指针取消引用加上一次对象构造。而且你占用了将近20 Byte。

然而,诀窍在于,对于像整数这样的所谓的“不可变值类型”,您通常不需要对象标头中的所有元数据:您可以保留所有这些元数据当有人想看的时候,把东西拿出来,然后简单地合成它(这是 VM 书呆子所说的“假装”)。整数总是具有类Integer,无需单独存储该信息。如果有人使用反射来确定整数的类,您只需回复 Integer 并且没有人会知道您实际上并未将该信息存储在对象标头中,而且事实上,那里甚至不是对象头(或对象)。


有些 CPU 实际上在指针内有额外的空间(所谓的标记位),允许您在指针本身内存储有关指针的额外信息。额外的信息,如“这实际上不是一个指针,这是一个整数”。示例包括 Burroughs B5000、各种 Lisp 机器或 AS/400。不幸的是,目前大多数主流CPU 都不具备该功能。

然而,有一个解决办法:当地址未在字边界上对齐时,大多数当前主流 CPU 的工作速度都会显着变慢。有些甚至根本不支持未对齐访问。

这意味着在实践中,所有指针都可以被 4 整除,这意味着它们总是以两个0位结尾。这使我们能够区分真实指针(以00结尾)和实际上伪装的整数指针(以1结尾) 。而且它仍然让所有以 10 结尾的指针可以自由地执行其他操作。此外,大多数现代操作系统为自己保留非常低的地址,这给了我们另一个可以乱搞的区域(以 24 0 开头并以 00 结尾的指针)代码>)。

因此,您可以将 31 位整数编码为指针,只需将其向左移动 1 位并向其添加 1 即可。您可以通过简单地适当移动它们来执行非常快的整数算术(有时甚至没有必要)。


例如,在 MRI、YARV 和 Rubinius Ruby 解释器中,整数按照我上面描述的方式进行编码,false 被编码为地址 0(这正是发生的是C中false的表示),true作为地址2(恰好是C表示true 移动一位),nil4

小嗲 2024-10-01 12:55:30

请参阅 https://ocaml.org 的“整数、标记位、堆分配值的表示”部分/learn/tutorials/performance_and_profiling.html 以获得良好的描述。

简短的回答是,这是为了性能。将参数传递给函数时,它可以作为整数或指针传递。在机器级语言级别,无法判断寄存器是否包含整数或指针,它只是一个 32 位或 64 位值。因此,OCaml 运行时检查标记位以确定它接收到的是整数还是指针。如果设置了标记位,则该值是一个整数,并将其传递给正确的重载。否则它是一个指针并查找类型。


乖乖兔^ω^ 2024-10-01 12:55:30


It's not exactly "used for garbage collection." It's used for internally distinguishing between a pointer and an unboxed integer.

我喜欢麦丽素 2024-10-01 12:55:30

我必须添加此链接以帮助OP了解更多用于 64 位 OCaml 的 63 位浮点类型

虽然文章标题看起来是关于 float,它实际上是在谈论额外的1位

OCaml 运行时允许通过统一的多态性
类型的表示。每个 OCaml 值都表示为一个
“事物列表”,具有访问功能(例如 List.length)和


无参构造函数(如下所示:输入 Fruit = Apple | Orange |

被 GC 访问)并应如此标记。一个整数可以有
更糟糕的是,它还会导致 GC 改变它认为的位

这就是为什么未装箱的整数提供 31 位(对于 32 位 OCaml)或 63 位(对于
64 位 OCaml) 给 OCaml 程序员。在表示中,后面
总是被设置,以区别于指针。 31 位或 63 位
整数相当不寻常,所以任何使用 OCaml 的人都知道
这。 OCaml 用户通常不知道为什么没有
适用于 64 位 OCaml 的 63 位未装箱浮点类型。

漫雪独思 2024-10-01 12:55:30

为什么 OCaml 中的 int 只有 31 位?

基本上,为了在 Coq 定理证明器上获得最佳性能,其中主要操作是模式匹配,主要数据类型是变体类型。我们发现最好的数据表示是使用标签来区分指针和未装箱数据的统一表示。


不仅仅是int。其他类型(例如 char 和枚举)使用相同的标记表示形式。

