x64 处理器上字对齐加载是否比未对齐加载更快？

发布于 2025-01-07 16:57:08 字数 445 浏览 4 评论 0原文

在 x86/64（Intel/AMD 64 位）处理器上，按字边界对齐的变量加载是否比未对齐的加载操作更快？

我的一位同事认为，未对齐的加载速度很慢，应该避免。他引用了结构中项目到字边界的填充来证明未对齐的加载速度很慢。示例：

struct A {
  char a;
  uint64_t b;
};

结构体 A 通常大小为 16 字节。

另一方面，Snappy 压缩器的文档指出 Snappy 假设“未对齐的 32 位和 64 位加载和存储很便宜”。根据源代码，Intel 32 位和 64 位处理器都是如此。

那么：这里的真相是什么？未对齐加载是否会变慢以及慢了多少？在什么情况下？

原文

Are loads of variables that are aligned on word boundaries faster than unaligned load operations on x86/64 (Intel/AMD 64 bit) processors?

A colleague of mine argues that unaligned loads are slow and should be avoided. He cites the padding of items to word boundaries in structs as a proof that unaligned loads are slow. Example:

struct A {
  char a;
  uint64_t b;
};

The struct A as usually a size of 16 bytes.

On the other hand, the documentation of the Snappy compressor states that Snappy assumes that "unaligned 32- and 64-bit loads and stores are cheap". According to the source code this is true of Intel 32 and 64-bit processors.

So: What is the truth here? If and by how much are unaligned loads slower? Under which circumstances?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

琉璃繁缕 2025-01-14 16:57:08

我在互联网上发现的一个随机人说，对于 486 来说，对齐的 32 位访问需要一个周期。跨四边形但位于同一高速缓存行内的未对齐 32 位访问需要四个周期。跨多个缓存行的未对齐等可能需要额外六到十二个周期。

鉴于未对齐的访问需要访问多个四边形内存（几乎按照定义），我对此一点也不感到惊讶。我认为现代处理器上更好的缓存性能可以使成本稍微降低一些，但这仍然是需要避免的事情。

（顺便说一句，如果您的代码有任何可移植性的要求...... ia32 及其后代几乎是唯一支持未对齐访问的现代体系结构。例如，ARM 可以在抛出异常之间，模拟软件中的访问，或者只是加载错误的值，具体取决于操作系统！）

更新：这是一个实际访问过的人，并且测量了它。在他的硬件上，他认为未对齐的访问速度是对齐的一半。自己去尝试一下吧...

回复收藏 0 原文

ぽ尐不点ル 2025-01-14 16:57:08

对齐加载意味着存储速度更快，摘录自英特尔优化手册清楚地指出了这一点：

3.6 优化内存访问
对齐数据，注意数据布局和堆栈对齐
...
对齐和转发问题是最常见的来源之一
基于 Intel NetBurst 微架构的处理器存在较大延迟。

和

3.6.4 对齐
数据的对齐涉及所有类型的变量：
• 动态分配变量
• 数据结构的成员
• 全局或局部变量
• 在堆栈上传递的参数
数据未对齐
访问可能会导致严重的性能损失。这是
对于缓存行分割尤其如此。

遵循 3.6.4 中的部分，为编译器开发人员提供了一条很好的规则：

汇编/编译器编码规则 45。（H 影响，H 通用性）对齐数据
自然操作数大小地址边界。如果使用向量访问数据
指令加载和存储，在 16 字节边界上对齐数据。

接下来是对齐规则的列表和 3.6.6 中的另一个 gem

用户/源编码规则 6.（H 影响，M 通用性）Pad 数据
在源代码中定义的结构，以便每个数据元素都是
与自然操作数大小地址边界对齐。

这两个规则都被标记为高影响，这意味着它们可以极大地改变性能，连同摘录，第 3.6 节的其余部分充满了自然对齐数据的其他原因。如果只是为了了解他/她正在使用的硬件，那么任何开发人员都值得花时间阅读这些手册。

回复收藏 0 原文

诗化ㄋ丶相逢 2025-01-14 16:57:08

不应该使用未对齐的加载/存储，但原因不是性能。原因是 C 语言禁止它们（通过对齐规则和别名规则），并且它们在许多没有极慢的模拟代码的系统上无法工作 - 这些代码也可能破坏正确行为所需的 C11 内存模型。多线程代码，除非它是在纯粹的逐字节级别上完成的。

对于 x86 和 x86_64，对于大多数操作（除了某些 SSE 指令），允许未对齐的加载和存储，但这并不意味着它们与正确访问一样快。这只是意味着 CPU 会为您进行模拟，并且比您自己的效率更高。例如，执行未对齐字大小读取和写入的 memcpy 类型循环将比执行对齐访问的相同 memcpy 稍微慢一些，但也会更快而不是编写自己的逐字节复制循环。

回复收藏 0 原文

自演自醉 2025-01-14 16:57:08

要修复未对齐的读取，处理器需要执行两次对齐的读取并修复结果。这比必须进行一次读取且无需进行修复要慢。

Snappy 代码有利用未对齐访问的特殊原因。它将在 x86_64 上运行；它不适用于无法选择未对齐访问的体系结构，并且在修复未对齐访问是系统调用或类似昂贵操作的情况下，它会运行缓慢。（在 DEC Alpha 上，有一种机制大约相当于用于修复未对齐访问的系统调用，并且您必须为程序打开它。）

使用未对齐访问是 Snappy 的作者做出的明智决定。它并不能让每个人都效仿它。例如，如果编译器编写者默认使用代码，他们会因其代码的低性能而受到严厉批评。

回复收藏 0 原文

ら栖息 2025-01-14 16:57:08

未对齐的 32 和 64 位访问并不便宜。

我做了测试来验证这一点。我在 Core i5 M460（64 位）上的结果如下：最快的整数类型是 32 位宽。 64 位对齐稍微慢一些，但几乎相同。 16 位对齐和 8 位对齐都明显慢于 32 位对齐和 64 位对齐。 16 位比 8 位对齐慢。迄今为止最慢的访问形式是非对齐 32 位访问，它比对齐 32 位访问（其中最快）慢 3.5 倍，而未对齐 32 位访问甚至比未对齐 64 位访问慢 40%。

结果： https://github.com /mkschreder/align-test/blob/master/results-i5-64bit.jpg?raw=true
源代码：https://github.com/mkschreder/align-test

回复收藏 0 原文

~没有更多了~