正确使用ARM PLD指令（ARM11）

发布于 2024-11-16 10:41:03 字数 257 浏览 3 评论 0 原文

ARM 实际上并没有提供太多关于该指令的正确使用方式，但我发现它在其他地方使用，知道它需要一个地址作为在哪里读取下一个值的提示。

我的问题是，给定 ldm/stm 指令的 256 字节紧密复制循环，例如 r4-r11 x 8，在复制之前在每个指令对之间预取每个缓存行是否会更好，或者根本不执行此操作，因为相关的 memcpy 并不同时读取和写入同一内存区域。很确定我的缓存行大小是 64 字节，但也可能是 32 字节 - 在此处编写最终代码之前等待确认。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

荭秂 2024-11-23 10:41:03

来自 Cortex-A 系列程序员指南，第 17.4 章（注意：一些细节可能会ARM11 有所不同）：

memcpy() 的最佳性能是
使用整个缓存的 LDM 实现
行，然后写入这些值
具有整个缓存行的 STM。
店铺排列更加整齐
比负载的对齐更重要。
应使用PLD指令
如有可能。有四个PLD
加载/存储单元中的插槽。可编程逻辑器件
指令优先于
自动预取器，无成本
就整数管道而言
表现。 PLD的具体时序
最佳 memcpy() 的说明可以
系统之间略有不同，但 PLD
到前面三个高速缓存行的地址
当前复制的行是
有用的起点。

回复收藏 0 原文

随心而道 2024-11-23 10:41:03

一个相当通用的复制循环的示例，它使用缓存行大小的LDM/STM块和/或PLD（如果可用）可以在Linux 内核，arch/arm/lib/copy_page.S。这实现了 Igor 上面提到的关于预加载的使用，并说明了阻塞。

请注意，在 ARMv7（其中缓存行大小通常为 64 字节）上，不可能将完整的缓存行作为单个操作进行LDM（自 SP 以来，您只能使用 14 个寄存器） /PC 为此无法触及）。因此，您可能必须使用两对/四对LDM/STM。

回复收藏 0 原文

土豪我们做朋友吧 2024-11-23 10:41:03

要真正获得“最快”的 ARM asm 代码，您需要在系统上测试不同的方法。就 ldm/stm 循环而言，这似乎对我来说效果最好：

  // Use non-conflicting register r12 to avoid waiting for r6 in pld

  pld [r6, #0]
  add r12, r6, #32

1:
  ldm r6!, {r0, r1, r2, r3, r4, r5, r8, r9}
  pld   [r12, #32]
  stm r10!, {r0, r1, r2, r3, r4, r5, r8, r9}
  subs r11, r11, #16
  ldm r6!, {r0, r1, r2, r3, r4, r5, r8, r9}
  pld   [r12, #64]
  stm r10!, {r0, r1, r2, r3, r4, r5, r8, r9}
  add r12, r6, #32
  bne 1b

上面的块假设您已经设置了 r6、r10、r11，并且该循环对 r11 的字而不是字节进行倒计时。我已经在 Cortex-A9 (iPad2) 上对此进行了测试，似乎在该处理器上有相当好的结果。但要小心，因为在 Cortex-A8 (iPhone4) 上，NEON 循环似乎比 ldm/stm 更快，至少对于较大的副本而言。

To really get the "fastest" possible ARM asm code, you will need to test different approaches on your system. As far as a ldm/stm loop goes, this one seems to work the best for me:

  // Use non-conflicting register r12 to avoid waiting for r6 in pld

  pld [r6, #0]
  add r12, r6, #32

1:
  ldm r6!, {r0, r1, r2, r3, r4, r5, r8, r9}
  pld   [r12, #32]
  stm r10!, {r0, r1, r2, r3, r4, r5, r8, r9}
  subs r11, r11, #16
  ldm r6!, {r0, r1, r2, r3, r4, r5, r8, r9}
  pld   [r12, #64]
  stm r10!, {r0, r1, r2, r3, r4, r5, r8, r9}
  add r12, r6, #32
  bne 1b

The block above assumes that your have already setup r6, r10, r11 and this loops counts down on r11 terms of words not bytes. I have tested this on Cortex-A9 (iPad2) and it seems to have quite good results on that processor. But be careful, because on a Cortex-A8 (iPhone4) a NEON loop seems to be faster than ldm/stm at least for larger copies.

回复收藏 0 原文

~没有更多了~