ARM Cortex-A8：一次内存读取读取了多少字节？

发布于 2024-10-04 17:06:11 字数 305 浏览 13 评论 0原文

我正在尝试改进在 ARM cortex-a8 处理器上运行的图像处理项目。

我正在从内存中访问 8 位灰度图像数据。在我的函数中，现在我正在逐字节访问单个像素值。

我认为通过使用 NEON，我可以通过从内存中一次访问 128/8 = 16 字节来改进这一点，然后在我的函数中使用它们。但在运行更改后的版本后，我发现这实际上比逐字节访问花费更多时间。我认为我使用 NEON 的获取正在成为瓶颈，花费的时间比我的计算时间还要多。

ARM Cortex-A8 的数据总线大小是多少？一次内存读取从内存中访问了多少字节？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我ぃ本無心為│何有愛 2024-10-11 17:06:11

来自 Cortex A8 TRM：

“您可以将处理器配置为连接到 64 位或 128 位 AXI 互连，从而为系统设计提供灵活性”

NEON 是否必要，也许您正在将苹果与橙子进行比较？您可以使用 ldrd/strd 或 ldm/stm 来代替 ldrb/strb 来获得 64 位传输。 ARM/AXI 可以足够智能，可以预见并将较小的传输分组为较大的传输，例如将两个 32 位传输分组为一个 64 位。但我不会依赖于此。我只是在您发现通过更改为 ldr/str 或 ldrd/strd 不会获得任何性能提升时才提到它。

您是否隔离（无数据处理）读取或写入循环并尝试字节、字和双字？从字中提取字节的代码可能会超出总线上的节省。

这是什么类型的内存？这是在片上还是片外之类的，该内存相对于 AXI (ARM) 时钟速度的速度是多少？

您是否启用了该区域的数据缓存？如果是这样，它可能是一个静音点，第一个字节读取将使用最佳数据总线大小进行缓存行填充，该缓存行内的后续读取将不会到达 AXI 总线，更不用说到达目标内存了。同样，写入应该只到达高速缓存，并稍后以更宽的总线优化大小发送到目标。取决于缓存/写入缓冲区的配置方式。

回复收藏 0 原文