共享内存优化混乱

发布于 2024-10-31 04:03:36 字数 263 浏览 10 评论 0原文

我在 CUDA 中编写了一个应用程序，它在每个块中使用 1kb 共享内存。
由于每个SM中只有16kb的共享内存，所以总共只能容纳16个块，对吗？虽然一次只能调度8个，但现在如果某个块忙于进行内存操作，另一个块将被调度到GPU上，但所有共享内存都被其他已经调度在那里的16个块使用。

那么，除非之前分配的块完全完成，否则 CUDA 不会在同一个 SM 上调度更多块吗？

或者它将某些块的共享内存移动到全局内存，并在那里分配其他块？在这种情况下，我们应该担心全局内存访问延迟吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

羁拥 2024-11-07 04:03:36

它不是那样工作的。在单个 SM 上的任何给定时刻计划运行的块数始终为以下最小值：

8 个块
静态和动态分配的共享内存总和小于 16kb 或 48kb 的块数，具体取决于关于 GPU 架构和设置。还有共享内存页面大小限制，这意味着每块分配将向上舍入到页面大小的下一个最大倍数
。根据架构，每块寄存器使用量总和小于 8192/16384/32678 的块数量。还有寄存器文件页面大小，这意味着每个块的分配将向上舍入到页面大小的下一个最大倍数。

这就是全部内容了。没有共享内存的“分页”来容纳更多块。 NVIDIA 制作了一个计算占用率电子表格，该电子表格随工具包一起提供，可以单独下载。您可以在其中包含的公式中看到确切的规则。 CUDA 编程指南的 4.2 节中也讨论了它们。

~没有更多了~