CUDA：有关活动扭曲（活动块）以及如何选择块大小的问题

发布于 2024-10-24 16:11:41 字数 201 浏览 1 评论 0原文

假设一个 CUDA GPU 在一个多处理器上可以有 48 个同时活动的 warp，即 48 个块的 1 个 warp，或 24 个块的 2 个 warp，...，因为来自多个块的所有活动 warp 都被调度执行，所以看起来大小block的大小对于GPU的占用并不重要（当然应该是32的倍数），32、64、128都没有区别吧？那么块的大小只是由计算任务和资源限制（共享内存或寄存器）决定的？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

睫毛上残留的泪 2024-10-31 16:11:41

您忽略了多个值得考虑的因素。

SM 上的活动块数量有限制。当前限制为 8（所有设备），因此如果您想实现完全占用，您的块不应小于：3-warps（设备 1.0、1.1）、4-warps（1.2、1.3）和 6-warps (2.x)
根据设备的不同，每个多处理器可以使用 8K、16K 或 32K 寄存器。块越大，块需要的寄存器数量的“粒度”就越大。对于大块来说，如果不能实现满员，你就会损失很多。对于较小的块，损失可能更小。这就是为什么我个人更喜欢 2x256 而不是 1x512。
如果您确实需要块中扭曲之间的同步，则更大的块可以让您实现更广泛的同步。
保证在单个多处理器上调度单个块。如果它的所有扭曲都有一些公共数据（例如控制变量），则可以减少全局内存获取的次数。另一方面，当您创建大量小块时，每个小块可能需要单独加载相同的数据。在具有一些缓存的 Fermi 上，它并不像 GF-200 系列上那么重要。但请记住，由于有如此多的多处理器，1MB L2 缓存仍然非常非常小！

回复收藏 0 原文