优化有关寄存器的 CUDA 内核

发布于 2024-11-08 13:03:46 字数 210 浏览 0 评论 0原文

我正在使用 CUDA 占用计算器来尝试优化我的 CUDA 内核。目前我使用 34 个寄存器和零共享内存...因此，每块 310 个线程的最大占用率为 63%。当我可以以某种方式将寄存器（例如通过共享内存传递内核参数）更改为 20 或更低时，我可以获得 100% 的占用率。这是一个好方法吗？还是您建议我使用另一种优化方法？

此外，我还想知道计算能力 2.1 的占用率计算器是否有更新版本！？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

酷到爆炸 2024-11-15 13:03:46

需要考虑的一些要点：

每块 320 个线程将提供与 310 个线程相同的占用率，因为占用率定义为每个 SM 的活动扭曲/最大扭曲，并且扭曲大小始终为 32 个线程。您不应该永远使用不是 32 的整数倍的块大小。这只会浪费内核和周期。
内核参数在计算 2.1 设备上的常量内存中传递，它们对占用或寄存器使用没有影响。
GPU设计的流水线延迟约为21个周期。因此，对于 Fermi GPU，您需要大约 43% 的占用率来覆盖所有内部调度延迟。完成此操作后，您可能会发现尝试提高入住率的好处相对较小。
争取 100% 的入住率通常从来都不是一个建设性的优化目标。如果您还没有这样做，我强烈建议您查看 Vasily Volkov 在 GTC 2010 上的演讲 “在较低的占用率下获得更好的性能”，他展示了各种令人惊讶的结果，例如代码在 8% 的占用率下达到了峰值内存带宽的 85%。
最新的占用计算器不涵盖计算 2.1，但计算 2.0 的有效占用规则也适用于 2.1 设备。计算 2.1 多处理器中的额外核心通过指令级并行性和几乎无序的执行来发挥作用。与计算 2.0 设备相比，这实际上根本不会改变设备的占用特性。