有效的最小 GPU 线程数

发布于 2024-11-29 06:37:50 字数 190 浏览 3 评论 0原文

我将在 CUDA 上并行化本地搜索算法来解决一些优化问题。该问题非常难，因此实际可解决的问题规模很小。我担心的是，计划在一个内核中运行的线程数量不足以在 GPU 上获得任何加速（即使假设所有线程都已合并、没有库冲突、非分支等）。假设一个内核启动了 100 个线程。期望通过使用 GPU 获得利润是否合理？如果线程数是1000怎么办？分析案件需要哪些额外信息？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

柠檬色的秋千 2024-12-06 06:37:50

100 个线程确实不够。理想情况下，您需要的大小至少可以划分为与 GPU 上的多处理器 (SM) 一样多的线程块，否则您将使处理器闲置。出于同样的原因，每个线程块不应少于 32 个线程。理想情况下，每个块应该有 32 个线程的小倍数（比如 96-512 个线程），如果可能的话，每个 SM 有多个这样的块。

至少，您应该尝试拥有足够的线程来覆盖 SM 的算术延迟，这意味着在计算能力 2.0 GPU 上，每个 SM 需要大约 10-16 个 warp（32 个线程组）。不过，它们并不都需要来自同一个线程块。因此，这意味着，例如，在具有 14 个 SM 的 Tesla M2050 GPU 上，您将需要至少 4480 个线程，并分为至少 14 个块。

也就是说，比这更少的线程也可以提供加速——这取决于许多因素。例如，如果计算受带宽限制，并且您可以将数据保存在设备内存中，那么您可以获得加速，因为 GPU 设备内存带宽高于 CPU 内存带宽。或者，如果它是计算密集型的，并且存在大量指令级并行性（来自同一线程的独立指令），那么您将不需要那么多线程来隐藏延迟。 GTC 的 Vladimir Volkov 的“以更低的占用率提供更好的性能”演讲很好地描述了后一点2010。

最主要的是确保您使用所有的 SM：如果不这样做，您就不会使用 GPU 可以提供的所有计算性能或带宽。

回复收藏 0 原文

~没有更多了~