当前位置：文江博客话题详情

GPU 中的同步

发布于 2024-11-19 19:21:07 字数 307 浏览 6 评论 0原文

我对 GPU 如何执行同步有一些疑问。据我所知，当一个扭曲遇到障碍时（假设它在 OpenCL 中），它知道同一组的其他扭曲还没有到达那里。所以还得等。但在等待期间，扭曲到底做了什么？它仍然是一个活跃的扭曲吗？或者它会执行某种空操作吗？

正如我注意到的，当我们在内核中进行同步时，指令数量会增加。我想知道这个增量的来源是什么。同步是否被分解为许多更小的 GPU 指令？或者因为空闲扭曲执行一些额外的指令？

最后，我强烈想知道与没有同步的成本相比，同步增加的成本（假设屏障（CLK_LOCAL_MEM_FENCE））是否受到工作组（或线程块）中扭曲数量的影响？谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

葬﹪忆之殇 2024-11-26 19:21:07

活动的warp 是驻留在SM 上的warp，即所有资源（寄存器等）都已被分配，并且只要它是可调度的，warp 就可用于执行。如果一个线程束在同一线程块/工作组中的其他线程束之前到达屏障，它仍然会处于活动状态（它仍然驻留在 SM 上，并且它的所有寄存器仍然有效），但它不会执行任何指令，因为它是尚未准备好安排。

插入屏障不仅会停止执行，还会充当编译器的屏障：不允许编译器跨屏障执行大多数优化，因为这可能会使屏障的目的失效。这是您看到更多指令的最可能原因 - 没有障碍，编译器能够执行更多优化。

屏障的成本很大程度上取决于您的代码正在执行的操作，但是每个屏障都会引入一个气泡，其中所有扭曲都必须（有效地）变得空闲，然后才能再次开始工作，因此如果您有一个非常大的线程块/工作组那么当然，可能存在比小块更大的泡沫。泡沫的影响取决于您的代码 - 如果您的代码非常受内存限制，那么屏障将暴露之前可能被隐藏的内存延迟，但如果更加平衡，那么它可能会产生不太明显的影响。

这意味着在内存非常有限的内核中，您最好启动大量较小的块，以便当一个块在屏障上冒泡时可以执行其他块。您需要确保占用率因此而增加，并且如果您使用块共享内存在线程之间共享数据，则需要进行权衡。

回复收藏 0 原文

~没有更多了~