CUDA 扭曲和占用

发布于 2024-11-02 18:00:42 字数 174 浏览 0 评论 0原文

我一直认为warp调度程序一次会执行一个warp，具体取决于哪个warp已准备好，并且这个warp可以来自多处理器中的任何一个线程块。然而，在 Nvidia 网络研讨会的一张幻灯片中，指出“占用率 = 在多处理器上同时运行的扭曲数量除以可以同时运行的最大扭曲数量”。那么一次可以运行多个扭曲吗？这是如何运作的？

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

自找没趣 2024-11-09 18:00:42

“运行”可能更好地解释为“在 SM 上具有状态和/或管道中的指令”。 GPU硬件调度尽可能多的可用块或适合SM的资源（以较小者为准），为它们包含的每个warp分配状态（即寄存器文件和本地内存），然后开始调度warp执行。指令管道似乎大约有 21-24 个周期长，因此在任何给定时间都有大量线程处于“运行”的各个阶段。

前两代支持 CUDA 的 GPU（例如 G80/90 和 G200）仅每四个时钟周期从单个扭曲中退出指令。计算 2.0 设备每两个时钟周期从两个 warp 发出双重指令，因此每个时钟有两个 warp 退休指令。 Compute 2.1 通过允许实际上无序执行来扩展这一点 - 每个时钟仍然只有两个扭曲，但可能一次来自同一扭曲的两条指令。因此，每个 SM 额外的 16 个核心用于指令级并行性，仍然由同一共享调度程序发出。

回复收藏 0 原文

~没有更多了~