当前位置：文江博客话题详情

CUDA 中全局内存的原子操作是否跨扭曲并行执行？

发布于 2024-09-07 06:15:33 字数 137 浏览 5 评论 0原文

我需要在 CC 2.0 设备上的全局内存上执行原子 FP 添加操作。如果 warp 中引用的全局数据适合对齐的 128 字节扇区，这些操作是并行完成还是一次执行一个？

我的猜测是它们是平行的，但我不确定这

一点高瑟姆·加纳帕蒂

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

血之狂魔 2024-09-14 06:15:33

编程时，您可以将原子操作视为概念上的并行（同时仍然满足原子性的要求）。

优化时，它有助于了解可能发生的序列化。实际发生的情况取决于您运行的硬件。性能取决于原子内存单元的位置和数量，以及并行执行的内存访问模式。

例如，如果并行寻址的位置映射到完全不同的原子单元，则它们将并行发生。如果并行的多个地址映射到同一个原子单元，则必须将它们串行化。

原子操作性能从 sm_11（首次出现的计算能力 1.1）到 sm_2x（费米器件）再到 sm_3x（开普勒器件）不断提高。 Kepler 将最坏情况原子内存操作性能（许多原子操作访问相同的内存地址）提高了 10 倍，将最佳情况性能（许多原子操作访问非常不同的内存地址）提高了 2 倍。开普勒上的原子性能足够高，您可以考虑使用原子，而以前您可能使用显式并行归约代码。请参阅此演示文稿了解更多详细信息。

注意：此讨论适用于全局内存原子。共享内存原子是一种不同的野兽，通常会导致序列化，因此不具有非常高的性能。

回复收藏 0 原文