CUDA：归约还是原子操作？

发布于 2024-11-05 16:56:25 字数 216 浏览 4 评论 0原文

我正在编写一个 CUDA 内核，其中涉及计算给定矩阵上的最大值，并且我正在评估可能性。我能找到的最好方法是：

强制每个线程在共享内存中存储一个值，然后使用缩减算法来确定最大值（优点：最小分歧缺点：共享内存在 2.0 设备上限制为 48Kb）

我不能'不能使用原子操作，因为同时存在读操作和写操作，因此线程无法通过synchthreads进行同步。

您还有其他想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谎言 2024-11-12 16:56:25

您可能还想使用 CUDA Thrust 附带的缩减例程，该例程是 CUDA 4.0 的一部分或可用在这里。

该库由两位 nVidia 工程师编写，与大量手工优化的代码相比毫不逊色。我相信网格/块大小也正在进行一些自动调整。

您可以通过包装原始设备指针轻松地与您自己的内核进行交互。

这严格是从快速集成的角度来看的。有关理论，请参阅 tkerwin 的回答。

回复收藏 0 原文

明月松间行 2024-11-12 16:56:25

这是在 CUDA 中执行缩减的常用方法

在每个块内，

1) 在每个线程的共享内存中保留运行的缩减值。因此，每个线程将从全局内存中读取 n 个值（我个人喜欢在 16 到 32 之间），并更新这些值的减少值

。 2) 在块内执行减少算法，以获得每个块的一个最终减少值。

这样，您将不需要比 (线程数) * sizeof (datatye) 字节更多的共享内存。

由于每个块都有一个减少的值，因此您需要执行第二次减少过程才能获得最终值。

例如，如果每个块启动 256 个线程，并且每个线程读取 16 个值，则每个块将能够减少 (256 * 16 = 4096) 个元素。

因此，考虑到 100 万个元素，您将需要在第一次传递中启动大约 250 个块，而在第二次中只需要启动一个块。

对于元素数量 > 的情况，您可能需要第三遍。此配置的 (4096)^2。

您必须注意全局内存读取是否已合并。您无法合并全局内存写入，但这是您需要承受的性能损失。

回复收藏 0 原文

救赎№ 2024-11-12 16:56:25

NVIDIA 有一个可进行缩减的 CUDA 演示：此处< /a>.随附的白皮书解释了设计背后的一些动机。

回复收藏 0 原文

记忆消瘦 2024-11-12 16:56:25

我发现此文档对于学习基础知识非常有用与 CUDA 的并行缩减。它有点老了，所以必须有额外的技巧来进一步提高性能。

回复收藏 0 原文

人海汹涌 2024-11-12 16:56:25

事实上，你所描述的问题并不是真正的矩阵问题。输入数据的二维视图并不重要（假设矩阵数据连续布置在内存中）。它只是对一系列值的减少，所有矩阵元素都按照它们在内存中出现的顺序排列。

假设矩阵表示在内存中是连续的，您只想执行简单的归约。据我所知，目前最好的实现是优秀的 libcub由 nVIDIA 的 Duane Merill 设计。这里是有关其设备范围最大值计算函数的文档。

但请注意，除非矩阵很小，否则对于大多数计算来说，它只是线程读取数据并更新其自己的线程特定最大值。只有当线程完成读取矩阵的大样本（或者更确切地说，大跨步样本）时，它才会将其局部最大值写入任何地方 - 通常写入共享内存以进行块级缩减。至于原子，您可能会制作 atomicMax() 每次读取大量矩阵元素时调用一次 - 数万甚至更多。

回复收藏 0 原文