当前位置：文江博客话题详情

CUDA - 更好的占用 vs 更少的全局内存访问？

发布于 2024-08-12 11:22:16 字数 279 浏览 4 评论 0原文

我的 CUDA 代码必须使用（减少到平均值/标准差，计算直方图）4 个数组，每个数组 2048 个浮点数，并且已经存储在以前内核的设备内存中。

通常建议启动至少与我拥有的多处理器一样多的块。然而，在这种情况下，我可以将每个数组加载到单个块的共享内存中，因此只启动 4 个块。

这远非“让 GPU 保持忙碌”，但如果我使用更多的块，我将需要通过全局内存进行更多的块间通信，并且我预计由于传输数据所花费的额外时间，多处理器的任何额外利用都将是在静脉中进出全局内存。

在这种情况下并行的最佳方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

等风也等你 2024-08-19 11:22:16

CUDA 中不建议进行块间通信。此外，Fermi 将支持并发内核执行，因此未来更高的占用率将变得不那么重要。因此，我建议暂时保留较低的占用率，除非性能低得令人无法接受。

回复收藏 0 原文

等风来 2024-08-19 11:22:16

此示例展示了如何计算所有“汇总统计信息” “通过推力进行单次减少。另一个示例展示了如何使用 thrust::sort 计算直方图。

回复收藏 0 原文

柏林苍穹下 2024-08-19 11:22:16

您正在做的工作量相对较小，因此您可能应该坚持四个块。对于先前/后续内核而言，将数据保留在 GPU 本地仍然有一个优点。

Fermi 将允许并发内核，正是这种情况最受益，因为您可以启动下一个内核在该内核执行时占用剩余的 SM。然而，这确实假设两个内核之间不存在依赖关系 - 当然，在前一个内核完成之前，您将无法启动依赖于前一个内核结果的新内核。

回复收藏 0 原文

山有枢 2024-08-19 11:22:16

我认为您不需要一次需要所有 2048 个浮点数，如果必须减少，您可以将数组拆分为不同的部分，然后在块执行结束时合并结果。你能展示一些示例代码吗？

回复收藏 0 原文

~没有更多了~

关于作者

溺ぐ爱和你が

暂无简介

0 文章

0 评论

23 人气

关注发私信

謌踐踏愛綪

文章 0 评论 0

关注

开始看清了

文章 0 评论 0

关注

高速公鹿

文章 0 评论 0

关注

alipaysp_PLnULTzf66

文章 0 评论 0

关注

热情消退

文章 0 评论 0

关注

白色月光

文章 0 评论 0

友情链接

文江博客

CUDA - 更好的占用 vs 更少的全局内存访问？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签