当前位置：文江博客话题详情

CUDA 中带宽的含义及其重要性

发布于 2024-08-23 10:32:47 字数 300 浏览 6 评论 0原文

CUDA 编程指南指出

“带宽是性能最重要的控制因素之一。几乎所有代码更改都应该在它们如何影响带宽的背景下进行。”

它继续计算理论带宽，约为每秒数百千兆字节。我不明白为什么可以读取/写入全局内存的字节数反映了内核的优化程度。

如果我有一个内核，对存储在共享内存和/或寄存器中的数据进行密集计算，并且在开始时仅从全局内存读取一次并在最后向全局内存写入，那么有效带宽肯定会很小，而内核本身可能非常高效。

任何人都可以进一步解释这种情况下的带宽吗？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

眼睛会笑 2024-08-30 10:32:47

大多数重要的计算内核，在 CPU 和 GPU 领域，受内存限制。
GPU 具有非常高的计算强度和吞吐量，但是对主存的访问非常慢并且具有很高的延迟，每次读取/存储需要几百个周期，而许多算术运算需要四个周期。

听起来你的内核是受计算限制的，所以你运气好。但是，您仍然需要注意共享内存库冲突，这可能会意外地序列化部分代码。

回复收藏 0 原文

权谋诡计 2024-08-30 10:32:47

大多数内核都受内存限制，因此最大化内存吞吐量至关重要。如果您足够幸运拥有一个计算密集型内核，那么优化计算通常会更容易。您确实需要注意差异，并且仍然应该确保有足够的线程来隐藏内存延迟。

请查看高级 CUDA C 演示文稿，了解更多信息，包括一些提示了解如何将实际性能与理论性能进行比较。 CUDA 最佳实践 Gude 也有一些很好的信息，它作为 CUDA 工具包的一部分提供（从 NVIDIA 网站）。

回复收藏 0 原文

世界和平 2024-08-30 10:32:47

通常，内核相当小且简单，并且对大量数据执行相同的操作。您可能有一堆按顺序调用的内核来执行一些更复杂的操作（将其视为处理管道）。显然，管道的吞吐量将取决于内核的效率以及是否受到内存带宽的限制。

回复收藏 0 原文

~没有更多了~

关于作者

葵雨

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

CUDA 中带宽的含义及其重要性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

CUDA 中带宽的含义及其重要性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。