当前位置：文江博客话题详情

CUDA内核中的线程层次结构设计

发布于 2024-09-09 19:04:13 字数 140 浏览 0 评论 0原文

假设一个块的线程限制为 512 个，假设我的内核需要超过 512 个线程来执行，那么应该如何设计线程层次结构以获得最佳性能？（情况 1）

第一个块 - 512 个线程第二块 - 剩余线程

（情况 2）在某些块上分配相同数量的线程。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

岁吢 2024-09-16 19:04:13

我认为这并不重要，但更重要的是对线程块进行逻辑分组，以便您能够使用其他 CUDA 优化（例如内存合并）

此链接提供了有关 CUDA 将（可能）如何组织线程的一些见解。

摘自摘要：

总而言之，特殊参数
内核启动定义尺寸
网格及其块。独特的
blockId 和 threadId 中的坐标
变量允许网格的线程
区分它们。它是
程序员的使用责任
内核中的这些变量
函数，以便线程可以
正确识别该部分
要处理的数据。这些变量
迫使程序员组织起来
线程和数据进入
层次化、多维度
组织。

回复收藏 0 原文

撕心裂肺的伤痛 2024-09-16 19:04:13

最好将线程平均分为两个块，以便最大化计算/内存访问重叠。例如，当一个块中有 256 个线程时，它们不会同时计算所有线程，而是通过 32 个线程的 warp 在 SM 上进行调度。当一个warp正在等待全局内存数据时，另一个warp被调度。如果你有一个小线程块，你的全局内存访问会受到更多的惩罚。

此外，在您的示例中，您的 GPU 未得到充分利用。请记住，GPU 有数十个多处理器（例如，C1060 Tesla 有 30 个），并且一个块映射到一个多处理器。就您而言，您将仅使用 2 个多处理器。

回复收藏 0 原文

~没有更多了~

关于作者

沙与沫

暂无简介

0 文章

0 评论

430 人气

关注发私信

謌踐踏愛綪

文章 0 评论 0

关注

开始看清了

文章 0 评论 0

关注

高速公鹿

文章 0 评论 0

关注

alipaysp_PLnULTzf66

文章 0 评论 0

关注

热情消退

文章 0 评论 0

关注

白色月光

文章 0 评论 0

友情链接

文江博客

CUDA内核中的线程层次结构设计

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签