CUDA：块的更多维度还是只有一个？

发布于 2024-10-28 03:21:01 字数 358 浏览 2 评论 0原文

我需要使用 CUDA 对矩阵的每个元素（基本上是内存中的浮点值向量）求平方根。

矩阵维数不是“先验”已知的，并且可能会有所不同 [2-20.000]。

我想知道：我可能会使用（正如乔纳森在这里建议的那样）这样的一个块维度：

int thread_id = blockDim.x * block_id + threadIdx.x;

并检查 thread_id 是否低于行*列...这非常简单直接。

但是，是否有任何特定的性能原因，为什么我应该使用两个（甚至三个）块网格维度来执行这样的计算（记住我毕竟有一个矩阵）而不是一个？

我正在考虑合并问题，例如让所有线程按顺序读取值

原文

I need to square root each element of a matrix (which is basically a vector of float values once in memory) using CUDA.

Matrix dimensions are not known 'a priori' and may vary [2-20.000].

I was wondering: I might use (as Jonathan suggested here) one block dimension like this:

int thread_id = blockDim.x * block_id + threadIdx.x;

and check for thread_id lower than rows*columns... that's pretty simple and straight.

But is there any particular performance reason why should I use two (or even three) block grid dimensions to perform such a calculation (keeping in mind that I have a matrix afterall) instead of just one?

I'm thinking at coalescence problems, like making all threads reading values sequentially

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

太阳公公是暖光 2024-11-04 03:21:01

维度只是为了方便而存在，内部一切都是线性的，因此无论哪种方式在效率方面都没有优势。如上面所示，避免计算（人为的）线性索引似乎会更快一些，但线程合并的方式不会有任何差异。

回复收藏 0 原文

~没有更多了~

关于作者

烟花肆意

暂无简介

0 文章

0 评论

24 人气

关注发私信

杨绘峰

文章 0 评论 0

关注

听闻余生

文章 0 评论 0

关注

谜兔

文章 0 评论 0

关注

xiaotwins

文章 0 评论 0

关注

你说

文章 0 评论 0

关注

若能看破又如何

文章 0 评论 0

友情链接

文江博客

CUDA：块的更多维度还是只有一个？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

杨绘峰

听闻余生

谜兔

xiaotwins

你说

若能看破又如何

友情链接

CUDA：块的更多维度还是只有一个？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

杨绘峰

听闻余生

谜兔

xiaotwins

你说

若能看破又如何

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。