当前位置：文江博客话题详情

CUDA 中的矩阵运算

发布于 2024-10-22 04:01:35 字数 168 浏览 1 评论 0原文

在 CUDA 中组织矩阵运算的最佳方式是什么（就性能而言）？例如，我想计算C * C^(-1) * B^T + C，C和B是矩阵。

我应该为乘法、转置等编写单独的函数还是为整个表达式编写一个函数？

哪条路最快？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧伤还要旧人安 2024-10-29 04:01:35

我建议您使用 CUBLAS 库。它通常比您自己编写的所有内容都更快捷、更可靠。此外，它的 API 类似于 BLAS 库，BLAS 库是数值线性代数的标准库。

回复收藏 0 原文

信仰 2024-10-29 04:01:35

我认为答案很大程度上取决于矩阵的大小。

如果您可以在共享内存中容纳一个矩阵，我可能会使用单个块来计算它，并将所有内容放在单个内核中（可能更大，其中该计算只是其中的一部分）。希望如果您有更多矩阵，并且需要多次计算上述方程，您可以利用所有 GPU 计算能力并行执行。

然而，如果你的矩阵更大，你将需要更多的块来计算（检查 CUDA 手册中的矩阵乘法示例）。在继续方程的下一部分之前，您需要保证所有块都完成乘法，如果是这样，您将需要为每个操作调用内核。

回复收藏 0 原文

~没有更多了~

关于作者

情域

暂无简介

0 文章

0 评论

23 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

CUDA 中的矩阵运算

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签