当前位置：文江博客话题详情

CUDA - 简单的矩阵加法/求和运算

发布于 2024-10-25 20:10:27 字数 185 浏览 7 评论 0原文

这应该非常简单，但我找不到详尽的答案：

我需要使用矩阵执行 A+B = C，其中 A 和 B 是两个未知大小的矩阵（它们的最大值可能是 2x2 或 20.000x20.000）

我应该使用带有Sgemm函数的CUBLAS来计算吗？

我需要可实现的最大速度，所以我想到了 CUBLAS 库，它应该得到很好的优化

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

晨敛清荷 2024-11-01 20:10:27

对于任何类型的技术计算，您应该始终使用可用的优化库。现有的库，由数百名其他人使用，将比您自己做的任何事情得到更好的测试和更好的优化，并且您自己不花时间编写（调试和优化）该函数的时间可以更好地花在工作上您想要解决的实际高级问题，而不是重新发现其他人已经实现的东西。这只是劳动的基本专业化；专注于您想要解决的计算问题，让那些花时间专业编写 GPGPU 矩阵例程的人为您做这件事。

只有当您确定现有的库不能满足您的需要时（也许它们解决了过于普遍的问题，或者做出了某些不适合您的情况的假设），您才应该推出自己的库。

我同意其他人的观点，在这种特殊情况下，操作非常简单，并且可以DIY；但是，如果您在添加完这些矩阵后要对它们进行其他操作，那么最好针对您所在的任何平台使用优化的 BLAS 例程。

回复收藏 0 原文