CUBLAS - 矩阵加法..如何？

发布于 2024-10-26 00:58:22 字数 344 浏览 9 评论 0原文

我正在尝试使用 CUBLAS 对两个未知大小的大矩阵求和。我需要一个完全优化的代码（如果可能），所以我选择不重写矩阵加法代码（简单），而是使用 CUBLAS，特别是 cublasSgemm 函数，它允许对 A 和 C 求和（如果 B 是单位矩阵）： *C = alpha*op(A)*op(B)+beta*c*

问题是：C 和 C++ 以行优先格式存储矩阵，cublasSgemm 旨在（为了 fortran 兼容性）以列优先格式工作。您可以指定是否先转置 A 和 B，但不能指定转置 C。所以我无法完成我的矩阵加法。我无法

自己转置 C 矩阵，因为该矩阵类似于最大尺寸为 20000x20000。

请问有什么办法可以解决吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

悸初 2024-11-02 00:58:28

如果您只是将矩阵相加，那么实际上并不重要。你给它 alpha、Aij、beta 和 Cij。它认为您正在给它 alpha、Aji、beta 和 Cji，并给您它认为的 Cji = beta Cji + alpha Aji。但就您而言，这是正确的 Cij。我担心的是当你开始做一些真正重要的事情时——比如矩阵产品。在那里，可能没有解决办法。

但更重要的是，您不想使用 GEMM 进行矩阵加法 - 您正在执行完全毫无意义的矩阵乘法（这需要大约 20,000³ 运算，并且多次遍历内存）对于只需要 ~20,000² 次操作和一次传递的操作！将矩阵视为 20,000^2 长的向量并使用 saxpy。

矩阵乘法是内存带宽密集型的，因此您自己编码的版本与经过调整的版本之间存在巨大的性能差异（10 倍或 100 倍）。理想情况下，您应该更改代码中的结构以匹配库。如果不能，在这种情况下，您可以仅使用线性代数恒等式来进行管理。 C-vs-Fortran 排序意味着当您传入 A 时，CUBLAS“看到”A^T（A 转置）。这很好，我们可以解决它。如果您想要的是 C=AB，请以相反的顺序传递矩阵 BA 。然后库看到 (B^T . A^T)，并计算 C^T = (AB)^T；然后当它传回 C^T 时，你会得到（按你的顺序）C。测试一下看看。