关于解决并行化问题的一般问题

发布于 2024-10-27 04:38:39 字数 255 浏览 5 评论 0原文

我有一个关于 C 语言并行算法编程的一般性问题。假设我们的任务是使用 MPI 和/或 OpenMP 实现一些矩阵算法。在某些情况下，例如 OpenMP 或 MPI 中的错误共享，其中通信的出现取决于矩阵维度（进程之间循环分布的列），这会导致一些问题。例如，通过转置矩阵来解决这种情况是否是一个好的且常见的尝试，因为这会减少必要的通信，甚至避免错误共享问题？之后您将撤消转置。当然，假设这会带来更好的加速。我不认为这是非常狡猾的，而且是一种懒惰的方式来做到这一点。但我很好奇阅读有关此的一些观点。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

极度宠爱 2024-11-03 04:38:39

我们先从第一个问题开始：转置有意义吗？答案是，这取决于情况，你可以估计它是否会改善情况。

转置/重新转置会施加一次性内存带宽成本 2*（以快速方式通过内存）+ 2*（以慢速方式通过内存），其中这些内存操作实际上是多核情况或网络中的内存操作分布式内存情况下的通信。您将以快速方式读取矩阵并以慢速方式将其放入内存中。（本质上，您可以通过一次读取一个缓存大小的块中的矩阵、在缓存中转置并按顺序写出来实现 4*（以快速方式遍历内存）。

这是否成功取决于您访问该数组的次数。如果您以“错误”方向访问整个非转置数组 4 次，那么通过执行两次转置您显然会获胜。如果您仅以错误的方向遍历非转置数组一次，那么您几乎肯定不会通过进行转置来获胜。

至于更大的问题，@AlexandreC 绝对是对的——尝试实现你自己的线性代数例程是疯狂的。看一下，例如，如何编写快速数字代码，图3；简单的和高度调整的（比如）GEMM 操作之间的性能差异可能是 40。这些东西的内存带宽受到很大限制，同时这也意味着网络受到限制。到目前为止，最好的方法是使用现有的工具。

对于多核线性代数，现有库包括

对于 MPI 实现，有

或完整的求解器环境，如

回复收藏 0 原文

许一世地老天荒 2024-11-03 04:38:39

我不知道您是否会在完成操作后立即丢弃转置，但是，这是增加并行性的有效机制。

我不是专家；我只读过一些关于这个主题的内容，即使那是针对 SIMD 架构的，所以请不要轻视我的意见......但我认为通常的机制是将你的结构放在内存中以匹配机器（所以你转置一个大矩阵以更好地与向量对齐并增加循环中的依赖距离），然后您还围绕该矩阵构建指针的索引结构，以便您可以以不同的方式快速访问转置中的各个元素。随着输入的变化更加动态，这变得更加困难。

回复收藏 0 原文