MPI 和 OpenMP。我还有选择吗？

发布于 2024-12-25 23:21:48 字数 455 浏览 8 评论 0原文

我有一个线性代数代码，我试图让它运行得更快。它是一种迭代算法，内部有循环和矩阵向量乘法。到目前为止，我已经使用过 MATMUL (Fortran Lib.)、DGEMV，尝试在 OpenMP 中编写自己的 MV 代码，但该算法在可扩展性方面并没有做得更好。无论我分配给它多少个处理器（我已经尝试过 64 个处理器），速度提升都仅为 3.5 - 4。分析显示，Matrix-Vector 花费了大量时间，其余时间则相当微不足道。我的问题是：我有一个带有大量 RAM 和处理器的共享内存系统。我尝试过调整代码的 OpenMP 实现（包括矩阵向量），但没有帮助。对 MPI 编码有帮助吗？我不是 MPI 的专业人士，但微调消息通信的能力可能会有所帮助，但我不能确定。有什么意见吗？

更一般地说，从我读过的文献来看，MPI = 分布式，OpenMP = 共享，但它们可以在其他领域表现良好吗？喜欢共享中的 MPI 吗？它会起作用吗？如果做得好的话会比 OpenMP 实现更好吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

过气美图社 2025-01-01 23:21:48

您最好只使用已经针对多核环境进行了很好优化的线性代数包，并将其用于矩阵向量乘法。 Atlas 包，gotoblas （如果您有 nehalem 或更旧版本；遗憾的是它不再更新），或供应商 BLAS 实现（例如MKL 适用于 intel CPU，ACML（适用于 AMD），或 VecLib for apple，这些都需要花钱）都具有良好的、经过良好调整的多线程BLAS 实施。除非您有充分的理由相信您可以比那些全职开发团队做得更好，否则您最好使用它们。

请注意，使用 DGEMV 永远不会获得像使用 DGEMM 那样的并行加速，只是因为向量比另一个矩阵小，因此工作量较少；但您仍然可以做得很好，并且您会发现使用这些库比使用任何手动操作获得的性能要好得多，除非您已经进行了多级缓存阻塞。

回复收藏 0 原文