当前位置：文江博客话题详情

mpiexec 使用错误数量的 cpu

发布于 2024-09-30 10:52:23 字数 383 浏览 9 评论 0原文

我正在尝试设置 MPI 集群。但我遇到的问题是，添加到 mpd.conf 文件中的 CPU 数量未正确使用。我有三台 Ubuntu 服务器。 48 核 opteron 8 核 calc1 具有 8 核的 calc2。

我的 mpd.hosts 看起来像：
选项：46 计算1:6 calc2:6

启动后（mpdboot -n 3 -f mpd.hosts）系统正在运行。 mpdtrace->这三者都已列出。

但是运行像“mpiexec -n 58 raxmlHPC-MPI ...”这样的程序会导致 calc1 和 calc2 执行许多作业，而 opteron 同时执行很少的作业。我做错了什么？

问候

比约恩

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

瑾夏年华 2024-10-07 10:52:23

我找到了一个解决方法。
我对 mpiexec 命令使用了附加参数“-machinefile /path/to/mpd.hosts”。现在，所有节点都运行正常。
我遇到的一个问题是收到以下错误消息：

... MPIU_SHMW_Seg_create_attach_templ(671): 打开失败 - 没有这样的文件或目录 ...

要修复它，我必须设置环境变量 MPICH_NO_LOCAL=1

回复收藏 0 原文

征﹌骨岁月お 2024-10-07 10:52:23

正如您所发现的，您必须将机器文件传递给 mpdboot 和 mpiexec 才能使用每个主机的进程计数。 “打开失败”问题是您正在使用的流程管理器 MPD 中的一个已知错误。请注意，MPICH_NO_LOCAL=1 解决方法可行，但可能会导致节点内通信的性能大幅下降。

您显然正在使用 MPICH2（或 MPICH2 衍生物），但不清楚您使用的是哪个版本。如果可以的话，我强烈建议升级到 MPICH2 1.2.1p1 或（更好）1.3.1。这两个版本都包含一个名为 Hydra 的新进程管理器，速度要快得多并且更加坚固。在 1.3.1 中，Hydra 是默认的进程管理器。它不需要 mpdboot 阶段，并且支持 $HYDRA_HOST_FILE 环境变量，因此您不必在每个 mpiexec< 上指定计算机文件/代码>。