使用超过 1 个节点进行 mpi 作业时出现分段错误

发布于 2025-01-20 09:17:19 字数 779 浏览 4 评论 0原文

我目前正在寻找与管理和最大化我从国家 HPC 服务访问的资源相关的问题的解决方案。

该服务有 2 个相关的主要队列：1) Intel Xeon Gold 6148 Skylake 处理器（每个节点 2x20 个内核），程度较小2) Intel Xeon Phi 7210 KNL 处理器。

当我在 1 个节点上运行我的代码 [这是一个海洋物理/生物地球化学模型] 时，我没有遇到任何问题。但是，当我在超过 1 个节点上运行时，我收到分段错误。根据我的经验，避免这种分段错误的唯一方法是请求每个节点的核心数少于全部核心数。然而这种做法是令人望而却步的。例如，1个节点有40个核心。我请求的节点越多，我可以请求的核心就越少。我遇到的上限是 6 个节点，每个节点 15 个核心，总共 90 个核心。

这自然意味着我在加速方面的野心被大大削弱了。

据我了解，启动节点具有无限的堆栈空间，但每个附加节点都使用较低的默认堆栈大小。因此，我尝试了命令 ulimit -s unlimited，但没有成功。

[更新为了回应 Gilles 下面的第一条评论，我之前曾尝试过此建议，但无济于事]

我怀疑我正在使用的 HPC 服务上的某些专有设置正在限制某些内容，同样如此在其他国家/地区的类似 HPC 服务上运行的模型显然没问题，并且获得了所需的扩展。

如果有任何有关 slurm 配置和 HPC 的建议，我将不胜感激。由于时间限制，我无法对这个由多个研究机构彻底开发的代码进行 MPI 方面的大量重写。

我重申，这段代码在其他 HPC 和 slurm/pbs 脚本上运行良好。

原文