slurm

slurm

文章 0 浏览 1

我怎样才能监控CPU? Slurm 工作的效率如何?

我开发了一个支持多线程的 Python 脚本。我将代码发送到 Slurm。我想验证多线程是否正常工作。 因此我想监控实时CPU的使用情况。有什么命令可以做到这…

倾听心声的旋律 2025-01-20 18:22:35 3 0

使用超过 1 个节点进行 mpi 作业时出现分段错误

我目前正在寻找与管理和最大化我从国家 HPC 服务访问的资源相关的问题的解决方案。 该服务有 2 个相关的主要队列:1) Intel Xeon Gold 6148 Skylake …

荒芜了季节 2025-01-20 09:17:19 5 0

在slurm资源指令中使用snakemake使用通配符

我正在使用 Snakemake 创建规则并通过 slurm 在我们的 HPC 上提交作业。为了使输出“更漂亮”,我希望能够在资源指令中设置 job_name 参数,以便将使…

残花月 2025-01-19 12:49:35 3 0

运行多个文件作业用一个sbatch

我想运行n个文件(n个作业),这些文件(n个作业)在我的pwd中的n个文件夹中: Folder_1 contains file_1 Folder_2 contains file_2 | | | Folder_N c…

彩虹直至黑白 2025-01-19 11:36:05 7 0

是什么导致了我的随机:“joblib.externals.loky.process_executor.TermulatedWorkerError”错误?

我正在制作基于GIS的数据分析,在该分析中,我计算了全国范围的广泛预测图(例如天气地图等)。因为我的目标区域非常大(整个国家),所以我使用的是…

Oo萌小芽oO 2025-01-19 09:27:31 8 0

Pytorch从Slurm Job中发现超过1 GPU

我正在使用 SLURM 从超级计算机为我的 ML 作业分配一些 GPU 节点。 对于单个 GPU(1 个节点),一切正常,但当为超过 1 个作业设置 SLURM 脚本时,pyt…

喜爱纠缠 2025-01-18 14:03:19 1 0

检索数组提交脚本

我正在寻找 sacct -j -B 与数组相同的功能,以查找用于提交作业数组的脚本。 不幸的是,使用上面的命令查找数组中任何作业的提交脚本都会产生“NONE”…

自在安然 2025-01-18 12:59:52 1 0

使用 DistributedDataParallel 的多节点处理给我一个权限被拒绝的错误

我正在尝试在大学超级计算机上使用 Pytorch 的 DistributedDataParallel 实现多节点作业,我使用端口 22 通过 ssh 登录。 " rel="nofollow noreferrer…

随波逐流 2025-01-18 09:10:18 3 0

MPI通过slurm结合秩与特定节点

我使用 sbatch 来分配具有(比方说)8 个等级的 MPI 作业。 我使用 4 个节点:node0[01-04]。 我想将排名 0 绑定到第一个节点 (node001),将其他排名…

っ〆星空下的拥抱 2025-01-17 23:50:34 6 0

锁定文件夹

我正在使用 slurm 来训练模型。现在,我需要与我的队友共享计算资源,但我在slurm中存储了一些机密数据。因此,我想为某个文件夹添加密码。但我没有ro…

陈甜 2025-01-17 14:27:28 2 0

切换 HPC 作业

我正在尝试找到一种便捷的方式来浏览我在 HPC 系统上提交的作业。目前,我在 .bashrc 中定义了该函数 peek() {ccc_mpeek "$1" | less;} ,其中 ccc_mp…

提笔落墨 2025-01-17 09:25:02 3 0

运行Python文件SLURM - 访问数据

每个人!我是 SLURM 领域的新手,所以如果这个问题看起来很愚蠢,我很抱歉。 我必须使用一个无法保存在我的电脑中的庞大数据库,因此我可以访问 SLURM…

情绪少女 2025-01-16 07:48:26 2 0

如果第一个命令未分配,则通过 slurm 调度程序暂停 os.system 命令

我在多节点集群上多次运行脚本,并且该脚本在集群上按顺序处理数据。这是代码: import os os.system("srun -p rs2 --mem-per-cpu 200G -t 7-23:00:00…

中性美 2025-01-16 00:07:21 4 0

将输入参数从 bash 脚本移至可执行文件

我目前正在尝试编写一个 bash 脚本,该脚本使用一些输入参数运行我的可执行文件。大多数输入参数是在脚本内部设置的,其中一些参数会传递到 bash 脚本…

够钟 2025-01-15 21:14:34 4 0

Slurm 新的工作节点

我想搭建一个自动创建和删除节点的集群环境。这些作业将使用 Slurm 分发到各个节点。 两个问题: Slurm 工作节点是否有一个代理或类似的东西,以便节…

无语# 2025-01-15 17:11:10 4 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文