slrum 在多个节点上运行一项作业
我有一个 R 脚本,它通过 parallel 和 future 包使用并行计算。在 R 脚本中设置并行配置的代码是: cl <- parallel::makeCluster(100) future::plan(c…
在 slurm 脚本中添加两个变量
我正在使用 slurm scirpt 处理 fmri 数据,我可以在数组中给出的最大值是 999,但我的主题名称超过 1000。 所以我需要在我的 slurm 脚本中添加一个内…
在同一节点上使用不同的 GPU 类型和 SLURM
我正在设置一个 GPU“集群”,由一组工程师用作训练 DL 模型的资源池。我们不希望每个作业使用多个 GPU。 从 文档 来看,同一节点上似乎可以有不同类…
在“时间限制”上写入日志
我在工作期间运行了一堆命令。例如: #!/bin/bash -l #SBATCH --time 1-00:00:00 #SBATCH --nodes 1 #SBATCH --ntasks 1 #SBATCH --cpus-per-task 1 #…
如何在 Slurm 上运行 Pytorch 脚本?
我正在努力使用一个基本的 python 脚本,该脚本使用 Pytorch 在 Slurm 上打印 CUDA 设备。 这是sinfo 的输出。 (ml) [s.1915438@sl2 pytorch_gpu_chec…
创建 SLURM 多集群设置时 munge 凭据无效
我正在构建一个 SLURM 多集群设置,其中有一个本地托管的 slurmdbd 和 Oracle 云中的 slurmctld 节点。 slurmctld 能够连接到 slurmdbd,但当我尝试以…
无法使用字符串参数从 bash 脚本运行 python 脚本
我想从 bash 脚本运行它,但它不接受带空格的字符串输入。它适用于单个单词或连字符的单词。然而,当我直接从终端运行它时,python 命令是正确的并且…
Slurm - 作业运行,获取数据但给出超时错误
因此,我正在运行一些代码,在集群上运行大约需要 2 小时。我使用 Just 配置了批处理文件, # Set maximum wallclock time limit for this job #Time …
在 slurm 上并行重复一项任务 100 次
我是集群计算的新手,我想在 python 上重复一项实证实验 100 次。对于每个实验,我需要生成一组数据并解决一个优化问题,然后我想获得平均值。为了节…
在 Java 中从字符串创建文件时添加了奇怪的字符
当尝试在 Java 中创建 bash 脚本(.sh 文件)时,随机字符会添加到文件的开头。 因此,使用 sbatch 命令提交脚本时,该脚本会被 SLURM 拒绝。 我的代…
通过 SLURM 连续运行多个文件,并设置单独的超时
我有一个在 HPC 上运行的 python 脚本,它获取文本文件中的文件列表并启动多个 SBATCH 运行: ./launch_job.sh 0_folder_file_list.txt launch_job.sh…
SBATCH -n 和 srun -np
在下面的 sbatch 脚本中,“np”(48) 优先于“ntasks”还是仅使用 24 个任务来运行。换句话说,当“np”大于“ntasks”或“np”等于“ntasks * N”时…
彼此独立地运行并行 bash 命令
我有一个由 40 个 nproc 组成的集群,其中我的软件一次使用 10 个核心。 我想从单个 bash 脚本一次运行 4 个任务(作业脚本),每当一个任务完成时,…