继续重试 HPC 任务，直到资源可用 (Windows HPC Server 2008 R2 SP3)

发布于 2024-11-26 13:44:30 字数 708 浏览 0 评论 0原文

HPC 任务要么成功，要么失败，但是如何将“稍后再试”传达给调度程序，当然我可以使用失败并重新提交任务，但我需要一种方法来确定我是否因为某些内容损坏而失败（放弃）或者稍后重试，因为此任务正在等待另一个任务（并继续尝试，直到我们出错或成功完成）

是否有办法使用 HPC API 或类似的方法来实现此目的？据我所知，任何非零的东西都是失败，零都是成功，就是这样，肯定有一个很好的方法来实现这种“稍后尝试”的行为。

背景

我们试图在一个作业中运行多个 HPC 任务，这些任务之间存在复杂的相互依赖关系，因为当第一个任务正在执行时，其他任务会等待，直到第一个任务处理完足够的时间。数据，以便它们可以开始（有点级联执行，但不是以任何简单的顺序，因此我们无法在 HPC 中定义依赖关系）。

最初，我试图让这些多个任务在多个核心之间共享，这样它们就可以在等待主任务完成他们感兴趣的任务时休眠。类似于 Windows 分时进程的方式。现在很明显，HPC（根据设计！）仅允许每个核心一个任务因此，如果您有一台八核机器，则一次只能运行八个任务。

解决方案似乎是使用批处理文件或类似的方式生成多个进程，但是在我走这条路之前，我想知道上述问题是否可行。

需要登录才能够评论，你可以免费注册一个本站的账号。

梦太阳 2024-12-03 13:44:30

不幸的是，任务失败时无法导致调度程序重试。
正如您所怀疑的，推荐的方法是让每个任务运行一个批处理文件或 powershell 脚本来启动您想要启动的所有进程。
如果您不想这样做，SP2 中的 HPC 调度程序现在允许核心超额订阅（每个核心多个任务），这可能适用于解决您的问题。有关如何设置的指南，请参阅此处：超额订阅集群节点上的核心数量

~没有更多了~