当前位置：文江博客话题详情

请推荐 Microsoft HPC 的替代方案

发布于 2024-09-07 19:41:05 字数 801 浏览 9 评论 0原文

我们的目标是在集群上实现一个分布式系统，该系统将执行资源消耗大、存储 I/O 较大的基于图像的计算，具有以下特点：

我们发现 Windows HPC Server 2008 (HPCS) R2 在概念上非常接近我们的需求。然而，有一些关键的缺点：

这是我的问题：有人知道和/或有过可以帮助我们的分布式计算框架的经验吗？我们正在使用Windows。

需要登录才能够评论，你可以免费注册一个本站的账号。

草莓酥 2024-09-14 19:41:05

温柔嚣张 2024-09-14 19:41:05

Platform LSF 将满足您所需的一切。它在 Windows 上运行。它是商业的，可以在支持下购买。

是。 1. 有一个专用的管理计算机节点和最多 100 个计算节点。集群必须易于扩展。

是 2. 它是围绕工作任务概念构建的。一个作业可能有 1 到 100,000 个任务。

是 3. 由用户在管理节点上启动的作业会导致在计算节点上创建任务。

是 4. 任务会动态创建其他任务。

是 5. 有些任务可能运行几分钟，而另一些任务可能需要几个小时。

是 6. 任务根据依赖层次结构运行，该层次结构可以动态更新。

是 7. 作业可能会暂停并稍后恢复。

是 8. 每个任务都需要特定的资源，如CPU（核心）、内存和本地硬盘空间。管理者在安排任务时应该意识到这一点。

是 9. 任务将进度和结果反馈给经理。

是 10. 管理器知道任务是活动的还是挂起的。

狂之美人 2024-09-14 19:41:05

您看过Beowulf吗？有很多发行版可供选择，还有很多自定义选项。您应该能够找到满足您需求的东西......

聊慰 2024-09-14 19:41:05

我推荐 Beowulf，因为 Beowulf 的行为更像是一台机器而不是许多工作站。

小情绪 2024-09-14 19:41:05

尝试一下gridgain。这将使运行时添加节点变得非常容易，并且您可以使用 jmx 接口监视/管理集群

寄离 2024-09-14 19:41:05

如果您不介意将项目托管在云中，则可能需要查看 Windows Azure /Appfabric。 AFAIK 它允许您通过工作流程分配作业，并且您可以随着负载的增加动态添加更多工作机器来处理您的作业。

香橙ぽ 2024-09-14 19:41:05

使用Data Synapse Grid Server绝对可以解决此类问题。

有一个专用的管理计算机节点和最多 100 个计算节点。集群必须易于扩展。 是的，一个 Broker 可以轻松处理 2000 个引擎。
它是围绕作业任务概念构建的。一个作业可能有 1 到 100,000 个任务。 是的，我已经排队了超过 250,000 个任务，没有出现任何问题。最终，您将耗尽内存。
由用户在管理器节点上启动的作业会导致在计算节点上创建任务。是
任务会动态创建其他任务。 这是可以完成的，尽管我不推荐这种模型
有些任务可能运行几分钟，而另一些任务可能需要几个小时。是
任务根据依赖层次结构运行，该层次结构可以动态更新。 是的，但我会在网格计算基础设施之外进行管理
该作业可能会暂停并稍后恢复。是
每个任务都需要特定的资源，如 CPU（核心）、内存和本地硬盘空间。管理者在安排任务时应该意识到这一点。是
任务将进度和结果反馈给经理。是