当前位置：文江博客话题详情

如何在不可靠的集群上分发程序？

发布于 2024-07-22 04:34:17 字数 296 浏览 2 评论 0原文

我正在寻找的是以下任何/所有内容：

自动发现工作故障（例如计算机关闭）
检测给定 IP 地址范围（计算机打开）上所有正在运行的（linux）PC
...以及自动工作生成（ping + ssh？）
负载平衡，以便工作人员不会减慢其他进程（很好？）
某种形式的消息传递

......并且不想重新发明轮子。

C++ 库、bash 脚本、独立程序……都欢迎。

如果您给出一个软件示例，请告诉我们它具有哪些上述功能。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

漫雪独思 2024-07-29 04:34:17

查看 Spread 工具包，这是一个 C/C++ 群组通信系统。它将允许您以允许您重新平衡分布式工作负载的方式检测节点/进程故障和恢复/启动。

回复收藏 0 原文

满栀 2024-07-29 04:34:17

您正在寻找的称为“作业调度程序”。市场上有很多作业调度程序，这些是我熟悉的：

SGE处理与多台机器上的作业调度相关的所有问题（恢复、监视、优先级、排队）。您的软件不必支持 SGE，因为 SGE 只是提供一个供您提交批处理作业的环境。
LSF 是一个更好的选择，但不是免费的。

要支持消息传递，请参阅 MPI 规范。 SGE完全支持基于MPI的分发。

回复收藏 0 原文

把时间冻结 2024-07-29 04:34:17

根据您的应用程序要求，我会检查 BOINC 基础设施。他们在最新版本中实现了一种客户端/服务器通信形式，但尚不清楚您需要哪种形式的通信。他们的 API 是用 C 语言编写的，我们很容易用 C++ 编写了它的包装器。

BOINC 的另一个优势是，它旨在针对 SETI 或 Rosetta@Home 等大型分布式计算项目进行扩展，因此它支持验证、作业分配以及针对不同平台的不同应用程序版本的管理等功能。

链接如下：

BOINC 网站

回复收藏 0 原文

比忠 2024-07-29 04:34:17

有 Hadoop。它有 MapReduce，但我不确定它是否还有我需要的其他功能。有人知道吗？

回复收藏 0 原文

凡尘雨 2024-07-29 04:34:17

您确实在寻找“工作调度程序”。节点“静态”注册到作业调度程序。这允许作业调度程序检查节点并确定核心数量、RAM、可用暂存盘空间、操作系统等。所有这些信息都可用于选择作业所需的资源。

作业调度程序还提供集群的基本运行状况监控。关闭的节点会自动从可用节点列表中删除。正在运行作业（通过调度程序）的节点也会从可用节点列表中删除。

SLURM 是一个资源管理器和您可能会考虑的作业调度程序。 SLURM 具有 LSF 和 PBSPro 的集成挂钩。一些 MPI 实现是“SLURM 感知”的，并且可以使用/设置环境变量，这些变量将允许 MPI 作业在 SLURM 分配给它的节点上运行。

回复收藏 0 原文

~没有更多了~

关于作者

_蜘蛛

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

如何在不可靠的集群上分发程序？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

如何在不可靠的集群上分发程序？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。