请教解决方案
先把我们现有的情况说一下:
大概20台普通台式机,有两核,也有4核的,都是32位X86结构,内存基本上是2~4G
全部用100M以太网连接
SGE调度系统
利用NFS实现文件共享,每个机器共享出自己的硬盘
主要运行程序为C++程序,每个程序运行时间少则几分钟,多则1个小时,需要几G到100G的硬盘数据。
现在面临的问题有:
*) 可用性不高,经常碰到有机器出错,可能是硬盘,也可能是其他未知原因。
*) 性能不高,比如C++工程编译,在4核机器上,单机并行编译比提交到Grid上并行编译要快
*) 没有好的性能监测工具
*) 没有专有的管理员
请大家帮忙出出主意,谢谢。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
你们现在要搭建监控系统还怎么的嘛!没有太明白你的意思!
zhuimeng258,您好!
我们的现状如此,想改进该系统,同时解决列举的问题。
做集群和搭建监控系统!
zhuimeng258,您好!
能稍微详细一点吗? 我们已经用SGE把所有的机器连了起来,监控系统有什么推荐吗?