集群故障,急!!
ibmx255*2+太科410盘柜+turbo linuxHA集群,现在集群过一周左右就会宕掉,先一台服务器ping不通,接着两台都ping不通,若重启服务器常常在自检阵列卡时过不去,可盘柜状态一直为ready;这时需关闭盘柜和服务器,然后顺序启盘柜、服务器一切正常,请高手指点!!!
另有没有监控集群状态的软件?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(5)
日志呢?
当你ping不通的时候,这2台机器心跳线状态如何?
log查了没有?
机器上跑什么服务?down机的时候服务器在做什么?
症状描述了,troubleshooting 的information gathering 呢?
好像一个病人去看病,对医生说,我头痛,我牙痛,我咳嗽,然后看着医生,没有体温,没有验血,没有口腔检查,什么都没有.能够判断出病情的估计只有神仙了.
顶楼不像是专门搞技术的. 技术手段依赖完整的信息搜集和逻辑性分析,可惜这两点都看不到.
我以前也遇到过这种问题,不知道安装的是哪个版本的系统,把内核升级一切问题都可以解决.
我们两套pc-cluster都有这个问题,现在都已解决,如有需要帮忙可以和我联系,共同讨论