我的service guard 的双机环境主机自动重起问题???
我有两台SUSE LINUX 的主机,用HP的service guard 作双机。
奇怪问题是主机每隔20几天就会自动重起一次,应用自动就会切换。主机自动重起,对我们的维护造成很大问题。
下面是每次重起时,在/var/log/warn 的日志记录:
Dec 18 03:50:56 erefill01 kernel: ERROR: SCSI host `cciss' has no error handling
Dec 18 03:50:56 erefill01 kernel: ERROR: This is not a safe way to run your SCSI host
Dec 18 03:50:56 erefill01 kernel: ERROR: The error handling must be added to this driver
Dec 18 03:50:56 erefill01 kernel: Call Trace:
Dec 18 03:50:56 erefill01 kernel: [<f902f5d1>] scsi_host_alloc+0x2b1/0x2d0 [scsi_mod]
Dec 18 03:50:56 erefill01 kernel: [<f9051f4b>] cciss_proc_write+0x1ab/0x290 [cciss]
Dec 18 03:50:56 erefill01 kernel: [<c011e6f3>] do_page_fault+0x183/0x59a
Dec 18 03:50:56 erefill01 kernel: [<c01645f2>] __do_mmap_pgoff+0xf2/0x1a0
Dec 18 03:50:56 erefill01 kernel: [<c01a991f>] proc_file_write+0x2f/0x40
Dec 18 03:50:56 erefill01 kernel: [<c0173646>] vfs_write+0xc6/0x160
Dec 18 03:50:56 erefill01 kernel: [<c011043d>] do_mmap2+0xdd/0x170
Dec 18 03:50:56 erefill01 kernel: [<c01738f1>] sys_write+0x91/0xf0
Dec 18 03:50:56 erefill01 kernel: [<c0109199>] sysenter_past_esp+0x52/0x71
Dec 18 03:50:56 erefill01 kernel:
Dec 18 03:50:56 erefill01 kernel: deadman: unsupported module, tainting kernel.
Dec 18 03:50:56 erefill01 kernel: Deadman: 2.1 minor: 62
Dec 18 03:50:56 erefill01 kernel: DEADMAN: System is set to reboot when the safety time expires
--------------------------------------------------
最后的提示“ DEADMAN: System is set to reboot when the safety time expires”,是何意思,请大家帮忙。
------------------
大家有没有遇到类似的主机老自动重起问题,希望能给谢建议,非常感谢!!!!1
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
呵呵,就是这样.
现在从HP 得到确认 ,SUSE9 上的service guard 有一个BUG要修正。
SG要升级到11.16.03 。打一个补丁。
谢谢你的建议!
等搞定再回来汇报。
你们的问题的根源需要到HP找到真正帮你们解决问题的人,老是push sales来弄或者依赖什么partner是搞不好技术上的事情的,两边的人都苦透.
说老实话你这个问题,不到现场做troubleshooting, 就这样在bbs上一个贴子来,一个帖子去的,基本上没有什么效果.
如果大家都可以看着别人的手册和经验,自己都成专家高手了,也太容易了. (这句话是写给那些不停的要别人给这个手册给那个手册,看到手册就抓狂的同学们的,嘿嘿).
回到你们的问题上来,靠法帖子和你少得可怜的描述,我根本没有办法帮你,也不愿意帮你.
你还是看看我置定的帖子,仔细的一项项核对你的环境,把你的环境升级整理干净了. 然后如果问题还存在,你要做的事情如下:
1. 从HP拿到最新的MC/SG 的Product Advisory, 是一种内部的产品故障通报资料, 查看你的11.15是否存在问题.
2. 从HP购买最新的 11.16.X (这个我前面就说过了).
3. review你的application 的配置方法, HA系统不是让他架起就可以的,你的App的配置(那些toolkit)要严格保证它的正确性(包括本身的正确性和配置的正确性).
4. 我不知道你用了什么SG/LX的 toolkit, apache, mysql 之类你可以从hp free obtain 的toolkit 是不做人和质量和服务保证的. 我自己就修改过apache toolkit的一部分(v11.16.01), 你们如果技术还行,就自己修改巴. SG/LX 不算toolkit,2个node费用才不过25k以内搞定,要便宜,又要好,这个世界上根本不存在这样的产品,包括所有的opensource enterprise solution.
是的,楼主是??
我们的主机 又重起这几日,和上次时间距24天20分,看来每次间隔时间一样。真是不知如何是好?
谢谢楼主的建议!
可否多share 些这方面的经验。
1. upgrade kernel 到你这个版本最新的
2. install 最新的cciss 驱动
3. 把两边的hba 卡还有你的500的controller都升到最新的
4. 升级到MC/SG for linux 11.16.X
江西的Nokia恩?
请大家给看看