我的service guard 的双机环境主机自动重起问题？？？

发布于 2022-07-07 08:38:58 字数 1865 浏览 6 评论 7

我有两台SUSE LINUX 的主机，用HP的service guard 作双机。
奇怪问题是主机每隔20几天就会自动重起一次，应用自动就会切换。主机自动重起，对我们的维护造成很大问题。
下面是每次重起时，在/var/log/warn 的日志记录：
Dec 18 03:50:56 erefill01 kernel: ERROR: SCSI host `cciss' has no error handling
Dec 18 03:50:56 erefill01 kernel: ERROR: This is not a safe way to run your SCSI host
Dec 18 03:50:56 erefill01 kernel: ERROR: The error handling must be added to this driver
Dec 18 03:50:56 erefill01 kernel: Call Trace:
Dec 18 03:50:56 erefill01 kernel:  [<f902f5d1>] scsi_host_alloc+0x2b1/0x2d0 [scsi_mod]
Dec 18 03:50:56 erefill01 kernel:  [<f9051f4b>] cciss_proc_write+0x1ab/0x290 [cciss]
Dec 18 03:50:56 erefill01 kernel:  [<c011e6f3>] do_page_fault+0x183/0x59a
Dec 18 03:50:56 erefill01 kernel:  [<c01645f2>] __do_mmap_pgoff+0xf2/0x1a0
Dec 18 03:50:56 erefill01 kernel:  [<c01a991f>] proc_file_write+0x2f/0x40
Dec 18 03:50:56 erefill01 kernel:  [<c0173646>] vfs_write+0xc6/0x160
Dec 18 03:50:56 erefill01 kernel:  [<c011043d>] do_mmap2+0xdd/0x170
Dec 18 03:50:56 erefill01 kernel:  [<c01738f1>] sys_write+0x91/0xf0
Dec 18 03:50:56 erefill01 kernel:  [<c0109199>] sysenter_past_esp+0x52/0x71
Dec 18 03:50:56 erefill01 kernel:
Dec 18 03:50:56 erefill01 kernel: deadman: unsupported module, tainting kernel.
Dec 18 03:50:56 erefill01 kernel: Deadman: 2.1 minor: 62
Dec 18 03:50:56 erefill01 kernel: DEADMAN: System is set to reboot when the safety time expires

--------------------------------------------------
最后的提示“ DEADMAN: System is set to reboot when the safety time expires”，是何意思，请大家帮忙。

------------------
大家有没有遇到类似的主机老自动重起问题，希望能给谢建议，非常感谢！！！！1

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

你在看孤独的风景 2022-07-16 08:23:40

原帖由 jimmy_nokia 于 2006-1-16 15:45 发表
现在从HP 得到确认，SUSE9 上的service guard 有一个BUG要修正。
SG要升级到11.16.03 。打一个补丁。

呵呵，就是这样.

回复收藏 0

堇色安年 2022-07-16 08:22:48

现在从HP 得到确认，SUSE9 上的service guard 有一个BUG要修正。
SG要升级到11.16.03 。打一个补丁。

回复收藏 0

尬尬 2022-07-16 08:20:38

谢谢你的建议！
等搞定再回来汇报。

回复收藏 0

梦里人 2022-07-16 06:17:21

原帖由 jimmy_nokia 于 2006-1-12 14:40 发表
是的，楼主是？？
我们的主机又重起这几日，和上次时间距24天20分，看来每次间隔时间一样。真是不知如何是好？
谢谢楼主的建议！
可否多share 些这方面的经验。

你们的问题的根源需要到HP找到真正帮你们解决问题的人，老是push sales来弄或者依赖什么partner是搞不好技术上的事情的，两边的人都苦透.

说老实话你这个问题，不到现场做troubleshooting, 就这样在bbs上一个贴子来，一个帖子去的，基本上没有什么效果.

如果大家都可以看着别人的手册和经验，自己都成专家高手了，也太容易了. (这句话是写给那些不停的要别人给这个手册给那个手册，看到手册就抓狂的同学们的,嘿嘿).

回到你们的问题上来，靠法帖子和你少得可怜的描述，我根本没有办法帮你，也不愿意帮你.

你还是看看我置定的帖子，仔细的一项项核对你的环境，把你的环境升级整理干净了. 然后如果问题还存在，你要做的事情如下:

1. 从HP拿到最新的MC/SG 的Product Advisory, 是一种内部的产品故障通报资料, 查看你的11.15是否存在问题.
2. 从HP购买最新的 11.16.X  (这个我前面就说过了).
3.  review你的application 的配置方法， HA系统不是让他架起就可以的，你的App的配置(那些toolkit)要严格保证它的正确性(包括本身的正确性和配置的正确性).
4. 我不知道你用了什么SG/LX的 toolkit, apache, mysql 之类你可以从hp free obtain 的toolkit 是不做人和质量和服务保证的. 我自己就修改过apache toolkit的一部分(v11.16.01), 你们如果技术还行，就自己修改巴.  SG/LX 不算toolkit,2个node费用才不过25k以内搞定，要便宜，又要好，这个世界上根本不存在这样的产品，包括所有的opensource enterprise solution.

回复收藏 0