我的service guard 的双机环境主机自动重起问题???

发布于 2022-07-07 08:38:58 字数 1865 浏览 6 评论 7

我有两台SUSE LINUX 的主机,用HP的service guard 作双机。
奇怪问题是主机每隔20几天就会自动重起一次,应用自动就会切换。主机自动重起,对我们的维护造成很大问题。
下面是每次重起时,在/var/log/warn 的日志记录:
Dec 18 03:50:56 erefill01 kernel: ERROR: SCSI host `cciss' has no error handling
Dec 18 03:50:56 erefill01 kernel: ERROR: This is not a safe way to run your SCSI host
Dec 18 03:50:56 erefill01 kernel: ERROR: The error handling must be added to this driver
Dec 18 03:50:56 erefill01 kernel: Call Trace:
Dec 18 03:50:56 erefill01 kernel:  [<f902f5d1>] scsi_host_alloc+0x2b1/0x2d0 [scsi_mod]
Dec 18 03:50:56 erefill01 kernel:  [<f9051f4b>] cciss_proc_write+0x1ab/0x290 [cciss]
Dec 18 03:50:56 erefill01 kernel:  [<c011e6f3>] do_page_fault+0x183/0x59a
Dec 18 03:50:56 erefill01 kernel:  [<c01645f2>] __do_mmap_pgoff+0xf2/0x1a0
Dec 18 03:50:56 erefill01 kernel:  [<c01a991f>] proc_file_write+0x2f/0x40
Dec 18 03:50:56 erefill01 kernel:  [<c0173646>] vfs_write+0xc6/0x160
Dec 18 03:50:56 erefill01 kernel:  [<c011043d>] do_mmap2+0xdd/0x170
Dec 18 03:50:56 erefill01 kernel:  [<c01738f1>] sys_write+0x91/0xf0
Dec 18 03:50:56 erefill01 kernel:  [<c0109199>] sysenter_past_esp+0x52/0x71
Dec 18 03:50:56 erefill01 kernel:
Dec 18 03:50:56 erefill01 kernel: deadman: unsupported module, tainting kernel.
Dec 18 03:50:56 erefill01 kernel: Deadman: 2.1 minor: 62
Dec 18 03:50:56 erefill01 kernel: DEADMAN: System is set to reboot when the safety time expires

--------------------------------------------------
最后的提示“ DEADMAN: System is set to reboot when the safety time expires”,是何意思,请大家帮忙。

------------------
大家有没有遇到类似的主机老自动重起问题,希望能给谢建议,非常感谢!!!!1

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

你在看孤独的风景 2022-07-16 08:23:40

原帖由 jimmy_nokia 于 2006-1-16 15:45 发表
现在从HP 得到确认 ,SUSE9 上的service guard 有一个BUG要修正。
SG要升级到11.16.03 。打一个补丁。

呵呵,就是这样.

堇色安年 2022-07-16 08:22:48

现在从HP 得到确认 ,SUSE9 上的service guard 有一个BUG要修正。
SG要升级到11.16.03 。打一个补丁。

尬尬 2022-07-16 08:20:38

谢谢你的建议!
等搞定再回来汇报。

梦里人 2022-07-16 06:17:21

原帖由 jimmy_nokia 于 2006-1-12 14:40 发表
是的,楼主是??
我们的主机 又重起这几日,和上次时间距24天20分,看来每次间隔时间一样。真是不知如何是好?
谢谢楼主的建议!

可否多share 些这方面的经验。

你们的问题的根源需要到HP找到真正帮你们解决问题的人,老是push sales来弄或者依赖什么partner是搞不好技术上的事情的,两边的人都苦透.

说老实话你这个问题,不到现场做troubleshooting, 就这样在bbs上一个贴子来,一个帖子去的,基本上没有什么效果.

如果大家都可以看着别人的手册和经验,自己都成专家高手了,也太容易了. (这句话是写给那些不停的要别人给这个手册给那个手册,看到手册就抓狂的同学们的,嘿嘿).

回到你们的问题上来,靠法帖子和你少得可怜的描述,我根本没有办法帮你,也不愿意帮你.

你还是看看我置定的帖子,仔细的一项项核对你的环境,把你的环境升级整理干净了. 然后如果问题还存在,你要做的事情如下:

1. 从HP拿到最新的MC/SG 的Product Advisory, 是一种内部的产品故障通报资料, 查看你的11.15是否存在问题.
2. 从HP购买最新的 11.16.X  (这个我前面就说过了).
3.  review你的application 的配置方法, HA系统不是让他架起就可以的,你的App的配置(那些toolkit)要严格保证它的正确性(包括本身的正确性和配置的正确性).
4. 我不知道你用了什么SG/LX的 toolkit, apache, mysql 之类你可以从hp free obtain 的toolkit 是不做人和质量和服务保证的. 我自己就修改过apache toolkit的一部分(v11.16.01), 你们如果技术还行,就自己修改巴.  SG/LX 不算toolkit,2个node费用才不过25k以内搞定,要便宜,又要好,这个世界上根本不存在这样的产品,包括所有的opensource enterprise solution.

夏有森光若流苏 2022-07-16 05:19:09

是的,楼主是??
我们的主机 又重起这几日,和上次时间距24天20分,看来每次间隔时间一样。真是不知如何是好?
谢谢楼主的建议!

可否多share 些这方面的经验。

拿命拼未来 2022-07-15 00:20:11

1. upgrade kernel 到你这个版本最新的
2. install 最新的cciss 驱动
3. 把两边的hba 卡还有你的500的controller都升到最新的
4. 升级到MC/SG for linux 11.16.X

江西的Nokia恩?

梦中的蝴蝶 2022-07-08 15:07:49

请大家给看看

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文