阵列突然丢失,请教怎么回事?

发布于 2022-07-12 00:39:25 字数 3839 浏览 9 评论 4

两台HP560 + 磁盘阵列 双机集群
昨天突然出现两台服务器认不到阵列的问题,重启动服务器后一切又回复正常,message日志文件(一部分)如下记录:
Mar  5 04:02:22 localhost syslogd 1.4.1: restart.
Mar  5 04:48:51 localhost kernel: tg3: eth1: Link is down.
Mar  5 04:48:51 localhost clusvcmgrd[1523]: <crit> Invalid reply!
Mar  5 04:48:54 localhost kernel: tg3: eth1: Link is up at 1000 Mbps, full duplex.
Mar  5 04:48:54 localhost kernel: tg3: eth1: Flow control is off for TX and off for RX.
Mar  5 04:48:54 localhost kernel: scsi(0): LOOP DOWN detected.
Mar  5 04:48:56 localhost clusvcmgrd[1523]: <crit> Couldn't connect to member #0: Connection timed out
Mar  5 04:48:56 localhost clusvcmgrd[1523]: <err> Unable to obtain cluster lock: No locks available
Mar  5 04:49:02 localhost kernel: scsi(0): LOOP DEAD detected.
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9728
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9736
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9744
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:02, sector 289
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9752
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9760
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9768
Mar  5 04:49:06 localhost cluquorumd[1502]: <warning> --> Commencing STONITH <--
Mar  5 04:49:06 localhost cluquorumd[1502]: <warning> STONITH: Falsely claiming that 10.0.11.153 has been fenced
Mar  5 04:49:06 localhost cluquorumd[1502]: <crit> STONITH: Data integrity may be compromised!
Mar  5 04:52:19 localhost syslogd 1.4.1: restart.
Mar  5 04:52:19 localhost syslog: syslogd startup succeeded
Mar  5 04:52:19 localhost kernel: klogd 1.4.1, log source = /proc/kmsg started.
Mar  5 04:52:19 localhost kernel: Linux version 2.4.21-27.ELsmp (bhcompile@bugs.build.redhat.com) (gcc version 3.2.3 20030502 (Red Hat Linux 3.2.3-47)) #1 SMP Wed Dec 1 21:59:02 EST 2004
Mar  5 04:52:19 localhost kernel: BIOS-provided physical RAM map:
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 0000000000000000 - 000000000009f400 (usable)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 0000000000100000 - 000000007fffa000

请教各位,这个阵列丢失是什么原因造成的?谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

野鹿林 2022-07-22 00:43:38

原帖由 wwchai 于 2006-3-11 13:49 发表
1. 我使用的是LINUX AS3.0,不是最新版本的;我只查看了这一个log日志,请问RH bugtraq 关于此故障的记录在什么地方查找?
2.两台服务器上分别是oracle 和 domino,并且都在运行,我的心跳线在switch上面
3.出现 ...

1. linux update到U5.  Cluster suite update到最新, 犯不着和已经存在,被发现和已经修正的bugs堵劲.

2. 把心跳换掉,用一根肯定没有问题的交叉线替代掉. 替掉后,仔细检查你的这个专门用来做心跳的switch 的通信状况.

3. 如果故障出现在晚上并且是人很少的时候,你就要更加当心了.  所以才建议你 第一条

4. 你贴出来的message的第一行明明是一个restart.

还有我是认真对待你这个问题的,麻烦以后回答问题的时候也稍微详细点仔细点, 另外建议认真阅读置顶的那个帖子.

AS3.0有Update 1 ,update 2 update 3 update 4 update 5 update 6 这几个版本,你总得说清楚把,都3个帖子来回了,还不说清楚.

还有我问的"是否这个switch上除了heartbeat signal还有data在跑?" 你也没有回答.....

还有你第一行messages 的restart,你也没有说明.....

这里的大家看不到,听不到,摸不到你的机器,交待的清楚点,虽然不能保证找到问题或者解决,至少可以方便大家给你更精确的建议,方便你的检查工作.

别靠近我心 2022-07-22 00:28:24

考虑下系统和硬件的兼容性。。

人间不值得 2022-07-21 21:55:14

1. 我使用的是LINUX AS3.0,不是最新版本的;我只查看了这一个log日志,请问RH bugtraq 关于此故障的记录在什么地方查找?
2.两台服务器上分别是oracle 和 domino,并且都在运行,我的心跳线在switch上面
3.出现故障是晚上时间,没有什么人访问,所以I/O很少。
4.检查message日志,在此之前的记录都是正常的,发生故障前系统运行正常。

麻烦在帮助分析一下,谢谢!

凉城凉梦凉人心 2022-07-21 02:54:00

呵呵, 其实看到你在系统管理板块贴出来的log 的时候,我让你转贴到这里来,就是因为看到log的前面几行的时候,就觉得特别眼熟,

我想问几个问题:

1. cluster 的版本和kernel 版本是否是最新的patched, 检查过RH bugtraq关于这个故障的纪录么?
2. 你的心跳线是直接corssover cable还是接到了switch上?如果是switch上,是否这个switch上除了heartbeat signal还有data在跑?
3. 出现故障的时候,这个机器在那个时间段,是否在处理很大的I/O方面的操作?

看你log 第一行,就是一个restart,估计问题之前还有发生,在不断的restart.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文