阵列突然丢失,请教怎么回事?
两台HP560 + 磁盘阵列 双机集群
昨天突然出现两台服务器认不到阵列的问题,重启动服务器后一切又回复正常,message日志文件(一部分)如下记录:
Mar 5 04:02:22 localhost syslogd 1.4.1: restart.
Mar 5 04:48:51 localhost kernel: tg3: eth1: Link is down.
Mar 5 04:48:51 localhost clusvcmgrd[1523]: <crit> Invalid reply!
Mar 5 04:48:54 localhost kernel: tg3: eth1: Link is up at 1000 Mbps, full duplex.
Mar 5 04:48:54 localhost kernel: tg3: eth1: Flow control is off for TX and off for RX.
Mar 5 04:48:54 localhost kernel: scsi(0): LOOP DOWN detected.
Mar 5 04:48:56 localhost clusvcmgrd[1523]: <crit> Couldn't connect to member #0: Connection timed out
Mar 5 04:48:56 localhost clusvcmgrd[1523]: <err> Unable to obtain cluster lock: No locks available
Mar 5 04:49:02 localhost kernel: scsi(0): LOOP DEAD detected.
Mar 5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar 5 04:49:02 localhost kernel: I/O error: dev 08:03, sector 9728
Mar 5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar 5 04:49:02 localhost kernel: I/O error: dev 08:03, sector 9736
Mar 5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar 5 04:49:02 localhost kernel: I/O error: dev 08:03, sector 9744
Mar 5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar 5 04:49:02 localhost kernel: I/O error: dev 08:02, sector 289
Mar 5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar 5 04:49:04 localhost kernel: I/O error: dev 08:03, sector 9752
Mar 5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar 5 04:49:04 localhost kernel: I/O error: dev 08:03, sector 9760
Mar 5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar 5 04:49:04 localhost kernel: I/O error: dev 08:03, sector 9768
Mar 5 04:49:06 localhost cluquorumd[1502]: <warning> --> Commencing STONITH <--
Mar 5 04:49:06 localhost cluquorumd[1502]: <warning> STONITH: Falsely claiming that 10.0.11.153 has been fenced
Mar 5 04:49:06 localhost cluquorumd[1502]: <crit> STONITH: Data integrity may be compromised!
Mar 5 04:52:19 localhost syslogd 1.4.1: restart.
Mar 5 04:52:19 localhost syslog: syslogd startup succeeded
Mar 5 04:52:19 localhost kernel: klogd 1.4.1, log source = /proc/kmsg started.
Mar 5 04:52:19 localhost kernel: Linux version 2.4.21-27.ELsmp (bhcompile@bugs.build.redhat.com) (gcc version 3.2.3 20030502 (Red Hat Linux 3.2.3-47)) #1 SMP Wed Dec 1 21:59:02 EST 2004
Mar 5 04:52:19 localhost kernel: BIOS-provided physical RAM map:
Mar 5 04:52:19 localhost kernel: BIOS-e820: 0000000000000000 - 000000000009f400 (usable)
Mar 5 04:52:19 localhost kernel: BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
Mar 5 04:52:19 localhost kernel: BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
Mar 5 04:52:19 localhost kernel: BIOS-e820: 0000000000100000 - 000000007fffa000
请教各位,这个阵列丢失是什么原因造成的?谢谢!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
1. linux update到U5. Cluster suite update到最新, 犯不着和已经存在,被发现和已经修正的bugs堵劲.
2. 把心跳换掉,用一根肯定没有问题的交叉线替代掉. 替掉后,仔细检查你的这个专门用来做心跳的switch 的通信状况.
3. 如果故障出现在晚上并且是人很少的时候,你就要更加当心了. 所以才建议你 第一条
4. 你贴出来的message的第一行明明是一个restart.
还有我是认真对待你这个问题的,麻烦以后回答问题的时候也稍微详细点仔细点, 另外建议认真阅读置顶的那个帖子.
AS3.0有Update 1 ,update 2 update 3 update 4 update 5 update 6 这几个版本,你总得说清楚把,都3个帖子来回了,还不说清楚.
还有我问的"是否这个switch上除了heartbeat signal还有data在跑?" 你也没有回答.....
还有你第一行messages 的restart,你也没有说明.....
这里的大家看不到,听不到,摸不到你的机器,交待的清楚点,虽然不能保证找到问题或者解决,至少可以方便大家给你更精确的建议,方便你的检查工作.
考虑下系统和硬件的兼容性。。
1. 我使用的是LINUX AS3.0,不是最新版本的;我只查看了这一个log日志,请问RH bugtraq 关于此故障的记录在什么地方查找?
2.两台服务器上分别是oracle 和 domino,并且都在运行,我的心跳线在switch上面
3.出现故障是晚上时间,没有什么人访问,所以I/O很少。
4.检查message日志,在此之前的记录都是正常的,发生故障前系统运行正常。
麻烦在帮助分析一下,谢谢!
呵呵, 其实看到你在系统管理板块贴出来的log 的时候,我让你转贴到这里来,就是因为看到log的前面几行的时候,就觉得特别眼熟,
我想问几个问题:
1. cluster 的版本和kernel 版本是否是最新的patched, 检查过RH bugtraq关于这个故障的纪录么?
2. 你的心跳线是直接corssover cable还是接到了switch上?如果是switch上,是否这个switch上除了heartbeat signal还有data在跑?
3. 出现故障的时候,这个机器在那个时间段,是否在处理很大的I/O方面的操作?
看你log 第一行,就是一个restart,估计问题之前还有发生,在不断的restart.