lustre的mds主备切换
现在用drbd+heartbeat做mds的主备切换。
主备机器都是有两块网卡的,其中一个做心跳测试,一个做网络通讯
主mds:eth0:192.168.128.10(通讯)
eth1:192.168.0.1(心跳)
备mds1:eth0:192.168.128.11(通讯)
eth1:192.168.0.2(心跳)
主mds启动后,由heartbeat自动挂载并启动mgs服务。
查看日志/var/log/messages,mgs成功启动并挂载。
备mds1启动后,查看日志/var/log/messages,
Jun 16 14:10:30 mds1 heartbeat: [4252]: info: mds1 wants to go standby [foreign]
Jun 16 14:10:40 md1 heartbeat: [4252]: WARN: No reply to standby request. Standby request cancelled.
意思是不是:mds1想作为备机,但是没有回复mds1的请求,所以请求取消了。
不知道此时备mds1的日志内容是不是正常的?
然后把主mds关机,由heartbeat实现在备机上的自动切换,等了很久都没有启动mgs服务,也没有挂载。
查看/var/log/messages:
Jun 16 14:30:07 mgs1 kernel: [20396.365345] drbd0: peer( Primary -> Secondary )
Jun 16 14:30:37 mgs1 kernel: [20426.588971] drbd0: peer( Secondary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown )
Jun 16 14:30:37 mgs1 kernel: [20426.589268] drbd0: asender terminated
Jun 16 14:30:37 mgs1 kernel: [20426.589347] drbd0: Terminating asender thread
Jun 16 14:30:37 mgs1 kernel: [20426.601783] drbd0: Connection closed
Jun 16 14:30:37 mgs1 kernel: [20426.601940] drbd0: conn( NetworkFailure -> Unconnected )
Jun 16 14:30:37 mgs1 kernel: [20426.602058] drbd0: receiver terminated
Jun 16 14:30:37 mgs1 kernel: [20426.602092] drbd0: Restarting receiver thread
Jun 16 14:30:37 mgs1 kernel: [20426.602108] drbd0: receiver (re)started
Jun 16 14:30:37 mgs1 kernel: [20426.602113] drbd0: conn( Unconnected -> WFConnection )
日志就这么内容了,没有搞明白为什么heartbeat没有启动资源(haresouces)?
查看cat /proc/drbd,
version: 8.3.0 (api:88/proto:86-89)
GIT-hash: 9ba8b93e24d842f0dd3fb1f9b90e8348ddb95829 build by root@web1, 2009-06-12 13:34:57
0: cs:WFConnection ro:Secondary/Unknown ds:UpToDate/DUnknown C r---
ns:0 nr:5124 dw:5124 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
也没有切换为primary
请各位大牛帮帮忙吧。很急的!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
Make sure your DRBD works well.
Simple I made some test on DRBD
ror2 ~]# cat /proc/drbd
version: 8.2.6 (api:88/proto:86-88)
GIT-hash: 3e69822d3bb4920a8c1bfdf7d647169eba7d2eb4 build by buildsvn@c5-i386-build, 2008-10-03 11:42:32
1: cs:Connected st:Secondary/Primary ds:UpToDate/UpToDate C r---
ns:0 nr:5100964 dw:5100964 dr:0 al:0 bm:299 lo:0 pe:0 ua:0 ap:0 oos:0
ror1 ~]# cat /proc/drbd
version: 8.2.6 (api:88/proto:86-88)
GIT-hash: 3e69822d3bb4920a8c1bfdf7d647169eba7d2eb4 build by buildsvn@c5-i386-build, 2008-10-03 11:42:32
2: cs:Connected st:Primary/Secondary ds:UpToDate/UpToDate C r---
ns:5100964 nr:0 dw:209392 dr:4891672 al:71 bm:299 lo:0 pe:0 ua:0 ap:0 oos:0
But i don't have much time to test for you.
http://linux-ha.org/DRBD
[ 本帖最后由 cuplinux 于 2009-6-18 09:52 编辑 ]
drbd工作正常,主备的drbd用cat /proc/drbd查看,和你贴出来的是一样的。
只是主机宕机的时候,备机的drbd没有切换为primary,这时候应该是由heartbeat执行drbddisk脚本使drbd变为primary的。
所以我认识是heartbeat此时没有工作,但是ps -ef 查看进程,heartbeat又确实处于工作状态。
heartbeat的配置文件haresources内容:
mds 192.168.128.200 drbddisk::r0 Filesystem::/dev/drbd0::/mnt/mds::lustre
有点迷茫,为什么备机的heartbeat没有把资源抢过来。
不玩lustre好多年.呵呵.
印象中lustre好象要配置一下才会成为主备的.