lustre的mds主备切换

发布于 2022-09-18 17:23:16 字数 2172 浏览 14 评论 0

现在用drbd+heartbeat做mds的主备切换。
主备机器都是有两块网卡的,其中一个做心跳测试,一个做网络通讯
主mds:eth0:192.168.128.10(通讯)
             eth1:192.168.0.1(心跳)
备mds1:eth0:192.168.128.11(通讯)
             eth1:192.168.0.2(心跳)

主mds启动后,由heartbeat自动挂载并启动mgs服务。
查看日志/var/log/messages,mgs成功启动并挂载。
备mds1启动后,查看日志/var/log/messages,
Jun 16 14:10:30 mds1 heartbeat: [4252]: info: mds1 wants to go standby [foreign]
Jun 16 14:10:40 md1 heartbeat: [4252]: WARN: No reply to standby request.  Standby request cancelled.
意思是不是:mds1想作为备机,但是没有回复mds1的请求,所以请求取消了。
不知道此时备mds1的日志内容是不是正常的?

然后把主mds关机,由heartbeat实现在备机上的自动切换,等了很久都没有启动mgs服务,也没有挂载。
查看/var/log/messages:
Jun 16 14:30:07 mgs1 kernel: [20396.365345] drbd0: peer( Primary -> Secondary )
Jun 16 14:30:37 mgs1 kernel: [20426.588971] drbd0: peer( Secondary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown )
Jun 16 14:30:37 mgs1 kernel: [20426.589268] drbd0: asender terminated
Jun 16 14:30:37 mgs1 kernel: [20426.589347] drbd0: Terminating asender thread
Jun 16 14:30:37 mgs1 kernel: [20426.601783] drbd0: Connection closed
Jun 16 14:30:37 mgs1 kernel: [20426.601940] drbd0: conn( NetworkFailure -> Unconnected )
Jun 16 14:30:37 mgs1 kernel: [20426.602058] drbd0: receiver terminated
Jun 16 14:30:37 mgs1 kernel: [20426.602092] drbd0: Restarting receiver thread
Jun 16 14:30:37 mgs1 kernel: [20426.602108] drbd0: receiver (re)started
Jun 16 14:30:37 mgs1 kernel: [20426.602113] drbd0: conn( Unconnected -> WFConnection )

日志就这么内容了,没有搞明白为什么heartbeat没有启动资源(haresouces)?
查看cat /proc/drbd,
version: 8.3.0 (api:88/proto:86-89)
GIT-hash: 9ba8b93e24d842f0dd3fb1f9b90e8348ddb95829 build by root@web1, 2009-06-12 13:34:57
0: cs:WFConnection ro:Secondary/Unknown ds:UpToDate/DUnknown C r---
    ns:0 nr:5124 dw:5124 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
也没有切换为primary

请各位大牛帮帮忙吧。很急的!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

鹿! 2022-09-25 17:23:16

Make sure your DRBD works well.

Simple I made some test on DRBD

ror2 ~]# cat /proc/drbd
version: 8.2.6 (api:88/proto:86-88)
GIT-hash: 3e69822d3bb4920a8c1bfdf7d647169eba7d2eb4 build by buildsvn@c5-i386-build, 2008-10-03 11:42:32

1: cs:Connected st:Secondary/Primary ds:UpToDate/UpToDate C r---
    ns:0 nr:5100964 dw:5100964 dr:0 al:0 bm:299 lo:0 pe:0 ua:0 ap:0 oos:0

ror1 ~]# cat /proc/drbd
version: 8.2.6 (api:88/proto:86-88)
GIT-hash: 3e69822d3bb4920a8c1bfdf7d647169eba7d2eb4 build by buildsvn@c5-i386-build, 2008-10-03 11:42:32

2: cs:Connected st:Primary/Secondary ds:UpToDate/UpToDate C r---
    ns:5100964 nr:0 dw:209392 dr:4891672 al:71 bm:299 lo:0 pe:0 ua:0 ap:0 oos:0

But i don't have much time to test for you.

http://linux-ha.org/DRBD

[ 本帖最后由 cuplinux 于 2009-6-18 09:52 编辑 ]

殤城〤 2022-09-25 17:23:16

drbd工作正常,主备的drbd用cat /proc/drbd查看,和你贴出来的是一样的。
只是主机宕机的时候,备机的drbd没有切换为primary,这时候应该是由heartbeat执行drbddisk脚本使drbd变为primary的。
所以我认识是heartbeat此时没有工作,但是ps -ef 查看进程,heartbeat又确实处于工作状态。
heartbeat的配置文件haresources内容:
mds 192.168.128.200 drbddisk::r0 Filesystem::/dev/drbd0::/mnt/mds::lustre
有点迷茫,为什么备机的heartbeat没有把资源抢过来。

望笑 2022-09-25 17:23:16

不玩lustre好多年.呵呵.

月下伊人醉 2022-09-25 17:23:16

印象中lustre好象要配置一下才会成为主备的.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文