lustre mds failover test problom
我的系统是redhat as4 u2,内核2.6.9-22,用vmvare建立4个虚拟机作lustre集群的mds failover试验,各节点分布如下:
192.168.10.1 n01 (ost)
192.168.10.3 n03 (primary mds)
192.168.10.6 n06 (backup mds)
192.168.10.4 n04 (client)
4个节点,每个节点的host都一样,防火墙、selinux都已关闭,机群配置文件newconfig. sh内容如下:
#!/bin/sh
#config.sh
#Create nodes
rm -f newconfig.xml
lmc -m newconfig.xml --add net --node n03 --nid n03 --nettype tcp
lmc -m newconfig.xml --add net --node n01 --nid n01 --nettype tcp
lmc -m newconfig.xml --add net --node n06 --nid n06 --nettype tcp
lmc -m newconfig.xml --add net --node generic-client --nid '*' --nettype tcp
#Configure primary mds and backup mds2
lmc -m newconfig.xml --add mds --dev /dev/sdb1 --journal_size 400 --failover --group n-mds --node n03 --mds n-mds --fstype ldiskfs
lmc -m newconfig.xml --add mds --dev /dev/sdb1 --journal_size 400 --failover --group n-mds --node n06 --mds n-mds --fstype ldiskfs
#Configure ost
lmc -m newconfig.xml --add lov --lov lov1 --mds n-mds --stripe_sz 1048576 --stripe_cnt 0 --stripe_pattern 0
lmc -m newconfig.xml --add ost --node n01 --lov lov1 --ost n01-ost1 --fstype ldiskfs --dev /dev/sdb1
#Configure client
lmc -m newconfig.xml --add mtpt --node generic-client --path /lustre1 --mds n-mds --lov lov1
按照顺序依次启动ost、mds、client
lconf –-reformat –-node n01 newconfig.xml
lconf –-reformat –-node n03 newconfig.xml
lconf –-reformat –-node n06 newconfig.xml
lconf –-node generic-client newconfig.xml
测试集群工作正常
进行mds failover的测试
在n03(primary mds)上执行
lconf --verbose --cleanup --failover --group n-mds newconfig.xml
然后再n06(backup mds)上执行
lconf --verbose --failover --select n-mds=n06 --group n-mds newconfig.xml
在n06却出现如下错误:
Feb 20 12:03:16 n06 kernel: LustreError: 2787:0ldlm_lib.c:567:target_handle_connect()) @@@ UUID 'n-mds_UUID' is not available for connect (no target) req@c7cdc200 x165/t0 o38-><?>@<?>:-1 lens 240/0 ref 0 fl Interpret:/0/0 rc 0/0
Feb 20 12:03:16 n06 kernel: LustreError: 2787:0ldlm_lib.c:567:target_handle_connect()) previously skipped 10 similar messages
Feb 20 12:03:16 n06 kernel: LustreError: 2787:0ldlm_lib.c:1251:target_send_reply_msg()) @@@ processing error (-19) req@c7cdc200 x165/t0 o38-><?>@<?>:-1 lens 240/0 ref 0 fl Interpret:/0/0 rc -19/0
Feb 20 12:03:16 n06 kernel: LustreError: 2787:0ldlm_lib.c:1251:target_send_reply_msg()) previously skipped 10 similar messages
mds的failover没有成功,那位大哥帮忙看看是什么原因,小弟不胜感激,小弟qq 24242546
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
mds的fail over不是这样做的
根据ldap+共享存储来作,lustre的wiki里面有详细的介绍
廉价的结构可以通过ldap+drbd来作
必须用ldap??,我看pdf文档中没有要求装ldap呀,那位朋友有比较具体些文档共享一下,谢谢了先~