请教关于Hacmp双机切换的问题

发布于 2022-10-15 09:22:35 字数 305 浏览 31 评论 0

做hacmp的双机切换测试，用以下方法，从主机切到备的时候成功，当从备机切换回来时候，用同样的方法，切换失败，我现在想确定的是这种切换方法有没有问题

smitty hacmp
-->System Management (C-SPOC)
-->HACMP Resource Group and Application Management
-->Move a Resource Group to Another Node / Site
--> Move Resource Groups to Another Nod

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

躲猫猫 2022-10-22 09:22:35

没有问题.
切换失败可能的原因有很多,最好详细说一下你的情况,我们好帮你分析.

回复收藏 0

悲欢浪云 2022-10-22 09:22:35

要看日志的

回复收藏 0

鸵鸟症 2022-10-22 09:22:35

谢谢两位的回复，

有两台主机，aix 5.3.0.0 一台数据库oracle 9.2.0.6，另外一台为应用服务器，用IPAT via Replacement模式做hacmp双机互备。
我先在应用主机上做切换操作，过程如下：

smitty hacmp
-->System Management (C-SPOC)
-->HACMP Resource Group and Application Management
-->Move a Resource Group to Another Node / Site
--> Move Resource Groups to Another Node

正常切换，经测试，应用没有可以正常使用，这时候应用主机的service ip被切到数据库主机，用boot ip连上应用主机，做回切操作，其过程如下
smitty hacmp
-->System Management (C-SPOC)
-->HACMP Resource Group and Application Management
-->Move a Resource Group to Another Node / Site
--> Move Resource Groups to Another Node
回切失败，我现在怀疑是不是我在应用主机上做回切操作，引起了回切的失败，但不确定

附件为回切失败时候的日志：
从459行报
Apr 15 01:47:15 EVENT START: event_error 1 TE_RG_MOVE一个错误，然后就接连报一个错误和警告信息

回复收藏 0

终止放荡 2022-10-22 09:22:35

有人回复让俺备受鼓舞，期待着在大家的帮助下，找出问题的原因，让俺确定是不是因为俺的误操作引起的，再次谢谢各位了

回复收藏 0

醉生梦死 2022-10-22 09:22:35

共享vg 正常切换，原因可能是共享vg在备机上varyoff的时候，卡主了，导致切换失败
一般的原因都是应用没停下来，或者有活动文件在共享vg 的某个文件系统上
解决了这个问题，应该机一起ok了

回复收藏 0

半衾梦 2022-10-22 09:22:35

谢谢各位的回复

回复收藏 0

温柔嚣张 2022-10-22 09:22:35

同事给我的解释为当我用这种方式进行切换时，当从主机切换的备机时，主机的cluster服务也就停了，这时候从备机切回来的时候，主机上没有服务来接收这些资源，这时候，整个切换就卡住了。正确方式为从备机切换回主机之前，应该在主机上启动cluster服务，然后进行回切。

正确的切换方式为：

smitty hacmp
-->System Management (C-SPOC)
-->Manage HACMP Services
-->Stop Cluster Services
-->Select an Action on Resource Groups
-->f4
-->Move Resource Groups

回复收藏 0

岛歌少女 2022-10-22 09:22:35

最后问题还是解决了，先是重启cluster的服务，关闭失败，就重启主机，重启主机后，hacmp启支成功，但数据库启动失败，数据库alert log报
Errors in file /oracle/admin/smsg/bdump/smsg_ckpt_491690.trc:
ORA-00202: controlfile: '/dev/rlvcon1'
ORA-27091: skgfqio: unable to queue I/O
ORA-27072: skgfdisp: I/O error
IBM AIX RISC System/6000 Error: 5: I/O error
Additional information: 721
Fri Apr 15 04:04:41 2011

刚开始以为是bug，后来看了errpt，确定为盘阵有问题，做了盘阵的恢复后，启动成功，整个服务恢复。

回复收藏 0