高可用性概述
什么是高可用性(HA)
“可用性”(Availability)这个词语描述的是一个系统提供所需的特定的服务等级的能力。
在计算机领域,可用性通常被理解为一个系统所提供服务可用的时间(例如,一天十六个小时;一周六天等等)或要求该系统对用户请求的响应时间(例如,少于1秒的响应时间)。反之,其服务的中断(不论是计划内,还是计划外的)可以称为不可用。一个系统的不可用通常用停工时间(如分钟、小时等)来衡量。
“高可用性”(High Availability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。
例如我们希望电力、水力服务是高可用性的系统。
但是即使是最高级别的可用性系统也不可避免偶尔的停工,同时也是允许的。例如我们都经历过停水停电。但在这种情况下,我们希望看到的是立即努力恢复服务提供。
在计算机领域,高可用性系统指采用经过特殊设计和管理的,仅仅只有极其短暂的计划内或计划外的停工时间的计算机系统。当然,不同的应用领域对其停工时间的理解和要求是有一些区别的。例如,有些系统需要一周七天,一天二十四小时不间断地提供服务,例如电信领域服务。而有的系统,可能一天只需要十八个小时提供服务,但要求这18个小时内,系统对用户请求响应速度要特别快,例如零售行业服务。所以我们在衡量HA时,不应该仅仅是问:是可用性设备吗?而应该是:整套系统提供了应有的服务水平吗?
还有另外一个词语容易混淆:可靠性。可用性和可靠性不是一回事,可用性是系统提供正常使用的时间占总共时间的百分比。而可靠性是在系统失败前所提供服务的所有时间。可用性包含可靠性。
由于本文的主题范围所限,如非特别说明,后文中涉及到的“高可用性”或“高可用性系统”均描述的是计算机系统。
高可用性的衡量指标
可用性的计算公式:
%availability=(Total Elapsed Time-Sum of Inoperative Times)/ Total Elapsed Time
elapsed time为operating time+downtime。
可用性和系统组件的失败率相关。衡量系统设备失败率的一个指标是“失败间隔平均时间”MTBF(mean time between failures)。通常这个指标衡量系统的组件,如磁盘。
MTBF=Total Operating Time / Total No. of Failures
Operating time为系统在使用的时间(不包含停机情况)。
高可用性系统的设计
设计系统的可用性,最重要的是满足用户的需求。系统的失败只有当其导致服务的失效性足以影响到系统用户的需求时才会影响其可用性的指标。用户的敏感性决定于系统提供的应用。例如,在一个能在1秒钟之内被修复的失败在一些联机事务处理系统中并不会被感知到,但如果是对于一个实时的科学计算应用系统,则是不可被接受的。
系统的高可用性设计决定于您的应用。例如,如果几个小时的计划停机时间是可接受的,也许存储系统就不用设计为磁盘可热插拔的。反之,你可能就应该采用可热插拔、热交换和镜像的磁盘系统。
所以涉及高可用系统需要考虑:
决定业务中断的持续时间。根据公式计算出的衡量HA的指标,可以得到一段时间内可以中断的时间。但可能很大量的短时间中断是可以忍受的,而少量长时间的中断却是不可忍受的。
在统计中表明,造成非计划的宕机因素并非都是硬件问题。硬件问题只占40%,软件问题占30%,人为因素占20%,环境因素占10%。您的高可用性系统应该能尽可能地考虑到上述所有因素。
当出现业务中断时,尽快恢复的手段。
导致计划内的停机因素有:
周期性的备份
软件升级
硬件扩充或维修
系统配置更改
数据更改
导致计划外停机的因素有:
硬件失败
文件系统满错误
内存溢出
备份失败
磁盘满
供电失败
网络失败
应用失败
自然灾害
操作或管理失误
通过有针对性的设计,可以避免上述全部或部分因素带来的损失。当然,100%的高可用系统是不存在的。
创建高可用性的计算机系统
在UNIX系统上创建高可用性计算机系统,业界的通行做法,也是非常有效的做法,就是采用群集系统(Cluster),将各个主机系统通过网络或其他手段有机地组成一个群体,共同对外提供服务。创建群集系统,通过实现高可用性的软件将冗余的高可用性的硬件组件和软件组件组合起来,消除单点故障:
消除供电的单点故障
消除磁盘的单点故障
消除SPU(System Process Unit)单点故障
消除网络单点故障
消除软件单点故障
尽量消除单系统运行时的单点故障
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论