高可用性 (HA) 这一术语是指系统在近乎 100% 的时间里可供访问并保持可靠的能力。
高可用性系统必须能够承受中断情况,包括计划的停机时间和全站点范围的灾难。通常,HA 系统具备两个特征:
随着数字化转型计划的不断发展以及诸多服务随之迁移到云端,包括 Microsoft、Amazon (AWS)、IBM®、Red Hat® 等在内的许多技术和软件即服务 (SaaS) 公司现在提供高可用性解决方案。
在关键应用程序要求基本消除系统停机时间的行业中,IT 系统的高可用性尤为重要。例如,在医院和数据中心,用户依赖高可用性解决方案来执行许多常规的日常功能。如果用户因任何原因而无法访问系统,系统就会被视为“不可用”。系统无法供用户使用的这段时间被称为停机时间。
容错能力是指系统在一个或多个关键组件发生故障后仍能继续运行的能力。与 HA 类似,容错能力有助于在发生中断事件期间或之后保持系统可用。
但是,容错能力与 HA 在处理停机时间的方式上有所不同。HA 致力于尽可能减少停机时间,而容错能力却以零停机时间为目标,这一目标只能通过冗余机制来实现,即提供基础设施中的每个组件的备份或备用副本。
如今的企业比以往任何时候都更加依赖于在线服务以及云和混合云架构来提供关键应用程序和服务,致使基础设施需求随之不断提高,也使高可用性成为当务之急。以下是高可用性系统为企业带来的一些最常见的优势。
数字化转型是大多数公司的关键目标,而要让员工和客户不受限制地访问关键应用程序,系统的高可用性至关重要1。
对于包括 SaaS、航空和移动技术在内的诸多行业的企业而言,如果系统故障导致数小时或者哪怕数分钟的停机时间,都会带来一场公关噩梦2。高可用性基础设施可确保品牌声誉不会因中断或意外停机而受损。
托管服务提供商 (MSP) 必须提供高可用性网络,否则将面临无法履行其服务级别协议 (SLA) 的风险。HA 系统可帮助 MSP 为珍贵的客户提供可以依赖的网络,例如帮助自动驾驶汽车安全行驶或帮助医疗设施管理患者记录的网络。
无论是致力在医疗保健或金融等行业实现零停机时间,还是只想寻找办法避免中断对声誉造成损害,希望实现高可用性的企业通常都遵循 4 步流程。
许多 HA 系统使用负载均衡,它是在多个服务器之间分配流量以优化应用程序可用性的过程。例如,在流量高的网站上或云服务中,系统每天收到的用户请求以百万计。负载均衡确保应用程序可以不间断地及时从 Web 服务器向用户提供内容。负载均衡、尤其是同时使用多个负载均衡器,可以帮助确保系统中没有任何单个组件不堪重负进而导致可能造成停机或中断的单点故障。
冗余(当主组件发生故障时,有一个辅助组件或备份组件可以接管)是高可用性系统的重要组成部分。即使某个组件无法运行,冗余也能使数据库仍然可供用户和应用程序使用。如果系统中的某个组件不是冗余的,则该组件会被视为单点故障,因为失去该组件可能会导致整个系统无法工作。
高可用性集群是指一组相互连接的机器,它们作为单个系统协同工作。当集群中的一台机器发生故障时,集群管理软件将其工作负载转移到另一台机器上。在高可用性集群内,每个节点(计算机)之间共享的存储空间可确保在单个节点停止运行时不会丢失任何数据。
高可用性的衡量标准是,系统是否 100% 运行或从未发生过一次中断。虽然任何系统都无法 100% 运行,但设置此目标有助于衡量系统在一段时间内的可用性。对于高可用性系统和服务,最常见的指标称为“五个九可用性”。
五个九可用性意味着系统在 99.999% 的时间内都能运行和执行。通常,只有医疗保健、运输、金融或政府等非常重要的行业中的系统才要求达到五个九可用性。这些系统对人们的生命、食物和住所获取以及经济福祉都很重要。
不在这些非常重要的行业中运行的系统通常不需要如此高的运行可用性,它们可以满足于“三个九或四个九”(99.9% 或 99.99%)可用性。经常用来描述这种情况的另一个说法是,高可用性系统的“正常运行时间达到 99.9/99.999%”。
除了五个九可用性之外,IT 系统管理员还使用其他几个关键指标来衡量系统的可用性:
随着众多行业的组织纷纷开展大规模的数字化转型计划,对基础设施的可用性需求也在不断提高。远程办公的出现和 5G 网络的普及使得用户普遍期望能够随时随地访问数据和应用程序。但满足这一期望的前提是必须有支持应用程序和管控数据访问的底层系统可用。以下是有助于现代企业获得蓬勃发展的一些高可用性系统示例:
医生翻阅柜中文件查找您上次疫苗接种日期的日子已经一去不复返了。今天,如果您前往急诊室或专科医生诊室就诊,几乎可以肯定医生会在线访问您的病历。由于此类信息的重要性和私密性,EHR 是典型的高可用性系统,可在几秒钟内安全地提供准确的信息,并且停机时间接近于零。
无人驾驶或自动驾驶交通工具(如汽车、无人机等)依赖于快速、强大的互联网连接使控制它们的人工智能 (AI) 发挥作用。例如,当自动驾驶汽车靠近并停在红绿灯前时,需要近乎实时地处理数以万计的数据才能让车停在红绿灯前应该停的位置并于随后继续驶往目的地。高可用性对于各种自动驾驶交通工具的安全运行至关重要
物联网 (IoT) 是由实体设备、车辆、电器和其他物体组成的网络,这些物体内嵌连接到互联网的传感器,可以收集和共享数据。随着 IoT 生态系统扩展到道路、水道、家用电器、天气监测等领域,数以百万计的设备都要依赖于网络。高可用性有助于确保支持 IoT 设备的网络顺利运行,不会出现中断。
随着企业找到更多方法来使用他们在数字时代产生的海量数据,高可用性对于高效、有效的数据处理变得至关重要。数据中心和复杂的分析平台会持续执行数据处理和实时分析,一旦出现停机情况,项目可能会因此延误数月之久。HA 解决方案可以帮助企业全天候访问其重要数据。
IBM Cloud Infrastructure Center 是一款兼容 OpenStack 的软件平台,用于管理 IBM zSystems 和 IBM LinuxONE 上的私有云基础架构。
发现专为企业混合云和 AI 策略设计的服务器、存储器和软件。
查找适合企业的业务需求的云基础设施解决方案,并按需扩展资源。
1. "Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies,Gartner,2022 年 10 月 19 日
2. "The Global IT Outage Provides Several Crisis Management Lessons,《福布斯》,2024 年 7 月 19 日