可用性的概念

在您为系统的可用性做计划之前,了解与可用性相关的一些概念是很重要的。

企业和支持他们的 IT 运营必须确定哪些解决方案和技术可以满足他们的业务需要。对于业务连接性需求,必须制订和记录详细需求、确定解决方案的类型并评估所选解决方案。这是一项具有挑战性的任务,部分原因在于问题的复杂性。

业务连续性是企业克服中断(系统处于不可用状态的时间),并根据预定义的服务级别协议正常运营重要服务且不会中断的能力。要达到给定的业务连续性级别,必须选择服务、软件、硬件和过程集合,并且在书面计划中描述,以及定期实施和实践。业务连续性解决方案必须解决数据、运营环境、应用程序、应用程序主机环境和用户接口的问题。以上各个方面必须全部实现才能提供良好、完善的业务连续性解决方案。业务连续性计划包括灾难恢复和高可用性(HA)。

灾难恢复提供计划来预防企业生产现场完全中断的情况(例如自然灾害期间)。灾难恢复可以提供一组资源、计划、服务和过程,用来从远程站点恢复重要的应用程序和继续正常运营。此灾难恢复计划包括规定的灾难恢复目标(例如,在 8 小时内恢复运营),并处理可接受的降级。

许多客户的业务连续性目标的另一个主要方面是高可用性,这是克服所有中断(计划内中断、计划外中断和灾难中断),并提供所有重要应用程序连续处理的能力。最终目标是中断时间低于总服务时间的 .001%。高可用性和灾难恢复之间的差别通常包括更严格的恢复时间目标(几秒钟到几分钟),以及更严格的恢复点目标(零用户中断)。

可用性是根据中断来衡量的,中断是指系统对用户不可用的时间段。在计划内中断(也称为已安排的中断)期间,您有意地使系统对用户不可用。您可以使用已安排的中断来运行批处理工作、备份系统或应用修订。

备份窗口是您在执行备份操作时系统可能对于用户不可用的时间。备份窗口属于已安排的中断,它通常在夜晚或周末当系统的通信量很小的时候进行。

计划外中断(也称未安排的中断)通常是由于故障导致的。如果您有适当的备份策略,则可以从计划外中断(如磁盘故障、系统故障、电源故障、程序故障或人为错误)恢复。但是,导致整个系统损失的计划外中断,如飓风或火灾,则需要您有适当的详细灾难恢复计划,以便进行恢复。

高可用性解决方案为备份系统提供完全自动的故障转移,以确保用户和应用程序的连续运营。HA 解决方案必须提供一个即时的恢复点,并确保恢复时间要比非 HA 解决方案下的恢复时间更短。

与整个系统都经历中断的灾难恢复不同,高可用性解决方案可以为系统内的个别临界资源(例如特定应用程序实例)而定制。高可用性解决方案基于集群技术。可使用集群来避免计划内中断和计划外中断影响。即使仍然存在服务器中断,但业务功能不会受到此中断的影响。集群是互相连接的完整系统的集合,用作单个且统一的资源。集群通过在系统之间提供协调、分布式处理来实现此解决方案。这一点在企业中带来更高的可用性级别、一定程度的水平增长和更简单的管理。对于完善的解决方案,除提供数据弹性机制外,您必须解决运营环境、应用程序主机环境、应用程序弹性和用户接口的问题。集群注重完善解决方案的所有方面。集成集群资源服务使您能够定义应当预防中断的系统集群和资源组。集群资源服务检测中断状态,并协调临界资源到备份系统的自动移动。