什么是灾难恢复?

本主题概述了灾难恢复规划的过程,并提供了相关指导信息,说明灾难恢复即服务 (DRaaS) 是否是保护企业的正确选择。
黑色和蓝色背景
什么是灾难恢复?

灾难恢复 (DR) 包括一系列 IT 技术和最佳实践,旨在防止或最大程度地减少灾难性事件导致的数据丢失和业务中断,这些事件包括设备故障、局部停电、网络攻击、民事紧急情况、犯罪活动、军事攻击以及自然灾害。

许多企业(尤其是中小型组织)往往会忽视切实可行灾难恢复计划的制定。 如果没有这样的计划,他们在面对重大破坏性事件时就毫无招架之力。

基础架构故障造成的损失可能高达每小时 10 万美元(链接位于 IBM 外部),关键应用故障所导致的损失从每小时 50 万到 100 万美元不等。 许多企业在遭受这种损失之后便一蹶不振。 超过 40% 的小型企业在经历灾难后就此关门歇业,而在那些能够重新开张的企业中,还有 25% 会在危机后的第一年内倒闭。 灾难恢复规划有助于显著降低这些风险。

灾难恢复规划包括制定战略、作出规划、部署适当的技术以及持续测试。 保持数据备份是灾难恢复规划的关键组成部分,但仅靠备份和恢复过程并不能构成完整的灾难恢复计划。

灾难恢复还需要确保有足够的存储容量和计算能力,以便支持强大的故障转移和故障恢复过程。  故障转移是指将工作负载转移到备份系统的过程,旨在尽可能少地中断生产过程和最终用户体验。  故障恢复 是指切换回原始主系统。

阅读我们的文章,进一步了解  备份与灾难恢复规划之间的重要区别

业务连续性规划

业务连续性规划会创建一些系统和流程,以确保企业的所有领域都能够维持基本运营,或者能够在发生危机或紧急情况时尽快恢复过来。 灾难恢复规划是业务连续性规划的一部分,侧重于恢复 IT 基础架构和系统。

灾难恢复规划

业务影响分析


创建全面的灾难恢复计划始于业务影响分析。 执行此分析时,将创建一系列详细的灾难场景,以用于预测当某些业务流程中断时将遭受的损失的规模和范围。 例如,如果客户服务呼叫中心被火烧毁,该怎么办? 或者,如果地震袭击了公司总部,又该怎么办?

这种分析可帮助确定最关键的业务领域和职能,并确定每一项关键职能可以忍受多长时间的中断。 掌握这些信息后,您就可以开始制定计划,确定如何在各种场景中确保最关键的运营不中断。

IT 灾难恢复规划应遵循并支持业务连续性规划。 例如,如果业务连续性计划要求客户服务代表在呼叫中心发生火灾后在家工作,那么需要哪些类型的硬件、软件和 IT 资源来支持这一计划?

 

风险分析


评估企业所面临风险的可能性和潜在后果也是灾难恢复规划的重要组成部分。 随着网络攻击和勒索软件变得越来越普遍,了解当今所有企业面临的一般网络安全风险以及所在行业和地理位置的特定风险就变得至关重要。

您需要针对各种场景(包括自然灾害、设备故障、内部威胁、蓄意破坏和员工错误)评估风险,并考虑对企业的整体影响。 可以自己回答以下问题:

  • 由于错失销售商机或创收活动被中断,将会遭受哪些财务损失?

  • 品牌声誉会受到哪些损害? 客户满意度会受到怎样的影响?

  • 员工工作效率会受到怎样的影响? 可能会损失多少工时?

  • 该事故可能给员工健康或安全带来哪些风险?

  • 是否会影响任何业务计划或目标的进展? 如何影响?

 

划分应用的优先级


并非所有工作负载对于企业维持运营的能力都同样重要,某些应用中断带来的影响也比其他应用要小。 系统和应用可分为三层,具体取决于您可以忍受它们宕机的时间长短以及数据丢失的后果严重程度。

  1. 任务关键型: 应用的功能对于企业的生存至关重要。

  2. 重要: 您只能容忍应用宕机相对较短的时间。

  3. 非必要: 可暂时用人工流程取代宕机的应用,或暂时离开这些应用也没多大关系。

 

记录依赖关系


灾难恢复规划的下一步是创建硬件和软件资产的完整清单。 在此阶段了解关键应用的相互依赖关系至关重要。 如果一个软件应用出现故障,其他哪些软件应用也会受到影响?

在最初构建系统时设计弹性和灾难恢复模型是管理应用相互依赖关系的最佳方法。 在当今基于 微服务的架构中,当其他系统或流程出现故障时查找无法启动的流程是一件很常见的事情,反之亦然。 从此类情况进行恢复有一定的难度,如果您有足够的时间为系统和流程制定备用计划,那么在实际灾难发生之前提前发现此类问题至关重要。

 

制定恢复时间目标、恢复点目标和恢复一致性目标


通过考虑所面临的风险并且执行业务影响分析,您应当能够确定恢复系统所需的时间、可以继续使用的数据量以及可以容忍的数据损坏或偏差程度。

恢复时间目标 (RTO) 是指在服务中断后使应用或系统恢复正常运行所需的最长时间。

恢复点目标 (RPO) 是指使企业恢复正常运营而必须恢复的数据的最长时间长度。 对于某些企业来说,即使丢失几分钟的数据也可能是灾难性的,而另一些行业的企业则也许能够容忍更长时间长度的数据丢失。

在服务级别协议 (SLA) 中为持续数据保护服务建立恢复一致性目标 (RCO)。 RCO 指标表示在灾难恢复情况下,在已恢复的流程或系统的业务数据中可以容忍有多少个不一致的条目,因此它描述的是复杂应用环境中的业务数据完整性。

 

监管合规问题


企业建立的所有灾难恢复软件和解决方案都必须满足任何强制性的数据保护和安全要求。 这意味着,所有数据备份和故障转移系统的设计都必须符合主系统所遵循的相同标准,从而确保数据保密性和完整性。

同时,多项监管标准都规定,所有企业均必须保持灾难恢复计划和/或业务连续性计划。 例如,萨班斯-奥克斯利法案 (SOX) 要求美国的所有上市公司将所有业务记录的副本至少保留五年。 如果未遵守此规定(包括未建立和测试适当的数据备份系统),可能会导致公司遭受重大经济处罚,甚至导致其领导者入狱。

 

选择技术


备份是制定任何可靠灾难恢复计划的基础。 过去,大多数企业都是依靠磁带和磁盘 (HDD) 进行备份,保持数据的多个副本并在异地位置至少存储一个副本。

在当今的永续数字化转型环境中,异地存储库中的磁带备份通常无法满足维持关键业务运营所需的 RTO。 设计自己的灾难恢复解决方案包括复制生产环境的多项功能,并且需要承担用于支持人员、管理、设施和基础架构的费用。 因此,许多组织都寻求基于云的备份解决方案或全面的灾难恢复即服务 (DRaaS) 提供商的帮助。

 

选择恢复地点位置


构建自己的灾难恢复 数据中心 涉及平衡多个相互冲突的目标。 一方面,应将数据副本存储在距离公司总部或办公地点足够远的地方,这样它就不会受到与主要业务地点相同的地震事件、环境威胁或其他危险的影响。 另一方面,异地存储的备份总是比主要业务地点中的本地备份需要更长的时间来恢复,并且网络延迟也会随距离延长而增大。

 

持续测试和审查


简而言之,如果灾难恢复计划没有经过测试,就不能认定为可靠。 所有承担相关责任的员工都应该参加灾难恢复测试练习,这可能包括在故障转移地点保持运营一段时间。

如果执行全面灾难恢复测试超出了贵组织的预算或能力,您也可以安排测试过程的"桌面模拟"演习,但必须明白,与完整的测试相比,这种测试不太可能揭示 DR 过程中的异常或弱点(尤其是判断是否存在之前未发现的应用相互依赖关系)。

由于硬件和软件资产可能会随着时间的推移而发生变化,因此必须确保灾难恢复计划也与时俱进。 您应当定期审查和修订该计划。

IBM Knowledge Center 提供了一个 灾难恢复计划示例

灾难恢复即服务 (DRaaS)

灾难恢复即服务 (DRaaS) 是目前最流行也是发展速度最快的管理 IT 服务之一。 供应商会在服务级别协议 (SLA) 中规定 RTO 和 RPO,以说明宕机时间限制和期望的应用恢复目标。

DRaaS 供应商通常会提供基于云的故障转移环境。 与在自己的数据中心内维持冗余的专用硬件资源相比,这种模式可以显著节省成本。 您可以按合同支付维持故障转移功能的费用以及在灾难恢复情况下消耗的资源的使用费用。 供应商通常会承担配置和维持故障转移环境的所有责任。

灾难恢复服务因供应商而异。 某些供应商将其服务定义为一体化的全面解决方案,而另一些供应商则提供一些零星的服务(例如单一的应用恢复服务,以及云中的完整数据中心复制服务)。 一些产品可能包括灾难恢复规划或测试服务,而另一些产品可能会对这些服务收取额外的咨询费。

确保您依赖的任何企业软件应用都获得与您合作的任何公有云提供商的支持。 还必须确保应用的性能在故障转移环境中令人满意,并且故障转移和故障恢复过程已经过全面测试。

云灾难恢复

如果您已经构建了本地灾难恢复 (DR) 解决方案,那么需要评估维持该解决方案与改用每月 DRaaS 预订的费用和收益,而这项工作具有一定的挑战性。

大多数本地 DR 解决方案都会产生硬件、电力、人工(维护和管理)、软件和网络连接方面的费用。 除了初始设置 DR 环境所涉及的前期支出外,还需要为定期软件升级准备预算。 由于 DR 解决方案必须与主要生产环境保持兼容,因此需确保 DR 解决方案具有相同的软件版本。 根据贵组织的许可协议的具体情况,这可能会使软件成本翻倍。

改用 DRaaS 预订不仅可以减少硬件和软件支出,还可以通过将维持故障转移地点的负担转移给供应商来降低人工成本。

如果您正在考虑第三方 DRaaS 解决方案,则需要确保供应商具有跨区域多地点备份的能力。 如果像飓风这样的恶劣天气事件袭击了贵组织的主要办公地点,故障转移地点是否距离主要办公地点足够远以确保不受风暴的影响? 此外,如果有许多客户同时受到影响,供应商是否有足够的能力来满足您所在地区中所有客户的总体需求? 您相信自己的 DRaaS 供应商能够在危机时期满足 RTO 和 RPO,因此想要寻找在可靠性方面享有盛誉的服务提供商。

请阅读“灾难恢复即服务 (DRaaS) 与灾难恢复 (DR):您需要哪一个?”,以获取这两种解决方案的比较概述。

相关解决方案
云灾难恢复解决方案

通过云灾难恢复计划保护自己的数据。

探索云灾难恢复解决方案
Zerto on IBM Cloud

使用易于部署且可扩展的数据保护解决方案,实现以秒计的 RPO 和以分钟计的 RTO。

探索 Zerto on IBM Cloud
IBM Cloud 全球数据中心

使用适用于每个工作负载的部署选项,实现更流畅的运行。 我们的网络具有高度的弹性、冗余性和可用性。

探索 IBM Cloud 全球数据中心
采取下一步行动

基于 IBM Cloud 的灾难恢复解决方案富有弹性而且非常可靠。 您可以在分布于 6 个地区和 18 个全球可用性区域的 60 多个数据中心中进行选择,配置故障转移地点,以便实现低延迟并满足特定于地理位置的业务需求。

了解有关 IBM Cloud 灾难恢复解决方案的更多信息