构建成功的灾难恢复策略

无论您所在行业面临的挑战是地缘政治冲突、全球疫情爆发还是日益严峻的网络安全态势，现代企业无疑面临着巨大威胁。灾难恢复策略为团队成员提供了一个行动框架，能够在发生计划外事件后助力业务恢复正常运行。

在全球范围内，灾难恢复策略的普及程度越来越高，这是可以理解的。去年，各公司仅在网络安全和解决方案上就花费了 2190 亿美元，比 2022 年增长了 12%（源自 International Data Corporation (IDC) 最近报告（ibm.com 外部链接））。

灾难恢复策略列出了企业将如何应对众多意外事件。可靠的灾难恢复策略包括灾难恢复计划 (DR 计划)、业务连续性计划 (BCP) 和事件响应计划 (IRP)。这些文件共同帮助确保企业准备好面对各种威胁，包括停电、勒索软件、恶意软件攻击、自然灾害等等。

什么是灾难恢复计划 (DRP)？

灾难恢复计划 (DRP) 是描述公司如何应对不同类型灾难的详细文件。通常，企业可以自行构建 DRP，也可以将其灾难恢复流程外包给第三方 DRP 供应商。与业务连续性计划 (BCP) 和事件响应计划 (IRP) 一样，DRP 在灾难恢复策略的有效性中发挥着关键作用。

什么是业务连续性计划和事件响应计划？

与 DRP 一样，BCP 和 IRP 都是更大的灾难恢复策略的一部分，企业可以依靠它们来帮助在发生灾难时恢复正常运营。考虑威胁和解决方案时，BCP 通常比 DRP 的视角更广，重点关注公司恢复连接所需的内容。IRP 是一种 DRP，专门针对网络攻击和对 IT 系统的威胁。IRP 清楚地概述了组织从检测到威胁的那一刻到缓解和解决威胁的实时应急响应。

为什么制定灾难恢复策略很重要

灾难会以不同的方式影响企业，导致各种复杂的问题。从影响物理基础设施和员工安全的地震到关闭对敏感数据存储和客户服务的访问的云服务中断，拥有完善的灾难恢复策略有助于确保企业快速恢复。以下是建立可靠的灾难恢复策略的一些最大益处：

保持业务连续性：业务连续性和业务连续性灾难恢复 (BCDR) 有助于确保组织在发生意外事件后恢复正常运营，提供数据保护、数据备份和其他关键服务。
降低成本：根据 IBM 最近的《数据泄露成本报告》，2023 年数据泄露的平均成本为 445 万美元，在过去 3 年间增长了 15%。没有实施灾难恢复策略的企业将面临成本增加和罚款的风险，总额可能远远超过不投资该解决方案而节省的资金。
减少停机时间：现代企业依赖复杂的技术，如基于云的基础设施解决方案和蜂窝网络。当意外事件导致业务运营中断时，可能会造成数百万的损失。此外，网络攻击、长时间停机或与人为错误有关的中断都可能导致客户和投资者逃离。
保持合规性：在医疗保健和个人理财等监管严格的行业开展业务的企业，由于其管理的数据至关重要，一旦发生数据泄露，将面临巨额罚款和处罚。拥有可靠的灾难恢复策略有助于缩短意外事件发生后的响应和恢复过程，这在罚款金额通常与违规持续时间相关的行业中至关重要。

灾难恢复策略如何发挥作用

最可靠的灾难恢复策略可以帮助企业准备好应对各种各样的威胁。用于恢复正常运营的可靠模板可以帮助建立投资者和客户信心，增加企业从面临的任何威胁中恢复的可能性。在介绍灾难恢复策略的实际组成部分之前，先介绍几个关键术语。

故障转移/故障恢复：故障转移是 IT 灾难恢复中广泛使用的过程，当主系统因断电、网络攻击或其他威胁而发生故障时，此过程将把业务转移到辅助系统。故障恢复是在恢复正常过程后切换回初始系统的过程。例如，企业可以从其数据中心故障转移到辅助站点，冗余系统将立即启动。如果执行得当，故障转移/故障恢复可以创造一种无缝体验，用户/客户甚至不知道他们正在被移动到辅助系统。
恢复时间目标 (RTO)：RTO 是指意外事件发生后恢复业务运营所需的时间。设定合理的 RTO 是企业在制定灾难恢复策略时首先需要完成的事项之一。
恢复点目标 (RPO)：企业的 RPO 是指企业能够承受的、仍能恢复的数据丢失量。一些企业不断将数据复制到远程数据中心，以确保连续性。其他公司将可容忍的 RPO 设置为几分钟（甚至几小时），并且知道他们将能够从这段时间内丢失的任何内容中恢复过来。
灾难恢复即服务 (DRaaS)：DRaaS 是一种灾难恢复方法，由于人们对数据安全重要性的认识不断提高，该方法越来越受欢迎。采用 DRaaS 方法进行灾难恢复的公司本质上是将其灾难恢复计划 (DRP) 外包给第三方。第三方将托管和管理恢复所需的基础设施，然后制定和管理响应计划，并确保迅速恢复关键业务运营。根据 Global Market Insights (GMI) 的最新报告（ibm.com 外部链接），DRaaS 的市场规模在 2022 年为 115 亿美元，并有望在未来几年增长 22%。

制定可靠的灾难恢复策略的五个步骤

灾难恢复计划首先对最关键的业务流程进行深入分析，即业务影响分析 (BIA) 和风险评估 (RA)。虽然每个企业都不同并且有独特的要求，但是，无论规模或行业如何，都可以按照一些步骤来帮助确保有效的灾难恢复计划。

第 1 步：进行业务影响分析

业务影响分析 (BIA) 是对公司面临的每项威胁及其可能结果的仔细评估。全面的 BIA 会审视这些威胁可能如何影响日常运营、沟通渠道、员工安全和企业的其他关键方面。进行 BIA 时需要考虑的几个因素示例包括收入损失、停机时间的时长和成本、声誉修复的成本（公共关系）、客户或投资者信心的丧失（短期和长期），以及可能因中断导致违规而面临的处罚。

第 2 步：进行风险分析

网络威胁因行业和企业类型的不同而大相径庭。进行合理的风险分析 (RA) 是制定策略的关键一步。可通过考虑两件事分别评估每种潜在威胁：威胁发生的可能性及其对业务运营的潜在影响。对此，有两种广泛使用的方法：定性和定量风险分析。定性风险分析以感知风险为基础，定量风险分析则使用可验证的数据。

第 3 步：创建资产清单

灾难恢复有赖于全面了解企业拥有的每项资产。这包括硬件、软件、IT 基础设施、数据以及对业务运营至关重要的任何其他内容。以下是用于对资产进行分类的三个广泛使用的标签：

关键：仅当资产是正常业务运营所必需时，才能将其标记为关键资产。
重要：对于每天至少使用一次且一旦中断就会影响业务运营（但不会使其完全停止）的任何资产，可分配此标签。
不重要：此类资产在企业内使用频率不高，对正常业务运营并非不可或缺。

步骤 4：确立角色和职责

显然，分配角色和职责可以说是灾难恢复策略中最重要的部分。没有它，就没有人知道在发生灾难时该怎么办。虽然实际角色和职责因公司规模、行业和业务类型不同而差别很大，但每个恢复策略都应包含一些角色和职责：

事件报告人：负责在发生破坏性事件时与利益相关者和有关当局沟通，并维护所有相关方的最新联系信息。
灾难恢复计划经理：灾难恢复计划经理确保灾难恢复团队成员完成分配给他们的任务，并确保已制定的策略顺利推进。
资产管理员：应指派专人负责在发生灾难时保护关键资产，并在整个事件过程中汇报其状态。

第 5 步：测试和优化

为了确保灾难恢复策略合理，需要不断实践并根据任何有意义的变化定期更新它。例如，如果公司在制定 DRP 策略后收购了新资产，则需要将它们纳入到计划中，确保它们在未来受到保护。灾难恢复策略的测试和优化可分为三个简单步骤：

创建准确的模拟环境： 在演练 DRP 时，尝试搭建一个尽可能接近公司将面临的实际场景的环境，但不要让任何人面临实际风险。
发现问题：利用 DRP 测试过程找出计划中的错误和不一致之处，简化流程并解决备份程序中的任何问题。
测试灾难恢复程序：了解如何应对事件至关重要，但同样重要的是，要对在事件结束后恢复关键系统而制定的程序进行测试。测试如何让网络继续正常运行、恢复任何丢失的数据并恢复正常业务运营。

灾难恢复解决方案

现代企业比以往任何时候都更加依赖技术为客户提供服务。即使是轻微的故障，也会造成严重的停机，影响客户和投资者的信心。IBM FlashSystem Cyber Recovery Guarantee 专为购买配备 IBM Storage Expert Care 和 IBM Storage Insight Pro 的新 Flashsystem 阵列的用户设计。

作者

Mesh Flinders

Staff Writer

IBM Think

如何构建成功的灾难恢复策略