灾难恢复示例和用例

成功的企业主知道，当意外事件导致正常运营关闭时，制定计划是多么重要。现代企业面临多种类型的灾难，包括流行病、网络攻击、大规模停电和自然灾害。去年，全球公司在网络安全和安全解决方案上花费了近 2190 亿美元，比上一年增长了 12%（源自 International Data Corporation (IDC) 报告）。

领导者知道他们需要做好准备，但需要考虑的解决方案和场景数量可能非常多。在本文中，我们将探讨一些常见威胁以及灾难恢复计划 (DRP) 和解决方案如何优化应对能力。

首先介绍一些常用术语：

灾难恢复 (DR)：灾难恢复 (DR) 是指企业从影响正常业务运营的意外事件中恢复的能力。强大的 DR 规划可帮助企业在几天、几小时甚至几分钟内保护关键数据并恢复正常流程。
灾难恢复计划 (DRP)：灾难恢复计划 (DRP) 是一份文档，明确概述企业如何从意外事件中恢复。除业务连续性计划 (BCP) 之外，DRP 还帮助企业为不同的情况做好准备，例如自然灾害、大面积停电、勒索软件攻击和恶意软件攻击。
故障转移/故障恢复：故障转移是一种广泛使用的策略，当主系统因意外事件发生故障时，企业会将有价值的数据或功能转移到辅助系统。故障恢复是在威胁得到缓解后将运营切换回初始系统的过程。故障转移和故障恢复都使用数据复制，并广泛应用于数据中心和通信网络的灾难恢复策略。
虚拟化恢复计划 (VRP)：虚拟化恢复计划是按需软件即服务 (SaaS)，依赖于虚拟机 (VM) 实例，这些实例可以在中断后的几分钟内准备好运行。虚拟机 (VM) 及其配套应用程序是物理计算机的表示或仿真，通过高可用性 (HA) 或在不发生故障的情况下连续运行工作负载的系统能力，来提供关键应用程序恢复功能。
恢复时间目标 (RTO) 和恢复点目标 (RPO)：RTO 和 RPO 是指发生意外事件后恢复业务运营所需的时间，以及企业在攻击期间可能丢失但仍能恢复的数据量。确立 RTO 和 RPO 是恢复过程中的关键步骤。一些企业通过不断对远程数据中心执行数据备份来容忍零 RPO，从而在发生大规模泄露时确保数据完整性。其他企业则将可容忍的 RPO 设定为几分钟（甚至几个小时），因为这些企业有信心在这么短的时间内从损失中恢复过来。

企业灾难恢复的好处

灾难可能会给企业带来各种各样的问题。从断开对关键物理资产的访问的洪水到危及数据保护或 IT 基础设施的网络攻击，灾难恢复计划有助于在任何威胁下确保业务连续性。以下是投资灾难恢复解决方案的公司可获得的一些最常见好处：

业务连续性：业务连续性和业务连续性灾难恢复 (BCDR) 有助于确保各组织在发生意外事件后恢复正常运营。制定业务连续性策略有助于在发生意外事件后恢复关键的远程和本地业务功能，同时恢复利益相关者、客户和投资者的信心。
降低成本：根据 IBM 最近的《数据泄露成本报告》，去年数据泄露的平均成本为 445 万美元，在过去 3 年间增长了 15%。没有灾难恢复计划的企业将承担不必要的风险，因为成功攻击所产生的成本和罚款可能远超不投资灾难恢复计划所节省的资金。
减少停机时间：当今业绩最好的企业往往依靠复杂的技术来开展最关键的业务运营。当通信网络或基础设施等关键技术发生意外中断时，公司可能会损失数百万美元。此外，许多网络攻击或人为错误相关中断的倍受瞩目性质以及经常分析的网络停机时间长度通常会导致客户和投资者逃离。
增强合规能力：许多成功的企业都在医疗保健和个人理财等监管严格的领域开展业务。鉴于数据的关键和个人性质，这些行业会对数据泄露处以巨额罚款并进行惩罚。灾难恢复解决方案有助于缩短遇到意外事件的企业的响应和恢复生命周期，这对于经济处罚金额通常与泄露的持续时间和严重程度相关的行业至关重要。

企业灾难恢复的工作原理

如果相关组织因意外事件而面临中断，企业灾难恢复策略将发挥关键作用。以下是一个广泛使用的五步流程，可帮助相关组织做好准备应对各种威胁：

进行业务影响分析：首先评估公司可能面临的每种威胁及其对业务运营的潜在影响。考虑每种潜在威胁可能如何影响关键服务，并如何导致收入损失、停机或声誉修复（公共关系）。
分析风险：既然已经列出了公司面临的风险，就可以试着评估每种风险的可能性。风险分析是一个根据每种风险的潜在影响和可能性对其进行排序，然后确定其优先顺序的过程。
编制资产清单：资产清单有助于识别硬件、软件、IT 基础设施以及企业运行可能需要的任何其他东西。确定所有资产后，将其分为三类：关键、重要 和不重要：
- 关键：正常业务运营所需的资产。
- 重要：每天至少使用一次，一旦中断会对业务运营造成影响但不会完全关闭的资产。
- 不重要：企业不经常使用，且对正常运营非必要的资产。
确定角色和职责：明确列出职责，让团队成员知道在发生灾难时他们应该做些什么。通常分配的角色示例包括：事件报告者，职责是在整个灾难期间与利益相关者进行沟通；资产经理，职责是确保事件期间资产的安全；以及 DRP 主管，职责是管理团队成员并确保他们执行为他们分配的任务。
演练和完善：企业灾难恢复需要不断练习和完善才能有效。根据团队表现定期更新计划。始终关注组织随时间发生的变化，并确保添加自制定 DRP 以来可能获得的任何新资产，确保它们未来受到保护。

企业灾难恢复用例

根据企业的规模、行业和灾难恢复的优先级，有许多不同的计划需要考虑。执行业务影响分析 (BIA) 和风险分析 (RA) 后，企业可能会认为需要为不同的资产（例如仓库、数据中心、关键设备或其他）制定不同的灾难恢复计划。

无论需要保护什么，良好的 DRP 的总体目标都应该是尽可能快速、安全地恢复正常的业务流程。以下是五个企业灾难恢复用例，有助于更好地了解选择合适解决方案和制定有效计划的重要性。

自然灾害（洪水、地震、火灾等）

洪水、火灾和地震等自然灾害可能会威胁人类生命以及宝贵的建筑物、设备和软件。想象一下，到达工作地点时发现世界另一端的飓风已经将存放公司最贵重设备的仓库夷为平地。据《福布斯》报道，40% 的中小型企业 (SMB) 在自然灾害后永久关闭。强大的灾难恢复计划 (DRP) 可帮助公司应对各种自然灾害，确保最关键的基础设施（包括员工）安全无虞。

自然灾害恢复计划越来越受欢迎的一种做法是异地冗余。这种方法将重要的公司资产转移到异地，甚至分布在多个地点，有助于降低同一计划外事件影响多个地点的几率。

网络攻击

由于其引人注目且代价高昂的性质，网络攻击是企业可能面临的最具破坏性和代价最高的中断之一。为了从网络攻击中恢复，企业通常会求助于灾难恢复即服务 (DRaaS) 提供商。采用 DRaaS 方案来制定 DRP 的公司实质上是将其 DRP 外包给服务提供商。DRaaS 提供商托管并管理恢复所需的基础设施，然后制定和管理响应计划，确保在遭受攻击后迅速恢复关键业务运营。

根据 Global Market Insights (GMI) 的最新报告（ibm.com 外部链接），DRaaS 的市场规模在 2022 年为 115 亿美元，预计在 2023 年增长 22%。DRaaS 提供商可以帮助公司解决由网络攻击造成的各种问题，包括恢复对受影响系统的访问、减少停机时间、恢复投资者的信心以及确保受到严格监管行业的合规性。

云或本地服务器故障

为了减轻云供应商或本地服务器供应商服务中断所造成的损害，许多企业采用故障转移/故障恢复流程。根据灾难恢复计划 (DRP)，在云、多云或本地服务器发生故障时，运行故障转移/故障恢复的系统将立即切换到备用环境。在此环境下，业务运营正常进行，可无限期地继续运行云服务。在某些情况下，用户甚至不知道使用的是备用环境，而不是常规的云计算环境。在主服务器恢复正常运行后，便会切换回来，并关闭辅助服务器。这种无缝转换有助于防止数据丢失，并确保重要服务不受中断影响始终保持正常运行。

网络连接故障

除了网络攻击外，网络故障还可能导致数百万美元的停机，并给公司带来破坏性的新闻周期。制定完善的网络恢复计划有助于企业从各种关键业务中断中恢复过来，包括互联网接入、蜂窝通信、局域网 (LAN) 和广域网 (WAN)。

由于如此多的企业依赖网络服务进行核心业务运营，因此，网络恢复计划和解决方案必须清楚地记录恢复服务所需的程序和责任。与网络攻击 DRP 一样，网络故障 DRP 越来越多地被外包给拥有专门资源和专业知识的 DRaaS 提供商。

数据中心崩溃

数据中心瘫痪会给企业带来各种问题。数据存储的一些常见威胁包括断电、人员过度劳累，这些可能导致人为错误且难以遵守合规性要求。数据中心灾难恢复计划着重于设施的安全性以及员工在发生意外事件后恢复正常工作的能力。

数据中心 DRP 评估风险并分析关键组件，例如物理环境、连接、电源和安全性。由于数据中心面临着各种潜在威胁，其 DRP 涵盖的范围往往比其他设施更广泛。

企业灾难恢复解决方案为您保驾护航

在当今快速发展、竞争激烈的商业环境中，即使是一次微小中断也可能颠覆一家企业。对可扩展、功能强大且经济实惠的备份和恢复解决方案的需求从未如此之大。Veeam on IBM Cloud 为企业的整个混合云提供可预测的备份和快速恢复，让企业能够更轻松地将本地工作负载和备份迁移到云端来进行灾难恢复。

作者

Mesh Flinders

Staff Writer

IBM Think

企业灾难恢复用例：如何让企业做好准备应对现实威胁