什么是灾难恢复计划 (DRP)?

会议室、窗口和正在打电话的女商人

什么是 DRP?

灾难恢复计划 (DRP) 是一份详细的文件,概述了组织如何有效应对意外事件并恢复业务运营。

DRP 能帮助企业做好应对各种 灾难的准备, 包括 停电、 勒索软件 和 恶意软件 攻击、 自然灾害 等。

强大的 DRP 能够迅速有效地在灾难后恢复连接并修复数据丢失。根据 International Data Corporation 发布的《Worldwide Semiannual Security Products Tracker》,2023 年全球安全产品总收入达 1068 亿美元,较 2022 年增长 15.6%。

什么是业务连续性计划?

与  DRP 一样,业务连续性计划 (BCP) 也是 灾难恢复 过程 的一部分,可帮助企业在灾难发生后恢复 正常运营 。BCP 通常比  DRP 更宏观地审视威胁及应对措施,其重点在于明确公司在事件发生后恢复基本 业务功能 所需的一切。

什么是事件响应计划?

事件响应计划 (IRP) 是一种专门针对 网络安全 和 信息系统威胁的  DRP 。IRP 明确概述了组织从发现威胁到 缓解 和解决威胁的整个过程中的 应急响应 。IRP 旨在解决 网络攻击 造成的具体损害,并专注于应对对技术、 IT 基础设施、 业务运营 和声誉威胁的 防范 。

男子正在看电脑

增强安全情报


每周在 Think 时事通讯中获取有关安全、AI 等的新闻和洞察分析,从而预防威胁。

为什么拥有灾难恢复计划很重要?

DRP 在制定整体安全计划方面发挥着至关重要的作用,有助于确保 利益相关者、客户和投资者相信企业以负责任的方式运营。不采取必要措施确保 做好准备 的企业面临各种风险,包括代价高昂的 数据丢失、 运营停机、经济处罚和声誉受损。

以下是企业在投资强大的 DRP 后可享受的一些好处:

缩短 停机时间

当今许多顶级企业的 正常运营在很大程度上都依赖于技术。如果意外事件导致业务中断,可能会造成数百万的损失。 网络攻击 的高调性和经常被分析的 停机时间  也会导致客户和投资者失去信心。经过严格测试的强大  DRP  可帮助公司在发生意外事件后迅速恢复正常运行。

降低恢复成本

事故后的恢复工作可能代价高昂。根据  IBM 最近的数据泄露成本报告,2023 年数据泄露的平均成本为 445 万美元,比过去三年增长了 15%。 企业可通过实施强大的  DRP  大幅降低 业务恢复 成本和意外事故造成的其他后果。同一报告发现,与未使用安全 AI 和自动化技术的组织相比,广泛使用相关技术的组织平均可节省 176 万美元。

降低网络保险费用

由于 网络攻击的规模和频率,许多企业依靠网络保险来保护自己免遭危险的安全漏洞。许多保险公司不会为没有建立强有力的  DRP  的企业投保。DRP  有助于降低企业在保险公司的整体风险状况,并有助于降低保费。

监管严格的行业罚款较少

在医疗保健和个人金融等受到严格监管的行业中运营的企业,会因数据泄露而面临巨额罚款和处罚。缩短响应和恢复周期对这些行业中至关重要,因为经济处罚金额通常与违规的持续时间和严重程度有关。拥有稳健 DRP 的企业能够更迅速、更全面地从计划外事件中恢复,从而减少因此面临的罚款。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

灾难恢复计划如何运作?

最有效的 DRP 是与强大的 BCP 和 IRP 同时制定的,它们可在事件发生时提供重要支持。我们来看一些关键术语,这些术语对于理解  DRP  的工作原理以及构建自己的 DRP 时要考虑的事项至关重要:

故障转移或故障恢复

当主系统因 断电、 网络攻击 或其他威胁而发生故障时,IT 操作会被转移到辅助系统上,故障转移是一种广泛使用的流程。故障恢复是在系统恢复后切换回原始系统的过程。例如,企业可能会从其 数据中心 故障转移到备用站点,在那里冗余系统会立即生效。如果运行得当,故障转移或故障恢复可以实现无缝切换,用户或客户甚至完全察觉不到自己已被转移到备用系统。

恢复时间目标 (RTO)

RTO  是指意外事件发生后恢复 业务运营所需的时间。建立合理的 RTO 是企业在创建 DRP 时首先要做的事情之一。

恢复点目标 (RPO)

企业的 RPO  是指企业在灾难中能够承受的、仍能恢复的数据丢失量。一些企业不断将数据复制到远程 数据中心 ,以确保在发生大规模漏洞时数据的连续性。其他人将可容忍的  RPO  设置为几分钟或几小时,这样他们就知道可以恢复这段时间内的任何损失。

灾难恢复即服务 (DRaaS)

由于人们对数据安全重要性的认识不断提高,DRaaS 近来越来越受欢迎。采用 DRaaS 方法创建 DRP 的公司将灾难恢复外包给第三方。第三方将托管和管理恢复所需的基础设施,然后制定和管理响应计划,并确保迅速恢复关键业务运营。根据 Global Market Insights 的最新报告,DRaaS 的市场规模在 2022 年为 115 亿美元,并预计 2023 年将增长 22%。

基础设施技术灾难恢复计划的类型

随着网络犯罪的盛行及其日益复杂化,大多数组织都将 DRP 的工作重点放在其 IT 基础设施上,包括关键数据备份程序(现场和异地备份)和数据保护措施。以下是一些针对特定威胁或业务需求而定制的 IT 灾难恢复计划的示例:

数据中心恢复计划

数据中心 DRP 侧重于数据中心设施的整体安全性及其在意外事件发生后恢复运行的能力。数据存储面临的一些常见威胁包括人员过度负荷导致的人为错误、网络攻击、停电以及难以遵守合规要求。数据中心 DRP 会创建运营风险评估,分析物理环境、连接性、电源和安全性等关键组件。由于数据中心面临着各种潜在威胁,其 IT DRP 涵盖的范围往往比其他设施更广泛。

网络恢复计划

网络 DRP 依靠一组明确的步骤来帮助组织从网络服务中断中恢复,包括互联网访问、蜂窝数据、局域网和广域网。考虑到网络服务对业务运营的重要性,有效的网络 DRP 必须明确概述在网络发生入侵后快速有效地恢复服务所需的步骤、角色和责任。

虚拟化恢复计划

虚拟化的  DRP  可以显著提高恢复工作的效率和速度。虚拟化的  DRP  依赖于 虚拟机  (VM) 实例,可在几分钟内准备就绪投入运行。虚拟机是对物理计算机的表示或仿真,通过高可用性提供 关键应用程序 恢复的能力,或使系统持续运行而不发生故障。

基于云的恢复计划

鉴于云计算在许多企业工作量中的普及,针对云服务恢复而量身定制的 DRP 正变得越来越普遍。云 DRP 概述了一系列步骤,确保云数据得到备份,并且能够顺利恢复依赖云的应用程序和系统。

制定 灾难恢复计划的五个步骤

 DRP  的制定始于对 业务流程的分析、风险评估和几个明确的恢复目标的设定。虽然没有可靠的通用 模板,但无论公司规模或所属行业如何,都可以采取一些步骤来确保拥有应对各种突发事件的流程。

第 1 步:开展业务影响分析

业务影响分析 (BIA) 是对公司可能面临的每种威胁及其可能造成的后果进行的仔细评估。强大的 BIA 会检查潜在威胁如何影响日常运营、沟通渠道和工人安全等方面。BIA 可能考虑的一些例子包括收入损失、 停机成本、声誉修复成本(公共关系)、客户和投资者损失(短期和长期)以及因违规而产生的任何处罚。

第 2 步:分析风险

不同行业和类型的企业面临不同的威胁,因此风险分析对于确定如何应对每一种威胁至关重要。您可以通过考虑其发生的可能性和潜在影响来分别评估每种风险。有两种常用的风险确定方法:定性风险分析和定量风险分析。定性分析基于感知的风险,而定量分析则通过可验证的数据进行。

第 3 步:创建资产清单

要从网络事件中恢复,全面了解企业拥有的资产至关重要。定期盘点有助于识别对业务运营至关重要的硬件、软件、IT 基础设施、数据和其他资产。您可以使用诸如“关键”、“重要”和“不重要”之类的标签作为起点,将资产分为三大类别,然后再根据需要为其分配更具体的标签:

  • 关键:仅当企业在日常业务运营中必需这些资产时,才将其标记为关键。
  • 重要:将此标签应用于每天至少使用一次的资产,若这些资产中断,会对业务运营产生影响(但不会完全导致停摆)。
  • 不重要:此类资产在企业内使用频率不高,对正常业务运营并非不可或缺。

第 4 步:确立角色和职责

DRP 中的角色和职责无缝最为关键。如果没有明确的角色和职责划分,当意外事件发生时,没人知道该怎么办。虽然具体角色和职责因业务类型而有所差异,但大多数 DRP 中通常包含以下典型角色和职责:

  • 事件报告:应为每个部门指定一名或多名负责人,专门负责发生中断事件时与管理团队、利益相关者和所有相关机构进行沟通。
  • DRP  管理: 应指定一名  DRP  主管,负责监督 团队成员 是否执行分配的任务,并确保  DRP  的顺利运行。
  • 资产保护: 当灾难发生时,您应该让专人负责保护最 关键资产的安全,并向管理层和利益相关者汇报资产状况。
  • 第三方沟通:您应该指定一个人负责与您作为 DRP 的一部分雇用的任何第三方供应商进行协调。此人应不断向任何相关利益相关者通报 DRP 的最新进展情况。

第 5 步:测试和优化

为确保您的 DRP 在实际事件发生期间无缝展开,您需要定期进行练习,并根据您的业务所发生的任何有意义的变化进行更新。例如,如果贵公司在  DRP 制定后获得了一项新资产,您就需要将其纳入您的计划,以确保其在未来受到保护。

测试和改进可以简化为以下三个步骤:

  1. 搭建精准的模拟环境:尝试搭建与公司可能面临的实际情况尽可能接近的环境,同时确保不会对任何人造成实际的安全风险。
  2. 发现问题:利用测试过程找出计划中的错误和不一致之处,然后在下一次迭代 DRP 时加以解决。
  3. 测试备份和恢复能力: 了解如何应对突发事件至关重要,但同样重要的是,要对在事件结束后恢复关键系统而制定的程序进行测试。测试如何让网络继续正常运行、恢复任何丢失的数据并恢复正常 业务运营。
相关解决方案
IBM Storage Defender

通过备份、支持 AI 的威胁检测和快速恢复,保护您的数据免受不断演变的威胁,无论数据存储在何处。

深入了解 Storage Defender
存储数据备份和恢复

加快企业备份和恢复流程,帮助本地和云工作负载快速检索数据和恢复 IT 服务。

深入了解备份和恢复解决方案
云灾难恢复解决方案

使用云灾难恢复计划保护您的数据并降低停机时间风险。

深入了解云灾难恢复
采取后续步骤

保护数据安全,确保工作负载可用,通过早期威胁检测、多层保护和快速恢复等功能实现。了解 IBM Storage Defender 如何帮助您保护信息供应链。

深入了解 Storage Defender 预约实时演示