什么是备份和灾难恢复?
了解备份和灾难恢复的基本知识,以便制定有效的计划,最大程度减少宕机时间。
黑蓝相间的背景
什么是备份和灾难恢复?

了解备份和灾难恢复的基本知识,以便制定有效的计划,最大程度减少宕机时间。

  • 认识备份和灾难恢复的区别,了解对于制定有效策略至关重要的关键概念

  • 评估多云和本地部署选项,找到适合您组织的方案

  • 识别实现备份和灾难恢复目标的最佳技术

若要最大限度降低计划外宕机对业务造成的影响,就务必要了解备份和灾难恢复的基本要素。 各行各业的组织都已经认识到,宕机会迅速导致收入损失。 不幸的是,自然灾害、人为错误、安全违规和勒索软件攻击都会破坏 IT 资源的可用性。 任何宕机时间都会破坏客户互动、削弱员工生产力、破坏数据和中断业务流程。

将备份与灾难恢复区分开来,定义关键术语并评估各种部署选项和技术,有助于制定有效策略来规避宕机造成的后果。

什么是备份和灾难恢复?

备份和灾难恢复之间有一个重要的区别。 备份是指额外制作一份或多份数据副本的过程。 备份数据是为了保护数据。 如果遇到意外删除、数据库损坏或软件升级问题,就可能需要还原备份数据。

而另一方面,灾难恢复则指的是在中断服务后,快速恢复对应用、数据和 IT 资源访问的计划和流程。 该计划可能包括切换到冗余服务器和存储系统,直到主数据中心恢复正常运行。

一些组织误将备份当做灾难恢复。 但他们可能会在经历严重的中断事件后发现这个问题,只有数据备份并不意味着可以保持业务持续运行。 为了确保业务连续性,您需要一个可靠且经过检验的灾难恢复计划。

规划的重要性

忽视备份或灾难恢复可能会造成难以承受的后果。 如果意外删除数据后,需要几个小时才能找回丢失的数据,那么您的员工或合作伙伴就只能干等,而无法完成那些依赖于您的技术的业务关键型流程。 如果发生灾难后,需要几天才能让业务恢复联机,那么您可能会永久失去客户。 考虑到这两种情况下可能损失的时间和金钱,投资备份和灾难恢复完全合情合理。

关键术语

了解一些基本术语可帮助您做出战略性决策,并能够更好地评估备份和灾难恢复解决方案。

  • 恢复时间目标 (RTO) 是指服务中断后恢复正常业务运营所需的时间。 在您设定 RTO 时,需要考虑您愿意损失多少时间,以及这些时间对利润的影响。 业务类型不同,RTO 可能有很大差别。 例如,一个公共图书馆丢失了编目系统,或许在系统恢复的过程中,仍可以靠人工正常运行几天。 但如果一家大型线上零售商失去了库存系统,哪怕宕机时间只有 10 分钟,造成的收入损失也是无法接受的。
  • 恢复点目标 (RPO) 指的是发生灾难时,您能够承受失去多少数据。 您可能需要不断地将数据复制到远程数据中心, 这样服务中断就不会造成任何数据丢失。 或者,您可能决定可以接受丢失五分钟或一个小时的数据。

  • 故障转移是指以一种用户察觉不到的方式自动将任务卸载到备份系统的灾难恢复过程。 您可以从主数据中心故障转移到辅助站点,并由冗余系统准备好立即接管。

  • 故障恢复是指切换回原始系统的灾难恢复过程。 一旦灾难结束并且主数据中心恢复正常运行,您应该也能够无缝进行故障恢复。

  • 还原是指将备份数据传输到主系统或数据中心的过程。 还原过程一般被认为是备份而不是灾难恢复的一部分。

在考虑管理灾难恢复流程和灾难恢复环境的备选方案时,最后一个术语或许很有用:

  • 灾难恢复即服务 (DRaaS) 是一个用于灾难恢复的托管式方法。 由第三方托管和管理用于灾难恢复的基础架构。 一些 DRaaS 服务可能提供工具来管理灾难恢复流程,或者使组织能够为他们管理这些流程。
划分工作负载优先级

理解了关键概念后,就该将它们应用于工作负载了。 许多组织设定多个 RTO 和 RPO 来反映每个工作负载对他们业务的重要性。

对于大型银行,网上银行系统可能是关键工作负载,银行需要尽可能减少时间和数据损失。 而银行的员工时间跟踪应用则相对不那么重要。 在发生灾难时,银行允许该应用宕机几个小时甚至一天,而不会对业务造成重大负面影响。 将工作负载定义为第 1 层、第 2 层或第 3 层,可以帮助为灾难恢复计划提供一个框架。

评估部署选项

设计灾难恢复计划的下一步是评估部署选项。 您是否需要在本地保留一些灾难恢复功能或备份数据? 您会从公有云混合云方法中获益吗?

在各种规模的组织中,基于云的备份和灾难恢复解决方案都越来越受欢迎。 许多云解决方案都提供了数据存储基础架构,在某些情况下,还为管理备份和灾难恢复过程提供了工具。

通过选择基于云的备份或灾难恢复服务,就能避免投入大量资本来建立基础架构,也避免了环境管理成本。 此外,您还能获得快速可扩展性,并保持必要的地理距离,这样在发生区域性灾难时,就可以保护数据安全。

云备份和灾难恢复解决方案可以支持本地和云生产环境。 例如,您可能会决定,仅将备份的或复制的数据存储在云端,而将生产环境保留在自己的数据中心。 通过这种混合方法,您仍能获得可扩展性和地理距离的优势,而不必移动生产环境。 在云到云模型中,生产和灾难恢复都位于云端,但在不同的站点上,因此可以确保足够的物理距离。

本地

在某些情况下,将特定备份或灾难恢复过程保留在本地,可以帮助快速检索数据和恢复 IT 服务。 如果您需要遵守严格的数据隐私或数据主权规定,在本地保留一些敏感数据似乎也很有说服力。

对于灾难恢复,一个完全依赖本地环境的计划必将充满挑战。 如果发生自然灾害或电力中断,包括主系统和辅助系统在内的整个数据中心都将受到影响。 正因如此,大多数灾难恢复战略会距离主数据中心一定距离部署另一个辅助站点。 您可以将该辅助站点安排在同一座城市、同一个国家甚至是地球的另一端,这取决于您决定如何平衡各个因素,例如性能、合规性和对辅助站点的实地访问。  

技术

根据所选部署选项,针对备份和灾难恢复所使用的技术类型和流程,您或许有几种备选方案。

传统磁带

尽管已存在数十年之久,传统磁带存储在备份计划中仍占一席之地。 通过磁带解决方案,您可以可靠且经济高效地存储大量数据。

虽然磁带可以有效备份,但通常不会用于灾难恢复,因为灾难恢复需要更快访问基于磁盘的存储。 此外,如果您需要从异地保险库取回磁带,可能会失去几个小时甚至几天的可用性。

基于快照的复制

基于快照的备份可捕获某一时间点应用或磁盘当时的状态。 这种方法仅写入自上次快照以来更改的数据,因此可以在帮助保护数据的同时节省存储空间。

基于快照的复制可用于备份或灾难恢复。 当然,数据的完整性完全取决于最新快照的完整性。 如果每小时采集一次快照,您必须能接受失去一小时的数据。

连续复制

许多组织正转而采用连续复制作为灾难恢复和备份方法。 通过这种方法,磁盘或应用的最新副本将持续复制到另一个地点或云端,从而尽可能地减少宕机时间,并提供更细密的恢复点。

相关解决方案
云灾难恢复解决方案

通过云灾难恢复计划保护您的数据。

探索云灾难恢复解决方案
面向备份和恢复的 IBM Cloud® Object Storage

了解 IBM Cloud® Object Storage 如何为数据备份提供高度持久、可扩展且非常安全的目的地。

探索 Cloud Object Storage
资源 IBM Cloud 专业站点可靠性工程师 (SRE) 培训和认证

通过 IBM 的专业级培训和认证,提升您的技能水平,成为一名 SRE。 利用 IBM Cloud 环境和工具获取知识,并在虚拟实验室中完成练习。

什么是数据中心?

了解数据中心 - 使企业和云计算成为可能的物理设施。

采取下一步行动

对于大多数组织而言,备份和灾难恢复策略是维持企业正常运转的关键所在。IBM 云灾难恢复解决方案可以帮助您评估和更新策略,从而帮助您控制复杂性和成本。

了解有关 IBM 云灾难恢复解决方案的更多信息