高可用性、业务连续性、备份和灾难恢复 AWS

在自动化和智能代理大规模运行的人工智能驱动环境中,保持正常运行时间、保护数据以及为意外故障做好准备至关重要。 IBM watsonx Orchestrate 为韧性和恢复提供了坚实的框架。

本部分介绍:

通过理解并实施这些实践,您可确保组织具备从事件中快速恢复的能力,并维持业务连续性。

后备责任

确保数据的安全性和可恢复性是 IBM 和客户的共同责任。 IBM 提供基础设施级保护,客户则负责管理自己数据资产的备份和恢复。

核心数据与客户数据的对比

关键数据 :指恢复和运行 watsonx Orchestrate 服务所需的内部系统级信息。 它包括对平台运行至关重要的内部配置、服务逻辑和操作元数据。 IBM Cloud 的灾难恢复(DR)流程旨在保护和恢复这些数据。

客户数据 :这包括客户在使用 watsonx Orchestrate 期间创建或上传的任何内容、文件或配置。 客户数据不被视为 watsonx Orchestrate 运营的必要数据,因此不包含在 IBM 的灾难恢复(DR)承诺范围内。 客户有责任备份自己的数据。

客户职责

作为该服务的用户,您需要主动管理以下类型数据的备份和恢复:

  • 训练数据:用于训练人工智能模型的数据集,其中可能包括敏感或专有信息。

  • 定制模型数据:在开发和微调模型过程中生成的数据,这些模型是根据您的特定使用场景量身定制的。

  • 生成定制模型:通过您的训练和定制工作最终创建的人工智能模型。

数据删除和恢复

watsonx Orchestrate 确保客户即使在数据被删除后,仍有短暂的时间窗口来恢复关键数据。

延迟删除数据

  • 从服务实例中删除客户数据时,不会立即删除。

  • 这种有意延迟提供了一个宽限期,在此期间删除的数据仍可恢复,有助于防止意外或过早丢失数据。

自动备份计划

  • IBM 每12小时对存储在支持数据库中的客户数据执行自动备份。

  • 这些备份保留在一个滚动的 12 小时窗口内,这意味着只有最近的备份才能用于恢复。

恢复过程

如果需要从 PostgreSQL 或 MongoDB 数据库中恢复数据,且数据在最近 12 小时的备份窗口内:

  • 联系 IBM 支持团队以启动恢复流程。

  • IBM 帮助您从最近的备份快照中检索和恢复数据。

人工智能助理数据管理

  • 对于使用人工智能助理生成器创建的人工智能助理,可直接从人工智能助理生成器界面下载数据。

  • 您可以手动备份助理配置和内容,而无需依赖自动备份周期。 如需更多信息,请参阅 《备份和还原 AI 助手数据》

高可用性

IBM watsonx Orchestrate 该系统在设计时特别注重韧性、可靠性和不间断的服务交付。

区域内数据冗余

watsonx Orchestrate 自动在同一地理区域内的多个可用区之间复制数据。 这些区域是相互连接的物理上独立的数据中心。 这种设置可确保在一个区域出现故障时,服务可从另一个区域继续运行,而对性能的影响极小或没有影响。

自动数据复制

IBM 自动处理复制过程,无需客户进行任何人工干预。 这种复制特别适用于

  • 训练数据

  • 自定义模型数据

这可确保关键数据始终受到保护并随时可用,即使在意外中断时也是如此。

成本效益

自动数据复制无需额外成本,也不会产生额外的基础设施或运营费用。

业务影响

  • 停机时间最小化:确保对服务和数据的持续访问。

  • 增强可靠性:支持 IBM 的 99.9 % SLA 承诺。

  • 业务连续性:实现无缝用户体验。

AWS GovCloud (美国)

注:
  • 针对 GovCloudAWS 美国地区的所有高可用性(HA)和灾难恢复(DR)功能均与商业版保持一致 AWS ,同时符合合规要求。

  • 所有高可用性-灾备操作均发生于 AWSGovCloud (美国)。

  • 备份数据(快照、文件)存储在 GovCloudAWS (美国) S3 存储桶中。

  • 它确保所有数据都保持在边界 FedRAMP-approved 内。

可用性目标

IBM 致力于提供高度可靠且具有韧性的服务。 为践行这一承诺, IBM 在其针对 watsonx Orchestrate 的《服务级别协议》(SLA)中明确规定了可用性目标。

可用性目标是指在某一个月中,预计服务完全正常运行并可供客户使用的时间占总时间的百分比。 IBM 为客户提供以下可用性服务级别协议(SLA):

表 1. 表1。 watsonx Orchestrate 的 SLA

可用性目标

目标值

可用性百分比

99.9%

职责概述

区域

IBM 责任

客户责任

区域内数据复制

支持

不受支持

自动备份(每 12 小时一次)

支持

不受支持

备份保留时间(12 小时窗口)

支持

不受支持

数据恢复 ( PostgreSQL, MongoDB )

支持 (通过支持)

不受支持

SLA 承诺 ( 99.9 % 正常运行时间)

支持

不受支持

手动备份培训数据

不受支持

支持

手动备份自定义模型数据

不受支持

支持

手动备份生成的模型

不受支持

支持

手动下载人工智能助手数据

不受支持

支持

多区域灾难恢复

不受支持

支持

跨区域路由和负载平衡

不受支持

支持

安全策略同步

不受支持

支持