高可用性、业务连续性、备份和灾难恢复 AWS
在自动化和智能代理大规模运行的人工智能驱动环境中,保持正常运行时间、保护数据以及为意外故障做好准备至关重要。 IBM watsonx Orchestrate 为韧性和恢复提供了坚实的框架。
本部分介绍:
通过理解并实施这些实践,您可确保组织具备从事件中快速恢复的能力,并维持业务连续性。
后备责任
确保数据的安全性和可恢复性是 IBM 和客户的共同责任。 IBM 提供基础设施级保护,客户则负责管理自己数据资产的备份和恢复。
核心数据与客户数据的对比
关键数据 :指恢复和运行 watsonx Orchestrate 服务所需的内部系统级信息。 它包括对平台运行至关重要的内部配置、服务逻辑和操作元数据。 IBM Cloud 的灾难恢复(DR)流程旨在保护和恢复这些数据。
客户数据 :这包括客户在使用 watsonx Orchestrate 期间创建或上传的任何内容、文件或配置。 客户数据不被视为 watsonx Orchestrate 运营的必要数据,因此不包含在 IBM 的灾难恢复(DR)承诺范围内。 客户有责任备份自己的数据。
客户职责
作为该服务的用户,您需要主动管理以下类型数据的备份和恢复:
训练数据:用于训练人工智能模型的数据集,其中可能包括敏感或专有信息。
定制模型数据:在开发和微调模型过程中生成的数据,这些模型是根据您的特定使用场景量身定制的。
生成定制模型:通过您的训练和定制工作最终创建的人工智能模型。
数据删除和恢复
watsonx Orchestrate 确保客户即使在数据被删除后,仍有短暂的时间窗口来恢复关键数据。
延迟删除数据
从服务实例中删除客户数据时,不会立即删除。
这种有意延迟提供了一个宽限期,在此期间删除的数据仍可恢复,有助于防止意外或过早丢失数据。
自动备份计划
IBM 每12小时对存储在支持数据库中的客户数据执行自动备份。
这些备份保留在一个滚动的 12 小时窗口内,这意味着只有最近的备份才能用于恢复。
恢复过程
如果需要从 PostgreSQL 或 MongoDB 数据库中恢复数据,且数据在最近 12 小时的备份窗口内:
联系 IBM 支持团队以启动恢复流程。
IBM 帮助您从最近的备份快照中检索和恢复数据。
人工智能助理数据管理
对于使用人工智能助理生成器创建的人工智能助理,可直接从人工智能助理生成器界面下载数据。
您可以手动备份助理配置和内容,而无需依赖自动备份周期。 如需更多信息,请参阅 《备份和还原 AI 助手数据》。
高可用性
IBM watsonx Orchestrate 该系统在设计时特别注重韧性、可靠性和不间断的服务交付。
区域内数据冗余
watsonx Orchestrate 自动在同一地理区域内的多个可用区之间复制数据。 这些区域是相互连接的物理上独立的数据中心。 这种设置可确保在一个区域出现故障时,服务可从另一个区域继续运行,而对性能的影响极小或没有影响。
自动数据复制
IBM 自动处理复制过程,无需客户进行任何人工干预。 这种复制特别适用于
训练数据
自定义模型数据
这可确保关键数据始终受到保护并随时可用,即使在意外中断时也是如此。
成本效益
自动数据复制无需额外成本,也不会产生额外的基础设施或运营费用。
业务影响
停机时间最小化:确保对服务和数据的持续访问。
增强可靠性:支持 IBM 的 99.9 % SLA 承诺。
业务连续性:实现无缝用户体验。
针对 GovCloudAWS 美国地区的所有高可用性(HA)和灾难恢复(DR)功能均与商业版保持一致 AWS ,同时符合合规要求。
所有高可用性-灾备操作均发生于 AWSGovCloud (美国)。
备份数据(快照、文件)存储在 GovCloudAWS (美国) S3 存储桶中。
它确保所有数据都保持在边界 FedRAMP-approved 内。
可用性目标
IBM 致力于提供高度可靠且具有韧性的服务。 为践行这一承诺, IBM 在其针对 watsonx Orchestrate 的《服务级别协议》(SLA)中明确规定了可用性目标。
可用性目标是指在某一个月中,预计服务完全正常运行并可供客户使用的时间占总时间的百分比。 IBM 为客户提供以下可用性服务级别协议(SLA):
可用性目标 | 目标值 |
|---|---|
可用性百分比 | 99.9% |
职责概述
区域 | IBM 责任 | 客户责任 |
|---|---|---|
区域内数据复制 |
|
|
自动备份(每 12 小时一次) |
|
|
备份保留时间(12 小时窗口) |
|
|
数据恢复 ( PostgreSQL, MongoDB ) |
|
|
SLA 承诺 ( 99.9 % 正常运行时间) |
|
|
手动备份培训数据 |
|
|
手动备份自定义模型数据 |
|
|
手动备份生成的模型 |
|
|
手动下载人工智能助手数据 |
|
|
多区域灾难恢复 |
|
|
跨区域路由和负载平衡 |
|
|
安全策略同步 |
|
|