고가용성, 비즈니스 연속성, 백업 및 재해 복구에 대한 IBM Cloud
고가용성(HA)은 하드웨어 장애, 소프트웨어 문제 또는 사이트 수준의 중단이 발생하는 경우에도 애플리케이션과 서비스가 계속 액세스 가능하고 작동할 수 있도록 보장하는 IT 인프라의 핵심 분야입니다. 고가용성의 주된 목적은 단일 장애 지점을 제거하고 가동 중단 시간을 최소화하면서 서비스 연속성을 유지하는 것입니다.
가동 시간을 유지하고, 데이터를 보호하며, 예기치 않은 장애에 대비하는 것은 AI 에이전트 및 대규모 자동화를 사용할 때 필수적입니다.
이 섹션의 내용:
백업 책임 : IBM 에서 백업하는 데이터 및 고객이 보호할 책임이 있는 데이터는 무엇입니까?
저장소 세부 정보 : 백업이 저장되는 위치 및 백업이 가용성을 지원하는 방법
재해 복구 전략 : 주요 장애로부터 서비스를 복구하는 방법
복구 목표 : RTO 및 RPO 목표
고가용성 : IBM Cloud 가동 시간을 지원하는 방법
가용성 목표 : watsonx Orchestrate 은 어느 수준의 가용성을 목표로 설계되었나요?
이러한 영역을 이해하면 장애나 재해 발생 시 조직이 신속하게 복구하고 중단을 최소화할 수 있도록 준비할 수 있습니다.
백업 책임
IBM Cloud 와 같은 클라우드 기반 환경에서는 고객이 자신의 데이터 백업 및 복원을 관리할 책임이 전적으로 고객에게 있습니다. 이러한 책임은 데이터 무결성, 비즈니스 연속성, 내부 또는 규제 요건 준수를 보장하는 데 매우 중요합니다.
고려사항
1. IBM Cloud 고객별 데이터를 자동으로 백업하지 않습니다
즉, 실수로 삭제, 손상 또는 시스템 장애로 인해 데이터가 손실된 경우 자체 백업 전략을 구현하지 않는 한 IBM 에서 데이터를 복구할 수 없습니다.
2. 고객은 다음과 같은 자체 데이터 보호 전략을 구현해야 합니다
정기적이고 자동화된 백업
보안 스토리지(예: 암호화된 클라우드 스토리지)
버전 관리 및 보존 정책
복원 절차의 주기적 테스트
고객 데이터와 비교한 필수 데이터
필수 데이터 : 이는 watsonx Orchestrate 서비스를 복원하고 운영하기 위해 필요한 내부 시스템 수준의 정보를 의미합니다. 여기에는 플랫폼이 작동하는 데 중요한 내부 구성, 서비스 로직 및 운영 메타데이터가 포함됩니다. IBM Cloud 의 재해 복구(DR) 프로세스는 이러한 데이터를 보호하고 복구하도록 설계되었습니다.
고객 데이터 : 여기에는 고객이 watsonx Orchestrate 을 이용하는 동안 생성하거나 업로드한 모든 콘텐츠, 파일 또는 설정이 포함됩니다. 고객 데이터는 watsonx Orchestrate 의 운영에 필수적인 것으로 간주되지 않으며, IBM 의 재해 복구(DR) 약속의 적용 대상이 아닙니다. 고객은 자신의 데이터를 백업할 책임이 있습니다.
스토리지 세부사항
IBM Cloud 다중 영역 리전(MZR)을 통해 고가용성을 지원합니다. 이러한 지역은 동일한 지리적 영역 내에서 물리적으로 분리된 여러 가용 영역으로 구성됩니다. 자세한 내용은 ‘지역별 서비스 및 인프라 가용성’을 참조하십시오.
이 설정은 자동 장애 조치를 지원하고, 다운타임을 줄이며, 여러 영역에 걸쳐 확장 가능한 배포를 가능하게 합니다.
재해 복구 전략
재해란 애플리케이션을 심각하게 중단시켜 의도한 대로 작동하지 못하게 하는 모든 이벤트를 말합니다. 이는 단기적이거나 장기적으로 지속될 수 있으며 종종 금전적 또는 평판상의 피해를 초래합니다.
일반적인 재해 시나리오는 다음과 같습니다:
자연재해(예: 홍수, 화재, 지진)
인프라 장애(예: 정전 또는 네트워크 중단)
우발적 또는 악의적인 데이터 손실
소프트웨어 업데이트 결함
모든 경우에 재해 복구 계획은 복구 비용과 비즈니스 영향의 균형을 유지하면서 정해진 시간(RTO)과 데이터 포인트(RPO) 내에 서비스를 복구하는 데 필수적입니다.
IBM Cloud 재해 발생 시 몇 시간 내에 서비스를 복구할 수 있도록 비즈니스 연속성 계획을 마련해 두고 있습니다. 사용자는 데이터 백업 및 컨텐츠의 연관된 복구를 담당합니다.
재해 복구에는 치명적인 가동 중단 이후 시스템, 애플리케이션 또는 전체 데이터 센터를 완벽한 운용 상태로 리턴하기 위한 정책, 도구 및 프로시저 세트가 포함됩니다. 여기에는 설치된 시스템의 필수 데이터를 안전한 위치에 복사 및 저장하고 해당 데이터를 복구하여 정상 운영 상태로 복구하는 프로시저가 포함되어 있습니다. 자세한 내용은 재해 복구 관련 자주 묻는 질문을 참조하십시오.
책임
와 고객 IBM 간의 제품 IBM Cloud® 사용에 대한 책임 소재에 대한 자세한 내용은 을 참조하십시오 제품에 IBM Cloud 대한 공동 책임.
복구 목표
watsonx Orchestrate 데이터를 보호하고 서비스 기능을 복구할 수 있는 메커니즘을 제공합니다. 서비스에 대한 목표 RPO 및 RTO를 달성하기 위한 비즈니스 연속성 계획을 수립합니다. IBM Cloud 재난 선포 후 2시간 이내에 서비스를 복구하는 것을 목표로 합니다. 다음 표는 ‘ watsonx Orchestrate ’의 목표를 요약한 것입니다.
메트릭 | 정의 | 목표 값 |
|---|---|---|
RPO(복구 지점 목표) | 시간 내에 측정된 최대 허용 데이터 손실 | 2시간 |
RTO(복구 시간 목표) | 재해 후 서비스 복구에 걸리는 최대 시간 | 2시간 |
높은 가용성
나에게 필요한 가용성 레벨은 무엇입니까?
IT 인프라의 다른 레벨 및 클러스터의 다른 컴포넌트에서 고가용성을 구현할 수 있습니다. 자신에게 적합한 가용성 수준은 다음과 같은 여러 요인에 따라 달라집니다:
애플리케이션 또는 서비스의 비즈니스 중요성
고객의 기대치 및 계약 SLA
다운타임에 대한 허용 오차
예산 및 리소스 가용성
예를 들어,
고객 대면 챗봇에는 99.9 % 가동 시간이 필요할 수 있습니다.
내부 테스트 도구는 가끔 다운타임을 허용할 수 있습니다.
올바른 HA 전략을 결정하려면 복구 시간 목표(RTO)와 복구 지점 목표(RPO)를 평가해야 합니다.
가용성 목표
클러스터에 대해 설정한 가용성 수준은 ‘ IBM Cloud ’ 고가용성 서비스 수준 계약(SLA) 조건에 따른 보장 범위에 영향을 미칩니다.
서비스 수준 목표(SLO)는 IBM Cloud 서비스가 달성하도록 설계된 핵심 지표를 설명합니다. watsonx Orchestrate 다음 가용성 목표를 달성하도록 설계되었습니다.
가용성 대상 | 목표 값 |
|---|---|
가용성 % | 99.9% |
SLO는 보증이 아니며, IBM 은 목표 달성 실패에 대해 크레딧을 지급하지 않습니다. 약정 및 약정된 SLA를 충족하지 못한 경우 발행되는 크레딧은 SLA를 참조하십시오. 모든 SLO에 대한 요약은 IBM Cloud service-level-objectives에서 확인하실 수 있습니다.
책임 요약
영역 | IBM 책임 | 고객 책임 |
|---|---|---|
인프라 복원력 |
|
|
지역 내 장애 조치 |
|
|
백업 및 복구 |
|
|
라우팅 또는 부하 분산 |
|
|
HA 구성 |
|
|