재해 복구(DR)는 재해로 인한 데이터 손실 및 비즈니스 중단을 방지하거나 최소화하도록 설계된 IT 기술 및 모범 사례로 구성된 프레임워크입니다.
여기에는 장비 고장, 지역 정전부터 범죄 또는 군사적 공격, 사이버 공격 , 자연재해까지 모든 것이 포함됩니다.
많은 기업, 특히 중소 규모 조직은 안정적이고 실용적인 재해 복구 계획(DRP)을 수립하는 데 소홀합니다. 이러한 계획이 없으면 주요 중단 이벤트의 영향으로부터 보호받을 수 있는 방법이 거의 없습니다.
예기치 않은 다운타임으로 인한 비용 때문에 데이터 손실 보호는 필수적입니다. Splunk와 Oxford Economics의 연구에 따르면 조직의 평균 다운타임 비용은 분당 미화 9,000달러(또는 시간당 미화 540,000달러)에 달할 수 있습니다. 민감한 데이터를 처리하는 고위험 금융 및 의료 기관의 경우 다운타임으로 인해 시간당 미화 500만 달러가 넘는 비용이 발생할 수 있습니다.1 재해 복구 계획을 통해 이러한 위험을 크게 완화할 수 있습니다.
재해 복구에는 전략 수립, 계획, 적절한 기술 배포 및 지속적인 테스트 구현이 포함됩니다. 데이터 백업이 중요한 구성 요소이긴 하지만, 백업 및 복구 프로세스만으로는 포괄적인 재해 복구 계획을 구성할 수 없습니다.
또한 강력한 장애 조치 및 장애 복구를 유지하기 위해 재해 복구에는 충분한 스토리지와 컴퓨팅 자원을 확보하는 것도 포함됩니다. 장애 조치(Failover)는 워크로드를 백업 시스템으로 이전하여 프로덕션 프로세스와 최종 사용자 경험이 최소한으로 중단되도록 하는 프로세스입니다. 장애 복구(Failback)는 원래 주 시스템으로 다시 전환하는 것입니다.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
비즈니스 연속성 재해 복구(BCDR)는 재해가 발생했을 때 조직이 정상적인 비즈니스 운영으로 돌아갈 수 있도록 지원하는 프로세스입니다. 비즈니스 연속성과 재해 복구는 유사한 점이 많지만, 서로 다른 두 가지 접근 방식입니다.
BCDR은 비즈니스에서 비상 관리라고도 하지만, 연방재난관리청(FEMA)과 같은 정부 프로그램과는 크게 다릅니다. 이러한 프로그램은 시민 긴급 상황에 중점을 두고 조직의 IT 및 운영이 아닌 공공 안전 및 지역 사회 전반의 재해 지원을 제공합니다.
비즈니스 연속성 계획(BCP)은 기업의 모든 영역에서 필수 운영을 유지하거나 위기 또는 긴급 상황 발생 시 신속하게 운영을 재개할 수 있도록 하는 시스템과 프로세스로 구성됩니다.
재해 복구 계획은 IT 인프라와 시스템 복구에 중점을 둔 비즈니스 연속성 계획의 하위 집합입니다. 여기에는 예기치 않은 이벤트에서 복구 단계를 매핑하는 재해 복구 계획(DRP)이 포함됩니다. 기업은 다양한 재해 상황(예: 자연재해, 랜섬웨어, 멀웨어 공격)을 관리하는 데 DRP을 사용합니다.
다음 7단계는 효과적인 재해 복구 계획을 수립하는 데 중요한 역할을 합니다.
포괄적인 재해 복구 계획 수립은 비즈니스 영향 분석(BIA)에서 시작됩니다. 이 분석을 수행할 때 일련의 상세한 재해 시나리오를 만들어야 합니다. 그런 다음 이러한 시나리오를 사용하여 특정 비즈니스 프로세스가 중단될 경우 발생할 수 있는 손실의 규모와 범위를 예측할 수 있습니다. 예를 들어 화재로 인해 고객 서비스 콜센터가 파괴된다면 어떻게 될까요? 아니면 지진이 본사를 강타하면 어떻게 될까요?
이 분석을 통해 가장 중요한 비즈니스 기능을 식별하고 각 기능이 견딜 수 있는 다운타임의 정도를 결정할 수 있습니다. 이 정보를 바탕으로 다양한 시나리오에서 가장 중요한 작업을 유지 관리하기 위한 계획을 세울 수 있습니다.
IT 재해 복구 계획은 비즈니스 연속성 계획을 토대로 수립되어 이를 뒷받침해야 합니다. 예를 들어 콜센터 화재 이후 고객 서비스 담당자가 재택 근무를 하도록 하는 비즈니스 연속성 계획이 있다면 어떻게 해야 할까요? 해당 계획을 지원하려면 어떤 유형의 하드웨어, 소프트웨어 및 IT 리소스가 필요할까요?
기업이 직면한 위험의 가능성과 잠재적 결과를 평가하는 것은 재해 복구 전략의 중요한 구성 요소입니다. 사이버 공격과 랜섬웨어가 더욱 만연해짐에 따라, 오늘날 모든 기업이 직면하고 있는 일반적인 사이버 보안 위험을 이해하는 것이 중요합니다. 또한 업계와 지리적 위치에 따른 위험을 이해하는 것이 중요합니다.
자연재해, 장비 고장, 내부자 위협, 방해 행위 및 직원 오류를 포함한 다양한 시나리오의 경우 위험을 평가하고 비즈니스에 미치는 전반적인 영향을 고려하는 것이 중요합니다.
스스로에게 다음 질문을 해 보세요.
모든 워크로드가 비즈니스의 운영 유지 능력에 똑같이 중요한 것은 아니며, 일부 애플리케이션의 경우 다른 애플리케이션보다 다운타임을 훨씬 더 견딜 수 있습니다.
IT 시스템과 애플리케이션을 다운타임 허용 시간과 데이터 손실에 따른 영향의 심각도를 기준으로 세 가지 계층으로 구분할 수 있습니다.
재해 복구 계획의 다음 단계는 하드웨어 및 소프트웨어 자산의 종합적인 재고를 구축하는 것입니다. 이 단계에서는 중요한 애플리케이션 상호 의존성을 이해하는 것이 중요합니다. 한 소프트웨어 애플리케이션이 다운되면 다른 애플리케이션은 어떤 영향을 받을까요?
애플리케이션을 상호 종속성으로 관리하는 가장 좋은 방법은 시스템을 처음 구축할 때 데이터 복원력과 재해 복구 모델을 설계하는 것입니다. 오늘날의 마이크로서비스 기반 아키텍처에서는 다른 시스템 또는 프로세스가 다운되었을 때 시작할 수 없는 프로세스를 발견하는 것이 매우 일반적이며, 그 반대의 경우도 마찬가지입니다.
이 상황은 회복하기 어렵습니다. 또한 실제 재해가 발생하기 전에 시스템과 프로세스에 대한 대체 계획을 개발할 시간이 있을 때 이러한 문제를 발견하는 것도 중요합니다.
위험 및 비즈니스 영향 분석을 고려하여 여러 목표를 설정할 수 있어야 합니다. 이러한 목표에는 시스템을 다시 온라인 상태로 전환하는 데 걸리는 시간, 손실을 감당할 수 있는 데이터의 양, 허용할 수 있는 데이터 손상 또는 편차의 정도가 포함됩니다.
기업에서 구축한 모든 재해 복구 소프트웨어 및 솔루션은 준수해야 하는 모든 데이터 보호 및 보안 요구 사항을 충족해야 합니다. 즉, 모든 데이터 백업 및 장애 조치 시스템은 기본 시스템과 동일한 데이터 기밀성 및 무결성 보장 표준을 충족하도록 설계되어야 합니다.
동시에 여러 규제 표준은 모든 기업이 재해 복구 및 비즈니스 연속성 계획을 유지해야 한다고 규정하고 있습니다. 예를 들어 사베인즈-옥슬리 법(SOX)에 따라 미국의 모든 상장 기업은 모든 비즈니스 기록의 사본을 최소 5년 동안 보관해야 합니다.
이 규정을 준수하지 않을 경우(적절한 데이터 백업 시스템을 구축하고 테스트하는 것을 소홀히 하는 경우 포함) 기업은 상당한 금전적 불이익을 받을 수 있으며, 심지어 경영진은 징역형에 처해질 수도 있습니다.
간단히 말해서, 재해 복구 계획이 테스트되지 않았다면 신뢰할 수 없습니다. 관련 책임이 있는 모든 직원은 재해 복구 테스트 연습에 참여해야 합니다. 이 테스트에는 지정된 기간 동안 장애 조치 사이트에서 작업을 유지하는 것이 포함될 수 있습니다.
재해 복구 테스트를 수행하는 것이 예산이나 역량을 벗어난 경우 테스트 절차를 단계별로 안내하는 '모의 훈련'을 예약할 수도 있습니다. 그러나 이러한 종류의 테스트는 전체 테스트보다 DR 절차의 이상 징후나 약점(특히 이전에 발견되지 않은 애플리케이션 상호 의존성의 존재)을 발견할 가능성이 적습니다.
하드웨어 및 소프트웨어 자산은 시간이 지남에 따라 변경되므로 이에 따라 재해 복구 계획도 업데이트해야 합니다. 따라서 정기적으로 계획을 지속적으로 검토하고 수정하는 것이 중요합니다.
여기로 이동해 재해 복구 계획의 예를 확인하세요.
재해 복구는 다음과 같은 필수 이점을 제공합니다.
재해 복구에는 다음과 같은 유형의 기술 및 솔루션이 포함됩니다.
자체 재해 복구 데이터 센터를 구축하려면 여러 가지 경쟁 목표 사이에서 균형을 잡아야 합니다.
그럼에도 불구하고 데이터 사본은 본사나 사무실에서 지리적으로 충분히 떨어진 곳에 저장해야 합니다. 이렇게 하면 메인 사이트에 영향을 미치는 동일한 지진, 환경 위협 또는 기타 위험 요소가 데이터를 영구적으로 파괴하지 못합니다.
동시에 오프사이트에 저장된 백업은 기본 사이트에 있는 온프레미스 백업에 비해 복원하는 데 시간이 더 오래 걸립니다. 또한 네트워크 지연 시간은 장거리에서 훨씬 더 길어질 수 있습니다.
백업과 복구는 견고한 재해 복구 계획을 수립하는 토대가 됩니다.
데이터베이스의 스냅샷 백업은 특정 시점의 애플리케이션 또는 디스크의 현재 상태를 캡처합니다. 이 방법은 마지막 스냅샷 이후 변경된 데이터만 기록함으로써 스토리지 공간을 절약하면서 데이터를 보호하는 데 도움이 될 수 있습니다.
스냅샷은 다른 위치로 복제하거나 재해 복구 목적으로 클라우드에 저장할 수 있습니다.
클라우드 DR은 클라우드 기반 인프라 및 서비스를 사용하여 데이터와 애플리케이션을 백업 및 복구하므로 물리적인 보조 데이터 센터를 유지할 필요가 없습니다.
이를 통해 퍼블릭 클라우드 또는 전용 서비스 제공 업체 설정을 사용하는 물리적 또는 가상 머신(VM)을 포함한 애플리케이션 데이터와 전체 서버 인프라를 보호할 수 있습니다. 특정 요구 사항에 따라 백업 일정을 구성할 수 있습니다.
클라우드 백업 솔루션은 VMware와 같은 가상화 플랫폼 또는 클라우드 네이티브 백업 솔루션과 통합할 수도 있습니다. 이러한 접근 방식은 스토리지 수요가 변화함에 따라 유연한 확장성과 비용 최적화를 제공하고 클라우드 마이그레이션을 진행 중인 조직을 지원합니다.
서비스형 재해 복구(DRaaS)는 온디맨드 및 종량제 방식으로 데이터 보호 및 DR 기능을 제공하는 타사 클라우드 기반 솔루션입니다.
DRaaS는 오늘날 가장 인기 있고 빠르게 성장하고 있는 관리형 IT 서비스 중 하나입니다. 2023년 업계 연구는 DRaaS 시장이 107억 달러에서 2028년 265억 달러읭 연평균 성장률을 보이며 성장할 것으로 예상됩니다.2
DRaaS를 사용하면 서비스 제공 업체가 서비스 수준 계약(SLA)에 RTO와 RPO를 문서화하여 다운타임 제한과 애플리케이션 복구 기대치를 설명합니다.
DRaaS 제품에는 일반적으로 클라우드 기반 애플리케이션 복구 작업도 포함됩니다. 이 접근 방식은 자체 데이터 센터에서 중복 전용 하드웨어 리소스를 유지하는 것에 비해 상당한 비용 절감 효과를 제공합니다. 장애 조치 기능 유지 관리에 대한 요금과 재해 복구 상황에서 소비되는 리소스의 사용당 비용을 지불하는 계약이 있습니다. 이렇게 하면 일반적으로 공급업체가 장애 조치 환경 구성 및 유지 관리에 대한 모든 책임을 집니다.
이미 온프레미스 재해 복구(DR) 솔루션을 구축한 경우, 이를 유지하는 데 드는 비용과 이점을 월간 DRaaS 구독으로 전환하는 것과 비교하여 평가하기 어려울 수 있습니다.
대부분의 온프레미스 DR 솔루션은 하드웨어, 전력, 유지관리 및 관리를 위한 인력, 소프트웨어 및 네트워크 연결에 대한 비용이 발생합니다. DR 환경의 초기 설정과 관련된 초기 자본 지출 외에도 정기적인 소프트웨어 업그레이드를 위한 예산도 마련해야 합니다.
DR 솔루션은 기본 프로덕션 환경과 호환성을 유지해야 하므로, DR 솔루션의 소프트웨어 버전이 동일한지 확인해야 합니다. 라이선스 계약의 세부 사항에 따라 소프트웨어 비용이 사실상 두 배로 늘어날 수 있습니다.
타사 DRaaS 솔루션을 고려하고 있다면 공급업체가 지역 간 멀티 사이트 백업을 수행할 수 있는 용량을 갖추고 있는지 확인하세요. 허리케인과 같은 중대한 기상 이변이 기본 사무실 위치에 영향을 미칠 경우, 장애 조치 사이트가 폭풍의 영향을 받지 않을 만큼 충분히 멀리 떨어져 있나요?
해당 지역의 많은 공급업체 고객이 동시에 영향을 받는 경우, 공급업체가 고객의 요구 사항을 모두 충족할 수 있는 충분한 용량을 갖추고 있나요? 위기 상황에서 RTO와 RPO를 충족하기 위해 DRaaS 공급업체를 신뢰하는 것이므로 안정성에 대한 평판이 높은 서비스 공급업체를 찾아야 합니다.
두 솔루션을 비교하여 자세히 살펴보려면 "서비스형 재해 복구(DRaaS)와 재해 복구(DR): 어느 것이 필요하신가요?"를 확인하세요.
인공 지능(AI) 통합은 하이브리드 및 멀티클라우드 환경에서 위협 탐지를 강화하고, 사고 대응을 자동화하며, 관리를 간소화하는 기능으로 재해 복구를 혁신하고 있습니다.
IBM의 2025년 데이터 유출 비용(CODB) 보고서에 따르면 전 세계 평균 비용은 488만 달러에서 444만 달러로 9% 감소했습니다. 보고서에 따르면 조직은 중앙값 241일 이내에 유출을 식별하고 억제할 수 있었으며, 이는 9년 만에 가장 낮았습니다.
재해 복구의 AI는 다음과 같은 주요 이점을 제공합니다.
백업, AI 기반 위협 탐지, 신속한 복구 기능을 통해 데이터가 저장된 위치와 관계없이 진화하는 위협으로부터 데이터를 보호합니다.
엔터프라이즈 백업 및 복구 프로세스를 가속화하여 온프레미스 및 클라우드 워크로드에 대한 데이터를 검색하고 IT 서비스를 신속하게 복구할 수 있습니다.
클라우드 재해 복구 계획으로 데이터를 보호하고 다운타임의 위험을 완화하세요.
1. The Hidden costs of downtime—According to Global 2000 Executives, Splunk, 2024년 6월
2. Disaster Recovery as a Service (DRaaS) Market Size, MarketsandMarkets, 2023년