성공적인 재해 복구 전략을 구축하는 방법

서버실의 기술자

지정학적 분쟁, 글로벌 팬데믹의 여파, 사이버 보안 분야의 공격성 증가 등 업계가 직면한 문제에 관계없이 현대 기업의 위협 벡터는 부인할 수 없을 정도로 강력합니다. 재해 복구 전략은 예기치 않은 이벤트가 발생한 후에도 팀원들이 비즈니스를 다시 가동할 수 있는 프레임워크를 제공합니다.

전 세계적으로 재해 복구 전략의 인기가 높아지고 있는 것은 당연한 일입니다. International Data Corporation(IDC)의 최근 보고서(ibm.com 외부 링크)에 따르면 작년에 기업들은 사이버 보안 및 솔루션에만 2,190억 달러를 지출했으며, 이는 2022년보다 12% 증가한 수치입니다.

재해 복구 전략은 기업이 계획되지 않은 여러 인시던트에 어떻게 대응할 것인지를 제시합니다. 강력한 재해 복구 전략은 재해 복구 계획(DR 계획), 비즈니스 연속성 계획(BCP) 및 인시던트 대응 계획(IRP)으로 구성됩니다. 이러한 문서를 종합하면 기업이 정전, 랜섬웨어 및 맬웨어 공격, 자연 재해 등을 비롯한 다양한 위협에 대비할 수 있습니다.

재해 복구 계획(DRP)이란 무엇인가요?

재해 복구 계획(DRP)은 기업이 다양한 유형의 재해에 대응하는 방법을 설명하는 세부 문서입니다. 일반적으로 기업은 DRP를 직접 구축하거나 재해 복구 프로세스를 타사 DRP 공급업체에 아웃소싱합니다. DRP는 비즈니스 연속성 계획(BCP) 및 인시던트 대응 계획(IRP)과 함께 재해 복구 전략의 효율성에 중요한 역할을 합니다.

비즈니스 연속성 계획 및 인시던트 대응 계획이란 무엇인가요?

DRP와 마찬가지로 BCP와 IRP는 재해 발생 시 비즈니스가 정상적인 운영을 복구하는 데 도움을 줄 수 있는 더 큰 재해 복구 전략의 일부입니다. BCP는 일반적으로 DRP보다 위협 및 해결 옵션을 더 폭넓게 살펴보고 기업이 연결성을 복원하는 데 필요한 사항에 중점을 둡니다. IRP는 IT 시스템에 대한 사이버 공격 및 위협에만 초점을 맞춘 DRP의 한 유형입니다. IRP는 위협이 감지되는 순간부터 완화 및 해결에 이르기까지 조직의 실시간 비상 대응 방법을 명확하게 설명합니다. 

재해 복구 전략 수립이 중요한 이유

재해는 다양한 방식으로 비즈니스에 영향을 미치며 온갖 복잡한 문제를 일으킬 수 있습니다. 물리적 인프라와 작업자 안전에 영향을 미치는 지진부터 민감한 데이터 스토리지 및 고객 서비스에 대한 액세스를 차단하는 클라우드 서비스 중단에 이르기까지, 건전한 재해 복구 전략을 수립하면 기업이 신속하게 복구할 수 있습니다. 강력한 재해 복구 전략을 구축함으로써 얻을 수 있는 가장 큰 이점은 다음과 같습니다.

  • 비즈니스 연속성 유지: 비즈니스 연속성 및 비즈니스 연속성 재해 복구(BCDR) 는 계획되지 않은 이벤트 발생 후 조직이 정상 운영으로 돌아갈 수 있도록 하여 데이터 보호, 데이터 백업 및 기타 중요한 서비스를 제공합니다.
  • 비용 절감:  IBM의 최근 데이터 유출 비용 보고서에 따르면 2023년 데이터 유출로 인한 평균 비용은 445만 달러로, 지난 3년 동안 15% 증가한 것으로 나타났습니다. 재해 복구 전략이 없는 기업은 솔루션에 투자하지 않음으로써 절약할 수 있는 비용보다 훨씬 더 큰 비용과 처벌을 감수해야 할 위험이 있습니다.
  • 다운타임 감소: 현대 기업은 클라우드 기반 인프라 솔루션 및 셀룰러 네트워크와 같은 복잡한 기술에 의존하고 있습니다. 예기치 않은 인시던트로 인해 비즈니스 운영이 중단되면 수백만 달러의 비용이 발생할 수 있습니다. 또한 사이버 공격, 긴 다운타임 또는 인적 오류로 인한 중단으로 인해 고객과 투자자가 이탈할 수 있습니다.
  • 규정 준수 유지: 의료 및 개인 금융과 같이 규제가 엄격한 분야에서 사업을 운영하는 기업은 관리하는 데이터의 중요성 때문에 데이터 유출 시 과중한 벌금과 처벌을 받습니다. 강력한 재해 복구 전략은 예기치 않은 사고 발생 후 대응 및 복구 프로세스를 단축하는 데 도움이 되며, 이는 종종 침해 기간에 따라 금전적 벌금이 부과되는 업종에서 매우 중요합니다.

재해 복구 전략의 작동 방식

가장 강력한 재해 복구 전략은 기업이 다양한 위협에 직면할 수 있도록 준비시킵니다. 정상적인 운영을 복원하기 위한 강력한 템플릿은 투자자와 고객의 신뢰를 구축하고 비즈니스가 직면한 모든 위협으로부터 복구할 가능성을 높이는 데 도움이 될 수 있습니다. 재해 복구 전략의 실제 구성 요소를 살펴보기 전에 몇 가지 주요 용어를 살펴보겠습니다.

  • 장애 조치(failover)/장애 복구(failback): 장애 조치는 정전, 사이버 공격 또는 기타 위협으로 인해 기본 시스템에 장애가 발생했을 때 작업을 보조 시스템으로 옮기는 IT 재해 복구에 널리 사용되는 프로세스입니다. 장애 복구는 정상적인 프로세스가 복원된 후 원래 시스템으로 다시 전환하는 프로세스입니다. 예를 들어 기업은 데이터 센터에서 보조 사이트로 장애 조치를 실행하여 이중화 시스템이 즉시 가동될 수 있도록 합니다. 장애 조치/장애 복구가 제대로 실행되면 사용자/고객이 보조 시스템으로 이동 중이라는 사실조차 인지하지 못하는 원활한 환경을 만들 수 있습니다.
  • 복구 시간 목표(RTO): RTO는 예기치 않은 인시던트 발생 후 비즈니스 운영을 복구하는 데 걸리는 시간을 의미합니다. 합리적인 RTO를 수립하는 것은 기업이 재해 복구 전략을 수립할 때 가장 먼저 해야 할 일 중 하나입니다.
  • 복구 시점 목표(RPO): 비즈니스의 RPO는 손실이 발생해도 복구할 수 있는 데이터의 양을 의미합니다. 일부 기업에서는 연속성을 보장하기 위해 원격 데이터 센터에 데이터를 지속적으로 복사합니다. 어떤 기업들은 몇 분(또는 몇 시간)의 허용 가능한 RPO를 설정하고 그 시간 동안 손실된 데이터를 복구할 수 있다는 것을 알고 업무를 진행합니다.
  • 서비스형 재해 복구(DRaaS): DRaaS는 데이터 보안의 중요성에 대한 인식이 높아지면서 인기를 얻고 있는 재해 복구 접근 방식입니다. 재해 복구에 DRaaS 접근 방식을 취하는 기업은 기본적으로 재해 복구 계획(DRP)을 타사에 아웃소싱합니다. 이 타사는 복구에 필요한 인프라를 호스팅 및 관리하고 대응 계획을 수립 및 관리하며 비즈니스 크리티컬 운영의 신속한 재개를 보장합니다. 글로벌 마켓 인사이트(GMI)의 최근 보고서(ibm.com 외부 링크)에 따르면 , DRaaS 시장 규모는 2022년 115억 달러였으며 향후 몇 년 동안 22% 성장할 것으로 예상됩니다.

강력한 재해 복구 전략을 수립하기 위한 5단계

재해 복구 계획은 비즈니스 영향 분석(BIA) 및 위험 평가(RA)로 알려진 가장 중요한 비즈니스 프로세스에 대한 심층 분석으로 시작됩니다. 모든 비즈니스는 서로 다르고 고유한 요구 사항이 있지만, 규모나 업종에 관계없이 효과적인 재해 복구 계획을 수립하는 데 도움이 되는 몇 가지 단계를 수행할 수 있습니다.

1단계: 비즈니스 영향 분석 수행

비즈니스 영향 분석(BIA)은 회사가 직면한 모든 위협과 가능한 결과를 신중하게 평가하는 것입니다. 강력한 BIA는 위협이 일상적인 운영, 커뮤니케이션 채널, 작업자 안전 및 기타 비즈니스의 중요한 부분에 어떤 영향을 미칠 수 있는지 살펴봅니다. BIA를 수행할 때 고려해야 할 몇 가지 요소로는 매출 손실, 다운타임의 기간과 비용, 평판 회복 비용(홍보), 고객 또는 투자자 신뢰 상실(장단기), 운영 중단으로 인한 규정 위반으로 인해 발생할 수 있는 벌금 등이 있습니다.

2단계: 위험 분석 수행

위협은 업종과 운영하는 비즈니스 유형에 따라 크게 달라집니다. 올바른 위험 분석(RA)을 수행하는 것은 전략을 수립하는 데 있어 매우 중요한 단계입니다. 각 잠재적 위협은 발생 가능성과 비즈니스 운영에 대한 잠재적 영향이라는 두 가지 사항을 고려하여 개별적으로 평가할 수 있습니다. 이를 위해 널리 사용되는 두 가지 방법이 있습니다. 바로 정성적 및 정량적 위험 분석입니다. 정성적 위험 분석은 인지된 위험을 기반으로 하며, 정량적 분석은 검증 가능한 데이터를 사용하여 수행됩니다.

3단계: 자산 재고 생성

재해 복구는 기업이 소유하고 있는 모든 자산을 완벽하게 파악하는 데 달려 있습니다. 여기에는 하드웨어, 소프트웨어, IT 인프라, 데이터 및 비즈니스 운영에 중요한 기타 모든 것이 포함됩니다. 다음은 자산을 분류하는 데 널리 사용되는 세 가지 라벨입니다.

  • 크리티컬: 자산이 정상적인 비즈니스 운영에 필요한 경우에만 크리티컬 자산으로 표시합니다.
  • 중요: 비즈니스에서 하루에 한 번 이상 사용하며, 중단될 경우 비즈니스 운영에 영향을 미칠 수 있는(완전히 중단되지는 않음) 자산에 이 라벨을 지정합니다.
  • 중요하지 않음: 비즈니스에서 자주 사용하지 않는 자산으로, 정상적인 비즈니스 운영에 필수적이지 않습니다.

4단계: 역할 및 책임 설정 

역할과 책임을 명확하게 할당하는 것은 재해 복구 전략에서 가장 중요한 부분이라고 할 수 있습니다. 이를 수행하지 않을 경우 재난이 발생했을 때 누구도 무엇을 해야 할지 알 수 없습니다. 실제 역할과 책임은 회사 규모, 업종, 비즈니스 유형에 따라 크게 다르지만 모든 복구 전략에 포함되어야 하는 몇 가지 역할과 책임이 있습니다.

  • 인시던트 보고자: 장애 발생 시 이해관계자 및 관련 기관과 소통하고 모든 관련 당사자의 연락처 정보를 최신 상태로 유지하는 책임을 맡은 개인입니다.
  • 재해 복구 계획 관리자: DRP 관리자는 재해 복구 팀 구성원이 할당된 작업을 수행하고 수립한 전략이 원활하게 실행되도록 합니다. 
  • 자산 관리자: 재해가 발생했을 때 중요한 자산을 확보 및 보호하고 인시던트 전반에 걸쳐 자산의 상태를 보고하는 역할을 누군가에게 맡겨야 합니다.

5단계: 테스트 및 개선

재해 복구 전략이 제대로 작동하도록 하려면 지속적으로 테스트하고 의미 있는 변화가 있을 때마다 정기적으로 업데이트해야 합니다. 예를 들어, 회사에서 DRP 전략을 수립한 후 새로운 자산을 취득하는 경우, 해당 자산을 계획에 포함시켜 향후에도 보호받을 수 있도록 해야 합니다. 재해 복구 전략을 테스트하고 개선하는 과정은 다음과 같은 간단한 세 단계로 나눌 수 있습니다.

  1. 정확한 시뮬레이션 만들기: DRP 리허설을 할 때는 아무도 물리적 위험에 빠뜨리지 않으면서 회사가 직면하게 될 실제 시나리오에 최대한 가까운 환경을 조성하도록 합니다.
  2. 문제 식별: DRP 테스트 프로세스를 사용하여 계획의 결함 및 불일치를 식별하고, 프로세스를 간소화하고, 백업 절차와 관련된 문제를 해결합니다.
  3. 재해 복구 절차 테스트: 인시던트에 어떻게 대응할 것인지 확인하는 것도 중요하지만 인시던트가 끝난 후 중요한 시스템을 복원하기 위해 마련한 절차를 테스트하는 것도 마찬가지로 중요합니다. 네트워크를 다시 켜고, 손실된 데이터를 복구하고, 정상적인 비즈니스 운영을 재개하는 방법을 테스트하세요. 

재해 복구 솔루션

현대의 기업은 고객에게 서비스를 제공하기 위해 그 어느 때보다 기술에 의존하고 있습니다. 사소한 중단이라도 심각한 다운타임을 야기하고 고객과 투자자의 신뢰에 영향을 미칠 수 있습니다. IBM FlashSystem Cyber Recovery Guarantee는 IBM Storage Expert Care와 IBM Storage Insights Pro를 통해 새로운 Flashsystem Array를 구매하는 모든 고객을 위해 설계되었습니다.

작가

Mesh Flinders

Staff Writer

IBM Think