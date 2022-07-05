클라우드 네이티브 아키텍처 패러다임은 꽤 오래 전부터 존재해 왔습니다. 클라우드 네이티브 아키텍처의 핵심에는 비즈니스 민첩성, 확장성 및 복원력을 제공하는 응집력 있고 독립적인 기능 구성 요소가 있어 시장 출시 시간 단축, 경쟁 우위 및 비용 최적화에 기여합니다. 이 패러다임은 다국어 기술 환경을 통해 적극적으로 지원되었습니다.
위의 아키텍처와 환경의 조합을 사용하여 실현된 솔루션은 주로 구현에 필요한 구성 요소의 수와 여러 기술 프레임워크로 인해 유지 관리 및 관리가 상당히 복잡할 수 있습니다. 설계 및 엔지니어링 관행을 최적으로 구현하지 않으면 이러한 솔루션의 복잡성과 유지 관리 위험이 기하급수적으로 증가합니다.
'복원력'은 디지털 혁신 이니셔티브의 성공/실패에 중요한 엔지니어링 관행 중 하나입니다. 아시다시피, 복원력은 평균 복구 시간(MTTR) 및 평균 장애 간격(MTBF)과 같은 지표를 통해 솔루션의 전반적인 가용성에 직접적인 영향을 미치며, 혁신적인 사용자 경험을 좌우하는 핵심 요소이기도 합니다.
복원력은 본질적으로 시스템이 장애에 맞서 지속될 수 있는 능력입니다. 시스템의 장애는 궁극적으로 구성 요소/시스템의 오류 또는 사용 불가능으로 나타날 수 있지만, 분산된 클라우드 네이티브 시스템에서 장애를 일으킬 수 있는 요인 목록은 상당합니다.
클라우드 네이티브 애플리케이션에서 복원력을 어떻게 구현하는지에 초점을 맞춘 자료는 이미 많이 존재합니다. IBM의 Build for Reliability Garage 프랙티스는 복원력 구현을 위한 훌륭한 소개와 프레임워크를 제공합니다. 또한 애플리케이션의 복원력을 테스트하는 데 도움이 되는 chaos monkey와 같은 프레임워크나 Gremlin과 같은 툴도 있습니다.
그러나 여전히 남는 과제는 솔루션이 과연 충분히 복원력이 있는지를 어떻게 검증하느냐는 점입니다. 구체적으로, 테스트가 필요하고도 충분한 시나리오를 모두 포함하는지 어떻게 알 수 있을까요? 어떤 실패를 의도적으로 유발해야 하는지는 어떻게 알 수 있을까요?
위의 문제를 해결하기 위해 다음과 같은 4단계 접근 방식을 제안하고자 합니다.
이는 기본적으로 솔루션의 구성 요소를 사용하여 기능 시나리오를 지원하는 시퀀스/조합을 의미하는 '고유 순회 경로'를 식별하여 수행할 수 있습니다. 이러한 시나리오와 지원 구성 요소는 테스트해야 하는 기본 세트를 제공합니다.
예를 들어, 애플리케이션은 다음 중 하나 이상을 지원할 수 있습니다.
시나리오와 구성 요소를 파악한 후 다음 단계는 이러한 구성 요소에서 '실패'할 수 있는 요소를 결정하는 것입니다. 다음과 같은 특성을 가진 단일 마이크로서비스의 예를 들어보겠습니다.
이 보기는 아래와 같이 '실패 표면'을 식별하여 조합할 수 있습니다.
이전 단계에서 식별한 각 장애 표면은 여러 가지 이유로 장애가 발생할 수 있으므로 다음 단계에서는 이를 식별해야 합니다. 앞서와 동일한 예제를 계속 진행하여 장애 표면을 가능한 원인에 매핑하면 다음과 같은 목록을 얻을 수 있습니다.
원인과 실패 양상을 이용하여 아래 그림과 같은 매트릭스를 만들 수 있습니다. 이제 솔루션에 대한 '공격'을 계획하는 데 필요한 조합을 이해하고 계획할 수 있게 되었습니다. 이는 앞서 언급한 바와 같이 이제 카오스 테스트 프레임워크를 통해 구현될 수 있습니다.
마지막으로, 무엇보다 중요한 것은 고장 테스트만으로는 충분하지 않다는 점입니다. 다음 시나리오를 고려하세요.
이것은 코드형 인프라(IaC) 또는 클라우드 리소스의 동적 재구성과 같은 카오스 테스트 프레임워크를 보완할 수 있는 추가 능력이 필요합니다.
또한 구성 요소를 사용한 실제 테스트는 비용이 많이 들기 때문에 다음과 같은 '정적' 검증을 위한 능력을 고려할 수도 있습니다.
전반적으로 복원력을 갖추려면 개발 후뿐만 아니라 초기에 시나리오를 식별하고, 비즈니스 영향에 따라 우선순위를 지정한 다음, 정적 및 동적 '공격'을 조합하여 구성 요소 수준의 복원력을 검증하고 확인하는 것까지 전반에 걸쳐 집중해야 한다고 생각합니다. 이 블로그 게시물에 제시된 접근 방식은 이 전체 여정에서 언급된 주요 과제를 해결하는 데 도움이 될 것입니다.
