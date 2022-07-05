'복원력'은 디지털 혁신 이니셔티브의 성공/실패에 중요한 엔지니어링 관행 중 하나입니다. 아시다시피, 복원력은 평균 복구 시간(MTTR) 및 평균 장애 간격(MTBF)과 같은 지표를 통해 솔루션의 전반적인 가용성에 직접적인 영향을 미치며, 혁신적인 사용자 경험을 좌우하는 핵심 요소이기도 합니다.

복원력은 본질적으로 시스템이 장애에 맞서 지속될 수 있는 능력입니다. 시스템의 장애는 궁극적으로 구성 요소/시스템의 오류 또는 사용 불가능으로 나타날 수 있지만, 분산된 클라우드 네이티브 시스템에서 장애를 일으킬 수 있는 요인 목록은 상당합니다.

클라우드 네이티브 애플리케이션에서 복원력을 어떻게 구현하는지에 초점을 맞춘 자료는 이미 많이 존재합니다. IBM의 Build for Reliability Garage 프랙티스는 복원력 구현을 위한 훌륭한 소개와 프레임워크를 제공합니다. 또한 애플리케이션의 복원력을 테스트하는 데 도움이 되는 chaos monkey와 같은 프레임워크나 Gremlin과 같은 툴도 있습니다.

그러나 여전히 남는 과제는 솔루션이 과연 충분히 복원력이 있는지를 어떻게 검증하느냐는 점입니다. 구체적으로, 테스트가 필요하고도 충분한 시나리오를 모두 포함하는지 어떻게 알 수 있을까요? 어떤 실패를 의도적으로 유발해야 하는지는 어떻게 알 수 있을까요?

위의 문제를 해결하기 위해 다음과 같은 4단계 접근 방식을 제안하고자 합니다.