자동화를 통한 복원력 관리 혁신

자동화를 통해 복원력을 강화한 글로벌 소프트웨어 SRE 조직

노트북 컴퓨터를 둘러싸고 대화 중인 직원들.
멀티클라우드 복원력 문제로 고전

IBM 소프트웨어 사이트 안정성 엔지니어링(SRE) 팀은 IBM SaaS 오퍼링 및 관리형 서비스 인프라의 신뢰성과 보안을 유지하는 데 중요한 역할을 합니다. IBM Cloud, AWS®, Microsoft Azure 및 Google 클라우드 플랫폼에서 운영되는 SRE 팀은 전 세계적으로 약 70개의 SaaS 솔루션을 제공하여 마이크로서비스 수준까지 방대한 양의 데이터를 수집합니다.

포괄적인 회복력 평가를 만드는 것은 이 팀에게 중요한 과제였습니다. 수석 사이트 신뢰성 엔지니어인 Kevin Yu는 "이전에는 워크숍을 진행하고 플레이북과의 대조 평가를 위해 스프레드시트를 광범위하게 사용했는데, 이를 완료하기까지는 말 그대로 몇 개월이 걸렸고 업데이트하기도 어려웠습니다. 이러한 방법으로는 시스템의 회복력 상태에 대한 전체적인 관점을 제공하기가 어려웠습니다."라고 말했습니다.

또한 SRE 팀은 취약성을 식별하고 개선 사항을 효과적으로 구현하기 위해 시간 경과에 따른 가용성, 복구 가능성 및 관측 가능성과 같은 주요 복원력 지표를 정확하게 측정하고 추적할 수 있는 솔루션이 필요했습니다.

월별 운영 검토(MOR) 개선은 또 다른 주요 과제였습니다. SRE 팀의 기존 MOR 프로세스는 비효율적이어서 문제를 신속하게 식별하고 해결하는 데 방해가 되었습니다. 조직의 사일로는 프로세스를 더욱 복잡하게 만들어 여러 팀이 공통의 복원력 전략에 합의하기 어렵게 만들었습니다.

62% 애플리케이션당 더 빠른 전사적 복원력 태세 평가 72% 더 빠른 월별 운영 검토
Concert는 사일로를 허물고 생산성을 높이는 데 도움이 되었습니다. 이제 IBM 전반에서 애플리케이션 복원력을 측정, 개선 및 유지할 수 있는 확장가능한 프레임워크를 갖추게 되었습니다.
Kevin Yu 수석 사이트 안정성 엔지니어 IBM
복원력 관리 혁신

SRE 팀은 사일로를 줄이고, 지속적인 개선을 추진하고 복원력에 대한 반복 가능한 접근 방식을 활용할 수 있도록 IBM Concert® 플랫폼을 배포했습니다.

이 솔루션은 자동화와 AI 기반 인사이트를 하나의 표준화되고 확장가능한 프레임워크로 결합하여 복원력을 평가하고, 개선하고 유지할 수 있도록 합니다.

IBM Concert를 구현하기 전, 복원력 평가는 완료하기까지 몇 개월이 걸릴 수 있는 수동적이고 노동 집약적인 작업이었습니다. 솔루션의 복원력 프레임워크는 이 프로세스를 자동화하여 가용성, 복구 가능성 및 관측 가능성과 같은 주요 복원력 지표를 종합적으로 보여줍니다. 자동화를 통해 필요한 시간과 노력이 크게 줄은 덕분에 SRE 팀은 애플리케이션 견고성과 안정성을 향상하는 데 집중할 수 있게 되었습니다.

이전의 MOR 프로세스는 비효율적이고 시간이 많이 소요되어 데이터를 추출하고 대조하는 데 수백 시간이 걸리곤 했습니다. SRE 팀은 이제 IBM Concert를 통해 데이터를 보다 효율적으로 요약하고 보고한 다음, 규정 준수 평가 및 전략적 계획을 위해 이해관계자에게 가장 정확한 정보를 제공합니다. 또한 이 솔루션은 다양한 소스의 데이터를 통합하여 하나의 통합 보기를 생성하며, 이러한 보기는 SRE 팀의 문제 해결 능력을 향상합니다.

Yu는 "Concert는 사일로를 허물고 생산성을 높이는 데 도움이 되었습니다. 이제 IBM 전반에서 애플리케이션 복원력을 측정, 개선 및 유지할 수 있는 확장가능한 프레임워크를 갖추게 되었습니다."라고 설명했습니다.

효율성 및 복원력 향상

IBM Concert에 복원력 프레임워크를 배포한 결과, IBM의 SRE 팀은 획기적인 성과를 거두었습니다.

Yu는 "이 솔루션은 애플리케이션 복원력에 대한 접근 방식을 혁신했습니다."라며, “주요 복원력 데이터 수집을 자동화하여 사일로를 해결하고 복원력을 운영화했습니다. 그 결과, IBM Concert 복원력 태세는 IBM의 전사적 애플리케이션당 복원력 태세 평가에서 인일을 수동 평가 대비 62% 줄였습니다.1

SRE 팀은 이번 혁신을 통해 생산성이 향상되고 다른 팀과의 협업도 향상되었다고 말합니다. SRE 팀은 솔루션의 표준화된 프레임워크를 사용하여 조직의 여러 부분을 공통의 복원력 전략에 맞게 조정하여 전반적인 조정 및 커뮤니케이션을 개선할 수 있습니다. 또한 포괄적이고 일관된 보고 기능 덕분에 IBM 내 투명성과 책임성이 향상되었습니다. 내부 이해관계자들은 이제 복원력 지표와 문제 관리에 대한 이해도가 높아져 정보에 입각한 의사 결정을 내릴 수 있게 되었다고 밝혔습니다.

SRE 팀은 IBM Concert의 복원력 태세를 활용하여 더욱 간소화되고 효과적인 복원력 평가 및 MOR 접근 방법을 달성했으며, 이를 통해 IBM의 SaaS 및 관리형 서비스 인프라가 신뢰할 수 있고 안전하게 유지되도록 지원했습니다. Yu는 "IBM Concert 복원력 태세 덕분에 IBM SRE 팀은 수동으로 보고서를 작성하는 경우에 비해 MOR에 소요되는 인력 시간을 72%나 줄일 수 있었습니다."라고 말했습니다.1

IBM Software SRE 조직 소개

IBM Software SRE 조직은 IBM 소프트웨어 제품을 위한 고가용성 및 확장 가능한 프로덕션 SaaS를 제공하는 데 중점을 둔 글로벌 팀입니다. Software SRE 팀은 툴링, 프로세스, 자동화, 런북, 관행을 표준화하여 인시던트를 프로비저닝, 배포, 모니터링, 유지 및 관리합니다. Software SRE 팀은 IBM 소프트웨어 개발 팀과 긴밀하게 협력하여 변경 사항을 설계하고 구현하여 소프트웨어 라이프사이클 전반에서 복원력 높은 서비스를 제공합니다.

솔루션 컴포넌트 IBM Concert
새롭게 해석된 복원력

IBM Concert는 자동화와 AI 기반 인사이트를 하나의 표준화되고 확장가능한 프레임워크로 결합하여 복원력을 평가하고, 개선하고 유지할 수 있도록 합니다.

자세히 보기 무료 평가판 시작하기
각주

1: 내부 테스트 결과 기반. 개인별 결과는 상이할 수 있습니다.

법률

© Copyright IBM Corporation 2025. IBM, IBM 로고, Concert, IBM Cloud, IBM Concert는 미국 및/또는 기타 국가에서 사용되는 IBM Corp.의 상표 또는 등록 상표입니다.

Microsoft는 미국 및/또는 기타 국가에서 사용되는 Microsoft Corporation의 상표입니다.

제시된 예는 예시일 뿐입니다. 실제 결과는 클라이언트 구성 및 조건에 따라 달라지므로 일반적으로 예상되는 결과를 제공할 수 없습니다.