클라우드 효율적 운영 가이드

개요

효율적 운영 핵심 요소는 클라우드 워크로드 인사이트, 디지털화된 프로세스, 선제적인 운영 체계를 유지하기 위한 요구 사항을 충족하는 솔루션에 초점을 둡니다. 이는 팀 구성, 자동화, AI 툴을 활용하여 솔루션을 안전하고 안정적이며 성능을 유지하는 방식으로 모니터링, 관리, 유지하기 위한 실천 방법과 지침을 통해 구현됩니다.

원칙

운영 모델의 예로는 “구축한 사람이 직접 운영한다” 모델이나 사이트 신뢰성 엔지니어링 관행을 구축하는 방식이 있습니다. 이러한 운영 모델은 비즈니스, 고객, 관리자, 개발 팀의 요구와 컨텍스트를 이해하는 데 기반합니다.

운영 모델은 산업 특성, 규제 요구 사항, 기존 솔루션, 사용자 목표 등의 요소를 고려하여 조직의 요구에 맞게 지속적으로 평가되고 조정되며 맞춤화되어야 한다는 점을 이해하는 것이 중요합니다.

스크립팅, 지능형 에이전트, 기타 툴을 사용해 일반적이고 반복적인 운영 작업을 자동화하면 높은 서비스 수준을 유지하는 데 도움이 됩니다.

이 원칙은 팀과 의존 관계 전반에 확장되어 엔드투엔드 효율성과 속도, 정확성, 오류 감소, 민첩성을 달성하고 운영 환경 전반의 일관성을 보장해야 합니다.

오늘날 운영 팀은 다양한 운영 툴을 선택할 수 있으며 특정 운영 영역에 대해 동급 최고 수준의 툴을 여러 개 선택할 수 있지만 이를 관리하지 않으면 툴 확산이 발생할 수 있습니다.

툴 간 차이와 통합 문제는 팀원 온보딩, 라이선스 및 비용 관리, 민첩성, 보안 취약성 증가와 관련된 문제를 초래할 수 있습니다. 운영 팀은 사용 중인 운영 툴과 콘솔을 지속적으로 최소화하고 통합해야 합니다.

모든 솔루션이 연중무휴 24시간 가용성이나 즉각적인 응답 시간을 요구하는 것은 아닙니다. 효율적인 솔루션은 하나의 솔루션 내에서 여러 서비스 수준을 지원해야 하며 워크로드의 운영 요구 사항을 가장 잘 충족하는 인프라에 워크로드를 배치할 수 있어야 합니다.

서비스 수준은 비즈니스 목표와 긍정적인 사용자 경험을 지원하기 위해 애플리케이션 수준 구성과 계측을 고려하도록 개발 팀에 기준을 제공합니다.

효율적인 운영 팀은 다학제적이며 특정 애플리케이션 집합을 지원하는 데 필요한 모든 역량을 갖추고 있습니다. 이러한 역량을 확보하려면 애플리케이션 및 인프라 서비스를 포함한 워크로드 전체 스택을 고려해야 합니다.

솔루션과 운영 툴은 운영 툴과 정보가 솔루션 구성 요소 간에는 통합되고 다른 솔루션과는 분리될 수 있도록 이 모델을 지원해야 합니다.

사이트 안정성 엔지니어링이란 무엇인가요?

많은 운영 작업은 공통적이며 자동화할 수 있고 API를 통해 접근할 수도 있습니다. 예를 들어 시크릿을 관리하기 위한 자동화를 만드는 것뿐 아니라 시크릿 관리 작업을 실행하는 장기 실행 API를 구축할 수 있습니다.

이 접근 방식은 새로운 기능 온보딩과 동적 워크플로 통합 전반에 걸쳐 확장될 수 있습니다. 이를 통해 절차를 표준화하고 팀 간 대기 시간을 줄일 수 있습니다.

관행

효율적인 운영 솔루션을 구축하기 위한 실천 방법과 지침 이 지침은 팀이 효율적인 운영 원칙을 구현하고 복잡한 시스템의 신뢰성, 가용성, 성능을 보장하도록 안내합니다. 이러한 실천 방법은 조직이 사용자 중심의 신뢰성 목표를 달성하고 서비스의 안정성을 유지하는 데 도움이 됩니다.

효율적인 운영 실천 방법은 조직의 사용자, 시스템, 서비스의 특정 요구와 컨텍스트에 맞게 조정하고 적절한 규모로 적용할 수 있습니다.

조직별 요구 사항, 워크로드, 아키텍처에 따라 채택해야 할 최적의 실천 방법이 결정됩니다. 피드백, 평가, 조직의 클라우드 전략과의 정렬을 통한 지속적인 개선은 지속적인 효율성과 효과를 위해 필수적입니다.

궁극적인 목표는 사용자 경험을 향상시키고 비즈니스 가치를 창출하며 운영 중단을 최소화하는 신뢰성과 협업 중심 문화를 구축하는 것입니다.

각 클라우드 애플리케이션은 자체 관리자 또는 SRE 팀에 의해 모니터링 솔루션을 채택하거나 구축하는 경향이 있습니다. 제어 평면을 최소화하기 위해 운영 팀은 중앙화된 모니터링 솔루션에 온보딩하기 위해 중앙화된 툴 팀과 협력하는 방식을 우선적으로 선택해야 합니다.

시스템, 이벤트, 애플리케이션 로그를 중앙 위치에 통합하면 운영 담당자가 모니터링하고 관리해야 하는 로그 소스와 위치 수가 줄어들어 운영 모니터링과 문제 진단이 크게 단순화됩니다. 이를 통해 팀은 시스템의 다양한 구성 요소에서 지표와 로그를 지속적으로 수집하고 분석하는 포괄적인 모니터링 시스템을 구축할 수 있습니다. 이러한 시스템은 SLI가 허용 범위를 벗어날 때 경고를 발생시키며 엔지니어 또는 자동화된 프로세스가 신속하게 대응할 수 있도록 합니다.

IBM Observability with Instana

IBM Cloud Pak for AIOps

고객 요구 증가, 확장된 멀티클라우드 환경, 이를 관리할 숙련 인력 부족 등의 상황에서는 기존의 “break-fix” 운영 모델이 더 이상 효과적으로 작동하지 않습니다. 인공지능 지원 운영(AIOps) 툴은 운영 팀이 환경의 가용성, 성능, 보안을 유지하도록 돕고, 환경 내에서 발생할 수 있는 잠재적 문제와 진행 중인 문제를 신속하게 식별하고 해결할 수 있도록 지원합니다.

AIOps 도입은 다음과 같은 핵심 활동을 통해 구현됩니다.

사고, 문제, 변경 등 운영 프로세스 전반에 걸친 데이터 수집
SLO와 SLI에 맞춘 모델 학습
개별 서비스와 통합 서비스 전반에서 자동 감지 및 초기 대응
셀프 힐링 시스템을 가능하게 하는 자동화된 대응 및 복구
지속적인 피드백과 학습

IBM Cloud Pak for AIOps

인프라 사양과 구성은 코드처럼 관리됩니다. 자동화된 프로비저닝 툴을 사용하여 구성 관리를 수행하고 배포 전반에서 인프라의 일관성을 보장합니다.

코드 기반의 일관된 인프라 구성은 SLDC 수명 주기 전반과 다양한 환경 배포에서 재현 가능한 환경을 보장합니다.

이 접근 방식은 다음과 같은 주요 이점을 제공합니다.

Git과 같은 시스템을 활용한 거버넌스, 감사 가능성 및 버전 관리
협업 지원 및 필요 시 변경 사항 롤백 가능
리소스 프로비저닝과 관리의 자동화 및 속도 향상
임계값과 트리거에 따른 확장성
팀과 프로젝트 전반에서 재사용 가능

Ansible

제품 팀은 이해관계자와 협력하여 서비스 수준 목표(SLO)를 정의하고 서비스의 복원력과 제공 수준을 측정하는 서비스 수준 지표(SLI)를 수립합니다. SLI는 지연 시간, 오류율, 가동 시간과 같은 측정 가능한 지표를 활용하여 설정된 목표 달성에 기여하며 SLO와 다대일 관계를 가질 수 있습니다.

SLO와 SLI를 수립하면 다음과 같은 주요 이점을 얻을 수 있습니다.

팀이 명확하고 잘 정의된 목표를 가질 수 있도록 측정 가능한 목표 제공
비즈니스 기대치와 사용자 경험을 기반으로 한 사용자 중심 접근
객관적인 측정과 평가를 가능하게 하는 정량적 지표
외부 공급자를 사용할 때 서비스 품질을 정렬하는 데 도움이 되는 기준 제공
팀 간 공통 측정 기준 제공(개발, 운영, 비즈니스)

사고 관리, 변경 관리, 문제 관리와 같은 주요 프로세스에서 역할, 책임, 커뮤니케이션 채널, 에스컬레이션 경로를 명확히 정의하는 절차를 일관되게 수립하세요. 이러한 절차는 클라우드 리소스를 기능적이고 안전하며 확장 가능하고 비용 효율적으로 사용할 수 있도록 보장합니다.

일반적인 클라우드 운영 절차에는 다음이 포함됩니다.