IBM Well-Architected Framework

흰색 배경 위에 흰색 전원 기호가 있는 파란색 3D 직사각형
개요

효율적 운영 핵심 요소는 클라우드 워크로드 인사이트, 디지털화된 프로세스, 선제적인 운영 체계를 유지하기 위한 요구 사항을 충족하는 솔루션에 초점을 둡니다. 이는 팀 구성, 자동화, AI 툴을 활용하여 솔루션을 안전하고 안정적이며 성능을 유지하는 방식으로 모니터링, 관리, 유지하기 위한 실천 방법과 지침을 통해 구현됩니다.

원칙

운영 모델의 예로는 “구축한 사람이 직접 운영한다” 모델이나 사이트 신뢰성 엔지니어링 관행을 구축하는 방식이 있습니다. 이러한 운영 모델은 비즈니스, 고객, 관리자, 개발 팀의 요구와 컨텍스트를 이해하는 데 기반합니다.

운영 모델은 산업 특성, 규제 요구 사항, 기존 솔루션, 사용자 목표 등의 요소를 고려하여 조직의 요구에 맞게 지속적으로 평가되고 조정되며 맞춤화되어야 한다는 점을 이해하는 것이 중요합니다.

스크립팅, 지능형 에이전트, 기타 툴을 사용해 일반적이고 반복적인 운영 작업을 자동화하면 높은 서비스 수준을 유지하는 데 도움이 됩니다.

이 원칙은 팀과 의존 관계 전반에 확장되어 엔드투엔드 효율성과 속도, 정확성, 오류 감소, 민첩성을 달성하고 운영 환경 전반의 일관성을 보장해야 합니다.

오늘날 운영 팀은 다양한 운영 툴을 선택할 수 있으며 특정 운영 영역에 대해 동급 최고 수준의 툴을 여러 개 선택할 수 있지만 이를 관리하지 않으면 툴 확산이 발생할 수 있습니다.

툴 간 차이와 통합 문제는 팀원 온보딩, 라이선스 및 비용 관리, 민첩성, 보안 취약성 증가와 관련된 문제를 초래할 수 있습니다. 운영 팀은 사용 중인 운영 툴과 콘솔을 지속적으로 최소화하고 통합해야 합니다.

모든 솔루션이 연중무휴 24시간 가용성이나 즉각적인 응답 시간을 요구하는 것은 아닙니다. 효율적인 솔루션은 하나의 솔루션 내에서 여러 서비스 수준을 지원해야 하며 워크로드의 운영 요구 사항을 가장 잘 충족하는 인프라에 워크로드를 배치할 수 있어야 합니다.

서비스 수준은 비즈니스 목표와 긍정적인 사용자 경험을 지원하기 위해 애플리케이션 수준 구성과 계측을 고려하도록 개발 팀에 기준을 제공합니다.

효율적인 운영 팀은 다학제적이며 특정 애플리케이션 집합을 지원하는 데 필요한 모든 역량을 갖추고 있습니다. 이러한 역량을 확보하려면 애플리케이션 및 인프라 서비스를 포함한 워크로드 전체 스택을 고려해야 합니다.

솔루션과 운영 툴은 운영 툴과 정보가 솔루션 구성 요소 간에는 통합되고 다른 솔루션과는 분리될 수 있도록 이 모델을 지원해야 합니다.

사이트 안정성 엔지니어링이란 무엇인가요?

많은 운영 작업은 공통적이며 자동화할 수 있고 API를 통해 접근할 수도 있습니다. 예를 들어 시크릿을 관리하기 위한 자동화를 만드는 것뿐 아니라 시크릿 관리 작업을 실행하는 장기 실행 API를 구축할 수 있습니다.

이 접근 방식은 새로운 기능 온보딩과 동적 워크플로 통합 전반에 걸쳐 확장될 수 있습니다. 이를 통해 절차를 표준화하고 팀 간 대기 시간을 줄일 수 있습니다.

 

관행

효율적인 운영 솔루션을 구축하기 위한 실천 방법과 지침 이 지침은 팀이 효율적인 운영 원칙을 구현하고 복잡한 시스템의 신뢰성, 가용성, 성능을 보장하도록 안내합니다. 이러한 실천 방법은 조직이 사용자 중심의 신뢰성 목표를 달성하고 서비스의 안정성을 유지하는 데 도움이 됩니다.

효율적인 운영 실천 방법은 조직의 사용자, 시스템, 서비스의 특정 요구와 컨텍스트에 맞게 조정하고 적절한 규모로 적용할 수 있습니다.

조직별 요구 사항, 워크로드, 아키텍처에 따라 채택해야 할 최적의 실천 방법이 결정됩니다. 피드백, 평가, 조직의 클라우드 전략과의 정렬을 통한 지속적인 개선은 지속적인 효율성과 효과를 위해 필수적입니다.

궁극적인 목표는 사용자 경험을 향상시키고 비즈니스 가치를 창출하며 운영 중단을 최소화하는 신뢰성과 협업 중심 문화를 구축하는 것입니다.

각 클라우드 애플리케이션은 자체 관리자 또는 SRE 팀에 의해 모니터링 솔루션을 채택하거나 구축하는 경향이 있습니다. 제어 평면을 최소화하기 위해 운영 팀은 중앙화된 모니터링 솔루션에 온보딩하기 위해 중앙화된 툴 팀과 협력하는 방식을 우선적으로 선택해야 합니다.

시스템, 이벤트, 애플리케이션 로그를 중앙 위치에 통합하면 운영 담당자가 모니터링하고 관리해야 하는 로그 소스와 위치 수가 줄어들어 운영 모니터링과 문제 진단이 크게 단순화됩니다. 이를 통해 팀은 시스템의 다양한 구성 요소에서 지표와 로그를 지속적으로 수집하고 분석하는 포괄적인 모니터링 시스템을 구축할 수 있습니다. 이러한 시스템은 SLI가 허용 범위를 벗어날 때 경고를 발생시키며 엔지니어 또는 자동화된 프로세스가 신속하게 대응할 수 있도록 합니다.

IBM Observability with Instana IBM Cloud Pak for AIOps

고객 요구 증가, 확장된 멀티클라우드 환경, 이를 관리할 숙련 인력 부족 등의 상황에서는 기존의 “break-fix” 운영 모델이 더 이상 효과적으로 작동하지 않습니다. 인공지능 지원 운영(AIOps) 툴은 운영 팀이 환경의 가용성, 성능, 보안을 유지하도록 돕고, 환경 내에서 발생할 수 있는 잠재적 문제와 진행 중인 문제를 신속하게 식별하고 해결할 수 있도록 지원합니다.

AIOps 도입은 다음과 같은 핵심 활동을 통해 구현됩니다.

  • 사고, 문제, 변경 등 운영 프로세스 전반에 걸친 데이터 수집
  • SLO와 SLI에 맞춘 모델 학습
  • 개별 서비스와 통합 서비스 전반에서 자동 감지 및 초기 대응
  • 셀프 힐링 시스템을 가능하게 하는 자동화된 대응 및 복구
  • 지속적인 피드백과 학습
IBM Cloud Pak for AIOps

인프라 사양과 구성은 코드처럼 관리됩니다. 자동화된 프로비저닝 툴을 사용하여 구성 관리를 수행하고 배포 전반에서 인프라의 일관성을 보장합니다.

코드 기반의 일관된 인프라 구성은 SLDC 수명 주기 전반과 다양한 환경 배포에서 재현 가능한 환경을 보장합니다.

이 접근 방식은 다음과 같은 주요 이점을 제공합니다.

  • Git과 같은 시스템을 활용한 거버넌스, 감사 가능성 및 버전 관리
  • 협업 지원 및 필요 시 변경 사항 롤백 가능
  • 리소스 프로비저닝과 관리의 자동화 및 속도 향상
  • 임계값과 트리거에 따른 확장성
  • 팀과 프로젝트 전반에서 재사용 가능

 

Ansible

제품 팀은 이해관계자와 협력하여 서비스 수준 목표(SLO)를 정의하고 서비스의 복원력과 제공 수준을 측정하는 서비스 수준 지표(SLI)를 수립합니다. SLI는 지연 시간, 오류율, 가동 시간과 같은 측정 가능한 지표를 활용하여 설정된 목표 달성에 기여하며 SLO와 다대일 관계를 가질 수 있습니다.

SLO와 SLI를 수립하면 다음과 같은 주요 이점을 얻을 수 있습니다.

  • 팀이 명확하고 잘 정의된 목표를 가질 수 있도록 측정 가능한 목표 제공
  • 비즈니스 기대치와 사용자 경험을 기반으로 한 사용자 중심 접근
  • 객관적인 측정과 평가를 가능하게 하는 정량적 지표
  • 외부 공급자를 사용할 때 서비스 품질을 정렬하는 데 도움이 되는 기준 제공
  • 팀 간 공통 측정 기준 제공(개발, 운영, 비즈니스)

사고 관리, 변경 관리, 문제 관리와 같은 주요 프로세스에서 역할, 책임, 커뮤니케이션 채널, 에스컬레이션 경로를 명확히 정의하는 절차를 일관되게 수립하세요. 이러한 절차는 클라우드 리소스를 기능적이고 안전하며 확장 가능하고 비용 효율적으로 사용할 수 있도록 보장합니다.

일반적인 클라우드 운영 절차에는 다음이 포함됩니다.

  • 코드형 인프라의 사전 정의된 템플릿을 기반으로 한 프로비저닝 및 배포
  • 임계값 또는 상태 지표가 기준을 초과할 때 팀에 알림을 제공하는 모니터링 및 경고
  • 강력하고 신속한 복구 계획을 지원하기 위한 데이터 및 구성의 정기 백업
  • 리소스 사용률 모니터링 및 비용 최적화 기회 식별
  • 복구 계획의 효과를 검증하기 위한 정기적인 재해 복구 테스트 수행
  • 사용량 및 성장 추세를 분석하여 리소스 요구 사항 예측
  • 서비스 중단이나 침해와 같은 중요한 사건에 대응하기 위한 사고 대응 계획 수립

명확하게 정의된 절차의 구현과 관리는 다양한 상황을 모의하는 프로세스 시뮬레이션을 포함하며 이를 통해 팀이 여러 스쿼드 간 협업 환경에서도 품질과 효율성을 유지하며 작업을 수행할 수 있도록 준비합니다.

예기치 않은 사고가 발생한 후 팀은 사후 분석과 비난 없는 조사를 수행하여 기여 요인, 근본 원인, 그리고 대응의 효율성을 파악합니다. 그 이후 유사한 사고가 다시 발생하지 않도록 디지털화되거나 자동화된 해결 방안을 적용합니다.

이 관행에는 데이터 기반 인사이트, 사후 분석, 그리고 이해관계자의 피드백을 바탕으로 한 정기적인 검토와 개선이 포함됩니다. 또한 서비스가 온보딩되어 환경에 통합됨에 따라 기존 자동화 솔루션과의 통합은 선제적인 운영 체계를 유지하는 데 핵심적입니다.

이를 통해 프로세스가 정적인 상태에 머무르지 않고 변화하는 비즈니스 목표, 요구 사항, 과제에 맞춰 지속적으로 발전하도록 합니다.

보안 팀과 협력하여 보안 조치가 개발, 배포, 유지 관리 프로세스에 통합되도록 하세요.

여기에는 보안을 개발 초기 단계로 앞당기는 접근 방식과 함께, 정책을 코드화되고 자동화된 솔루션을 통해 구현하는 데 초점을 둔 소프트웨어 개발 수명 주기(SDLC)가 포함됩니다.

보안 팀과의 지속적인 협업을 통해 배포된 워크로드가 변화하는 조직 정책과 비즈니스 목표에 계속 부합하도록 합니다. 다른 프로세스에는 정기적인 보안 평가 수행, 취약점 관리 도입, 주기적인 규정 준수 점검 수행이 포함됩니다.

 

리소스 IBM Cloud Pak for AIOps
운영 팀이 운영 데이터를 맥락화하여 협업으로 문제를 해결하도록 지원하고 문제가 발생하기 전에 예방할 수 있도록 선제적인 권장 사항을 제공하는 종합적인 AI 지원 운영 관리 플랫폼입니다.
IBM Instana Observability
DevOps, SRE, 플랫폼 엔지니어링, ITOps를 포함한 모든 전달 팀을 지원하는 공통 플랫폼과 컨텍스트 기반 뷰를 통해 운영 팀을 통합하는 풀스택 운영 관측 가능성 플랫폼입니다.
IBM Turbonomic
운영 팀이 비용과 성능 측면에서 인프라 리소스를 최적화할 수 있도록 지원하는 풀스택 시각화 및 운영 자동화 플랫폼입니다.
IBM DevOps Automation
팀이 소프트웨어를 더 효율적으로 제공하도록 지원하는 지능형 소프트웨어 툴입니다.
Red Hat Ansible
반복 작업을 자동화하여 시간을 절약하고 생산성을 높이도록 지원하는 하이브리드 클라우드 자동화 플랫폼입니다.
OpenShift Pipelines
Red Hat OpenShift 내에서 실행되는 Kubernetes 리소스 기반의 클라우드 네이티브 지속적 통합 및 지속적 전달(CI/CD) 솔루션으로 하이브리드 클라우드 어디에서나 배포하고 사용할 수 있습니다.
OpenShift GitOps
OpenShift GitOps는 클라우드 네이티브 애플리케이션의 지속적 배포를 구현하기 위한 선언적 방식입니다.
다학제적 애플리케이션 중심 팀
사이트 신뢰성 엔지니어링(SRE)이란 무엇인가? SRE와 하이브리드 클라우드 솔루션에서의 역할에 대한 개요를 제공합니다.
Well-Architected 프레임워크 핵심 요소 하이브리드 및 이식성 복원력 보안 및 규정 준수 성능 재무 운영 및 지속 가능성
다음 단계