서비스 수준 목표 시작하기

Instana 에서 첫 번째 서비스 수준 목표(SLO)를 생성하고 주요 개념과 구성 옵션을 파악할 수 있습니다.

시작하기 전에

첫 번째 SLO를 생성하기 전에 다음 사항을 확인하십시오:
  • 액세스 권한 : “서비스 수준 액세스” 권한 및 “SLO 구성 생성, 구성 및 삭제” 권한
  • 모니터링 대상 엔터티 : 다음 중 최소 하나는 이미 Instana 에 구성되어 있어야 합니다:
    • 애플리케이션 퍼스펙티브
    • 비콘 데이터가 포함된 웹사이트
    • 합성 테스트
    • 인프라스트럭처 엔터티(호스트, 컨테이너 등)

SLO 개념 이해하기

SLO를 생성하기 전에 핵심 구성 요소들이 어떻게 함께 작동하는지 이해하는 것이 중요합니다.

SLI/SLO/오류 예산 간의 관계

  
┌─────────────────────────────────────────────────────────────┐
│  Service Level Indicator (SLI)                              │
│  "What you measure"                                         │
│  Example: Response time, error rate, availability           │
└────────────────┬────────────────────────────────────────────┘
                 │
                 ▼
┌─────────────────────────────────────────────────────────────┐
│  Service Level Objective (SLO)                              │
│  "Your target"                                              │
│  Example: 99% of requests < 100ms                           │
└────────────────┬────────────────────────────────────────────┘
                 │
                 ▼
┌─────────────────────────────────────────────────────────────┐
│  Error Budget                                               │
│  "Allowed failures"                                         │
│  Example: 1% = 101 minutes/week OR 252 failed calls         │
└─────────────────────────────────────────────────────────────┘
        
핵심 개념:
  • 서비스 수준 지표(SLI) : 서비스 성능(예: 지연 시간, 가용성 또는 트래픽)을 정량적으로 측정하는 지표
  • 블루프린트 : 측정 중인 SLI 유형(지연 시간, 가용성, 트래픽, 포화도 또는 사용자 정의)
  • SLO 목표 : 원하는 성능 수준 (예: 99%)
  • 오류 예산 : 목표치(이 예시에서는 1%)의 역수로서 허용 가능한 실패를 나타냄
  • 좋은 사건/분 vs 나쁜 사건/분 :
    • 양호 : 임계값을 충족하는 메트릭 (예: 응답 시간 < 100ms )
    • 나쁨 : 임계값을 초과하는 메트릭(예: 응답 시간 ≥ 100ms )
  • 소모 속도 : SLO 시간 창에 비해 오류 허용량을 얼마나 빠르게 소모하고 있는가
결정 가이드: SLO 구성 선택하기

1단계: 엔터티 유형 선택

엔티티 유형 최적의 대상 일반적인 유스 케이스
애플리케이션 백엔드 서비스, API API 지연 시간, 서비스 가용성, 오류율
웹 사이트 사용자 대상 웹 애플리케이션 페이지 로딩 시간, 사용자 경험, 프론트엔드 오류
합성 테스트 사전 예방적 모니터링 가동 시간 모니터링, 다단계 사용자 흐름
인프라 시스템 자원 CPU, 메모리, 디스크 사용률

2단계: 청사진 선택

블루프린트 측도 사용 시점
대기 시간 응답 시간 속도가 중요할 때 (API, 페이지 로딩)
가용성 성공률 가동 시간이 중요한 경우(서비스, 웹사이트)
트래픽 요청 볼륨 로드 일관성이 중요할 때
포화 자원 사용 인프라 용량 계획 수립을 위해
사용자 정의 사용자 정의 기준 특정 비즈니스 요구 사항에 대해

3단계: 측정 유형 선택

유형 오류 예산 단위 최적의 대상 계산 방법
시간 기반 일관된 교통 패턴 분당 집계 메트릭
이벤트 기반 이벤트(호출/비콘/결과) 가변적 교통량 개별적인 긍정적/부정적 사건을 집계합니다
시간 기반 예시 : "99%의 분 동안 평균 지연 시간이 100ms 미만이어야 합니다."
  • 정적 오류 예산: 10,080분(1주)의 1% = 101분
이벤트 기반 예시 : "요청의 99%는 지연 시간이 100ms 미만이어야 합니다"
  • 동적 오류 예산: 전체 요청의 1%(트래픽에 따라 변동)

튜토리얼: 첫 번째 SLO 만들기

이 튜토리얼은 애플리케이션 지연 시간을 모니터링하기 위한 SLO를 생성합니다.

시나리오

목표 : 7일 이동 평균 기간 동안, 귀사의 "결제 서비스" 애플리케이션에 대한 API 호출의 95%가 200ms 이내에 응답하도록 보장합니다.

단계별 지시사항

  1. 서비스 수준으로 이동

    • Instana UI 탐색 메뉴에서 ‘서비스 수준’을 클릭합니다
    • 서비스 수준 목표 생성
  2. 엔티티 선택

    • 엔터티 유형: 애플리케이션
    • 응용 프로그램을 선택하십시오: 결제 서비스 (검색 가능한 목록에서)
    • 다음을 클릭하십시오.
  3. 범위 설정

    • 범위 내 호출 : 인바운드 호출 (애플리케이션 외부에서 오는 호출)
    • 숨겨진 호출 포함 (선택 사항):
      • 내부 통화: 선택 해제 (내부 서비스 통화 제외)
      • 합성 호출: 확인 안 됨 (상태 점검 제외)
    • 서비스 및 엔드포인트 : 선택 (드롭다운 메뉴 사용)
      • 서비스: 모든 서비스 (또는 특정 서비스 선택)
      • 엔드포인트: 모든 엔드포인트 (또는 특정 엔드포인트 선택)
    • 다음을 클릭하십시오.
  4. 표시기 설정

    • 블루프린트: 지연 시간
    • 측정 유형: 시간 기반 (분 단위로 메트릭 집계)
    • 집계: 평균 (분당 평균 지연 시간)
    • 역치: 200 밀리초
    • 다음을 클릭하십시오.

    이것이 의미하는 바 : 매분마다 Instana 은 평균 지연 시간을 계산합니다. 평균이 200ms 를 초과하면 해당 분은 "불량"으로 표시되며 오류 예산을 소모합니다.

  5. 목표 설정

    • SLO 목표: 95% (95%의 분이 기준을 충족해야 함)
    • 시간 창: 롤링 (지난 7일 동안 지속적으로 평가)
    • 기간: 7일
    • 시간대 고정: 비활성화됨 (기본값으로 UTC 사용)

    오류 예산 미리보기 : 504분 (7일 × 24시간 × 60분 × 5%)

  6. 세부사항 입력

    • 이름: 결제 서비스 - 지연 시간 서비스 수준 목표(SLO)
    • 태그: 생산, 지불, 중요 (선택 사항, 필터링용)
    • 팀: 결제 팀, 감사 팀 (선택 사항)
    • 작성을 클릭하십시오.
SLO 대시보드 이해하기
생성 후, 다음과 같은 SLO 대시보드가 표시됩니다:
  • 상태 : 목표(95%) 대비 현재 성과 비율(예: 96.5 %)
  • 오류 예산 잔여량 : 오류 예산 내 잔여 분(예: 504분 중 450분)
  • 소모 속도 : 오류 예산이 얼마나 빠르게 소모되고 있는가 (예: 1.2x = 예상보다 20% 더 빠른 속도)
  • 지표 차트 : 시간에 따른 지연 시간과 임계값 선
  • 오류 예산 차트 : 시간 경과에 따른 오류 예산 소모량
  • 트래픽 차트 : 시간 경과에 따른 요청량

다음 단계

이제 첫 번째 SLO를 생성했으니 다음을 고려해 보세요:
  1. 스마트 알림 추가 : SLO 상태, 오류 예산 또는 소모율이 임계값을 초과할 때 알림 받기

  2. 수정 작업 시간대 생성 : 계획된 유지보수 또는 비업무 시간 제외

  3. SLO 위젯 추가 : 사용자 정의 대시보드에 SLO 표시

  4. 더 많은 예시를 살펴보세요 : 다양한 SLO 구성에 대해 알아보기

  5. API 로 자동화 : SLO를 프로그래밍 방식으로 관리

    • SLO 참조: API

자주 묻는 질문

Q: 시간 기반 측정과 이벤트 기반 측정 중 어떤 것을 사용해야 할까요?

A: 트래픽 패턴이 일관되고 예측 가능한 오류 예산을 원할 때 시간 기반 방식을 사용하십시오. 트래픽이 변동적이거나 개별 요청 성공률이 중요한 경우 이벤트 기반 방식을 사용하십시오.

Q: 시작하기에 좋은 SLO 목표는 무엇인가요?

A: 비중요 서비스는 95%, 중요 서비스는 99%, 핵심 서비스는 99.9 %로 시작할 수 있습니다. 실제 성과와 비즈니스 요구 사항에 따라 이러한 목표를 조정하십시오.

Q: 시간 창은 얼마나 길어야 하나요?

A: 일반적인 옵션으로는 다음과 같습니다:
  • 1일 : 신속한 피드백 제공; 개발 또는 테스트에 유용함
  • 7일 : 반응성과 안정성의 균형
  • 28일 : 장기적인 추세를 보여줍니다; 제작 서비스에 권장됩니다
  • 달력 월 : 비즈니스 보고 주기와 일치하므로 월간 SLA 검토 및 재무 보고 기간에 이상적입니다. 고정된 시간대 내에서만 이용 가능합니다.

Q: SLO 상태가 항상 100%라면 어떻게 되나요?

A: 당신의 기준이 너무 관대할 수 있습니다. 지표 차트를 검토하고, 더 도전적이면서도 여전히 달성 가능한 수준이 되도록 임계값을 조정하십시오.

Q: 생성한 SLO를 변경할 수 있나요?

A: 네, 이름, 대상, 시간 창 유형/길이, 시간대 및 태그를 업데이트할 수 있습니다. 그러나 엔티티, 범위 또는 지표 구성을 변경할 수 없습니다.

달력 월 단위의 기간을 사용하는 것이 적절한 경우는 언제인가요?

A: 다음의 경우 달력 월 시간 창을 사용하십시오:

  • SLO 보고를 비즈니스 일정 및 월간 검토와 일치시켜야 합니다
  • 귀사는 SLA를 매월 기준으로 추적합니다
  • 매월 일관된 비교를 원합니다
  • 재무 또는 운영 보고는 달력 월 경계를 따릅니다
참고: 달력 월은 고정된 시간 창(롤링되지 않음)에서만 지원되며, 단일 월 기간만 지원됩니다. 월 중순에 생성된 경우 초기 기간은 부분적(생성일로부터 해당 월 말까지)이며, 이후 기간은 완전한 달 단위로 이어집니다.

Q: 합성 테스트는 개별적으로 선택해야 하나요, 아니면 필터를 사용해서 선택해야 하나요?

A: 개별 합성 테스트 선택 기능을 사용하여 SLO가 특정 고정 테스트 세트를 모니터링하도록 설정하십시오. 필터 기반 선택을 사용하여 테스트 이름, 위치 ID 또는 애플리케이션 ID와 같은 속성에 해당하는 모든 합성 테스트를 SLO에 자동으로 포함시키세요. 필터 기반 선택은 동적 범위를 생성하므로, 필터 기준을 충족하는 새로 생성된 테스트는 자동으로 SLO에 포함됩니다.