My IBM 로그인 구독하기

모니터링해야 하는 5가지 SLA 메트릭

2024년 6월 10일

7분 분량

비즈니스뿐만 아니라 모든 분야에서 커뮤니케이션은 매우 중요합니다. 성공적인 서비스 수준 계약(SLA)은 이 원칙에 따라 운영되어 성공적인 공급자-고객 관계의 토대를 마련합니다.

서비스 수준 계약(SLA)은 서비스 공급자와 고객 간의 서비스 약관을 설명하는 기술 공급업체 계약의 핵심 구성 요소입니다. SLA는 예상되는 성능 수준, 성능 측정 방법 및 수준이 충족되지 않을 경우 미치는 영향을 설명합니다. SLA는 모든 이해관계자가 서비스 계약을 이해하고 보다 원활한 작업 관계를 구축하는 데 도움이 됩니다.

SLA 유형

SLA에는 다음과 같은 세 가지 주요 유형이 있습니다.

고객 수준 SLA

고객 수준 SLA는 서비스 공급자와 고객 간의 서비스 약관을 정의합니다. 고객은 공급자로부터 클라우드 스토리지를 구매하는 기업과 같은 외부 고객일 수도 있고, 제품 개발과 관련된 비즈니스 팀과 IT 팀 간의 SLA와 같은 내부 고객일 수도 있습니다.

서비스 수준 SLA

여러 고객에게 동일한 서비스를 제공하는 서비스 공급자는 서비스 수준 SLA를 사용하는 경우가 많습니다. 서비스 수준 SLA는 고객에 따라 변경되는 것이 아니라 모든 고객에게 제공되는 일반적인 서비스 수준을 설명합니다.

다중 수준 SLA

서비스 공급자가 동일한 제품에 대해 다계층 요금제를 제공하는 경우 각 수준에서 제공하는 서비스를 명확하게 전달하기 위해 다중 수준 SLA를 제공하는 경우가 많습니다. 다중 수준 SLA는 두 개 이상의 당사자 간에 계약을 생성할 때도 사용됩니다.

SLA 구성 요소

SLA에는 관련 당사자에 대한 개요, 제공할 서비스, 이해관계자 역할 분류, 성과 모니터링 및 보고 요구 사항이 포함됩니다. 기타 SLA 구성 요소에는 보안 프로토콜, 시정 계약, 검토 절차, 해지 조항 등이 포함됩니다. 결정적으로, 이는 성과를 측정하는 방법을 정의합니다.

SLA는 서비스 성능을 측정하는 데 사용할 주요 메트릭(서비스 수준 계약 메트릭)을 정확하게 정의해야 합니다. 이러한 메트릭은 조직의 서비스 수준 목표(SLO)와 관련이 있는 경우가 많습니다(ibm.com 외부 링크). SLA는 조직과 고객 간의 계약을 정의하는 반면, SLO는 내부 성과 목표를 설정합니다. SLA를 이행하려면 비즈니스 운영 및 서비스 제공업체 성과와 관련된 중요한 메트릭을 모니터링해야 합니다. 핵심은 올바른 메트릭을 모니터링하는 것입니다.

SLA의 KPI란 무엇인가요?

메트릭은 가용성이나 지연 시간 과 같은 서비스 성능 측면을 구체적으로 측정한 것입니다. 핵심 성과 지표(KPI)는 비즈니스 목표와 연결되며 해당 목표에 대한 팀의 진행 상황을 판단하는 데 사용됩니다. KPI는 비즈니스 목표 없이는 존재할 수 없습니다. 이는 명시된 목표를 향한 진행 상황을 나타내는 '지표'입니다.

연간 매출 성장을 예로 들어 보겠습니다. 조직의 목표는 전년 대비 30% 성장입니다. 현재까지의 구독 갱신 또는 생성된 리드와 같은 KPI를 통해 연간 매출 성장 목표를 향한 비즈니스 진행 상황을 실시간으로 파악할 수 있습니다.

애플리케이션 가용성 및 지연 시간과 같은 메트릭은 컨텍스트를 제공하는 데 도움이 됩니다. 예를 들어, 조직이 고객을 잃고 있고 연간 목표를 달성하지 못하는 경우 고객 만족도와 관련된 메트릭(즉, 애플리케이션 가용성 및 지연 시간)을 검토하면 고객이 떠나는 이유에 대한 답을 얻을 수 있습니다.

모니터링할 SLA 메트릭

SLA는 공급자, 제공되는 서비스 유형, 고객 요구 사항, 규정 준수 기준 등에 따라 다양한 조건을 포함하며, 메트릭은 업계 및 사용 사례에 따라 다릅니다. 그러나 가용성, 평균 복구 시간, 응답 시간, 오류율, 보안 및 규정 준수 측정과 같은 특정 SLA 성능 메트릭은 여러 서비스와 산업에서 일반적으로 사용됩니다. 이러한 메트릭은 운영 및 제공되는 서비스 품질에 대한 기준을 설정합니다.

성과를 측정하는 데 사용할 메트릭 및 핵심 성과 지표(KPI)와 이 정보가 전달되는 방식을 명확하게 정의하면 IT 서비스 관리(ITSM) 팀이 수집 및 모니터링할 데이터를 식별하는 데 도움이 됩니다. 올바른 데이터를 활용하면 팀은 SLA를 보다 효과적으로 유지하고 고객이 무엇을 기대해야 할지 정확히 알 수 있습니다.

ITSM 팀은 이행과 관련된 메트릭을 모니터링하는 것 외에도 SLA 초안을 작성할 때 의견을 제시하는 것이 이상적입니다. 프로세스 초기에 ITSM 팀을 참여시키면 비즈니스 팀이 IT 팀에서 달성할 수 없는 계약을 고객과 체결하지 않도록 하는 데 도움이 됩니다.

IT 및 ITSM 리더가 모니터링해야 하는 중요한 SLA 메트릭은 다음과 같습니다.

1. 가용성

서비스 중단 또는 다운타임은 비용이 많이 들고 기업의 신뢰성을 손상시킬 수 있으며 규정 준수 문제로 이어질 수 있습니다. 조직과 고객 간의 SLA는 예상되는 서비스 가용성 또는 가동 시간 수준을 나타내며 시스템 기능을 나타내는 지표입니다.

가용성은 종종 90%, 99%, 99.9% 등과 같이 '100%에 가까운 백분율'로 측정됩니다. 많은 클라우드 및 SaaS 제공업체는 '99.999% 가동 시간'이라는 업계 표준을 목표로 합니다.

특정 기업의 경우 한 시간의 다운타임도 상당한 손실을 초래할 수 있습니다. 전자 상거래 웹사이트가 블랙 프라이데이와 같이 트래픽이 많은 시간이나 대규모 세일 기간에 중단되면 회사의 평판과 연간 수익에 손상을 줄 수 있습니다. 서비스 중단은 고객 경험에도 부정적인 영향을 미칩니다. 서비스를 지속적으로 이용할 수 없는 경우 사용자는 대안을 검색하게 되는 경우가 많습니다. 비즈니스 요구 사항은 다양하지만 사용자에게 빠르고 효율적인 제품과 서비스를 제공해야 하는 필요성은 보편적입니다.

일반적으로 최대 가동 시간이 선호됩니다. 그러나 일부 업계의 공급자는 고객의 요구 사항을 충족하는 경우 약간 낮은 가용률을 제공하는 것이 더 비용 효율적일 수 있습니다.

2. 평균 복구 시간

평균 복구 시간은 가동 중단 또는 장애 발생 시 제품을 복구하는 데 걸리는 평균 시간을 측정합니다. 어떤 시스템이나 서비스도 간헐적인 문제나 장애로부터 자유롭지 않지만, 신속하게 복구할 수 있는 기업은 비즈니스 수익성을 유지하고 고객 요구를 충족하며 SLA를 유지할 가능성이 더 높습니다.

3. 응답 시간 및 해결 시간

SLA는 종종 문제에 플래그가 지정되거나 기록된 후 서비스 공급자가 응답해야 하는 시간을 명시합니다. 문제가 기록되거나 서비스 요청이 있을 때, 응답 시간은 공급자가 문제에 응답하고 해결하는 데 걸리는 시간을 나타냅니다. 해결 시간은 문제가 해결되는 데 걸리는 시간을 나타냅니다. 이러한 시간을 최소화하는 것이 서비스 성능을 유지하는 데 중요합니다.

조직은 문제가 시스템 전체에 장애를 일으켜 보안 또는 규정 준수 문제를 야기하기 전에 문제를 해결해야 합니다. 비즈니스 기능에 대한 풀 스택 관측 가능성을 제공하는 소프트웨어 솔루션은 최적화된 시스템과 서비스 성능을 유지하는 데 중요한 역할을 할 수 있습니다. 이러한 플랫폼 중 상당수는 자동화머신 러닝(ML) 도구를 사용하여 문제 해결 프로세스를 자동화하거나 문제가 발생하기 전에 이를 식별합니다.

예를 들어, AI 기반 침입 탐지 시스템(IDS)은 네트워크 트래픽에서 악의적인 활동, 보안 프로토콜 위반 또는 비정상적인 데이터를 지속적으로 모니터링합니다. 이러한 시스템은 머신 러닝 알고리즘을 배포하여 대규모 데이터 세트를 모니터링하고 이를 사용하여 비정상적인 데이터를 식별합니다. 이상 징후와 침입이 발생하면 IT 팀에 알리는 알림이 트리거됩니다. AI와 머신 러닝이 없었다면 이러한 대규모 데이터 세트를 수동으로 모니터링하는 것은 불가능했을 것입니다.  

4. 오류율

오류율은 서비스 장애와 서비스 성능이 정의된 기준 이하로 떨어지는 횟수를 측정합니다. 기업에 따라 오류율은 비즈니스 기능과 관련된 여러 가지 문제와 관련이 있을 수 있습니다.

예를 들어, 제조 분야에서 오류율은 특정 제품 라인의 결함 또는 품질 문제 수 또는 설정된 시간 간격 동안 발견된 총 오류 수와 관련이 있습니다. 이러한 오류율 또는 결함률은 조직이 오류의 근본 원인을 파악하고 오류가 사용된 재료와 관련이 있는지 아니면 더 광범위한 문제와 관련이 있는지 파악하는 데 도움이 됩니다.

고객 서비스 상호 작용을 모니터링하는 고객 기반 메트릭의 하위 집합이 있으며, 이는 오류율과도 관련이 있습니다.

  • 최초 통화 해결률: 고객 서비스 영역에서는 헬프 데스크 상호 작용과 관련된 문제가 오류율에 영향을 미칠 수 있습니다. 고객 서비스 상호 작용의 성공 여부는 측정하기 어려울 수 있습니다. 문제가 해결되지 않는다고 해서 모든 고객이 설문조사를 작성하거나 불만을 제기하는 것은 아니며, 일부는 다른 서비스를 찾기도 합니다. 고객 서비스 상호 작용을 측정하는 데 도움이 되는 한 가지 메트릭은 최초 통화 해결률입니다. 이 비율은 헬프 데스크, 챗봇 또는 담당자와의 첫 번째 상호 작용에서 사용자의 문제가 해결되었는지 여부를 반영합니다. 고객 서비스 문의가 초기 문의를 넘어 에스컬레이션될 때마다 추가 리소스 비용이 지출됩니다. 또한 이는 고객 경험에도 영향을 미칠 수 있습니다.
  • 포기율: 이 비율은 고객이 해결책을 찾기 전에 문의를 포기하는 빈도를 나타냅니다. 포기율은 또한 전체 오류율에 추가될 수 있으며 서비스 데스크, 챗봇 또는 인력의 효율성을 측정하는 데 도움이 됩니다.

5. 보안 및 규정 준수

대량의 데이터와 온프레미스 서버, 클라우드 서버, 애플리케이션의 사용 증가로 인해 데이터 유출 및 보안 위협의 위험이 커지고 있습니다. 적절하게 모니터링하지 않으면 보안 침해 및 취약성으로 인해 서비스 제공업체가 법적 및 재정적 영향을 받을 수 있습니다.

예를 들어, 의료 업계에는 환자의 의료 데이터를 저장, 전송 및 폐기하는 방법에 대한 구체적인 요구 사항이 있습니다. 이러한 규정 준수 표준을 충족하지 못하면 벌금이 부과되고 고객이 입은 손실에 대한 배상이 청구될 수 있습니다.

제공되는 다양한 서비스에 따라 정의되는 산업별 메트릭은 무수히 많지만, 대부분은 더 큰 카테고리에 속합니다. 성공하려면 비즈니스 팀과 IT 서비스 관리 팀이 협력하여 서비스 제공을 개선하고 고객의 기대치를 충족하는 것이 중요합니다.

SLA 메트릭 모니터링의 이점

SLA 메트릭 모니터링은 기업이 IT 서비스가 고객의 기대치를 충족하는지 여부를 측정하고 개선이 필요한 부분을 정확히 파악할 수 있는 가장 효율적인 방법입니다. IT 팀은 메트릭과 KPI를 실시간으로 모니터링하여 시스템 약점을 파악하고 서비스 제공을 최적화할 수 있습니다.

SLA 메트릭 모니터링의 주요 이점은 다음과 같습니다.

관측 가능성 향상

비즈니스 운영에 대한 명확한 엔드투엔드 이해는 ITSM 팀이 성과를 개선할 방법을 찾는 데 도움이 됩니다. 조직은 관측 가능성이 향상되면 시스템 및 워크플로 운영에 대한 인사이트를 얻고, 오류를 식별하고, 워크로드의 균형을 보다 효율적으로 조정하고, 성능 표준을 개선할 수 있습니다.

성능 최적화

올바른 메트릭을 모니터링하고 이를 통해 얻은 인사이트를 활용함으로써 조직은 더 나은 서비스와 애플리케이션을 제공하고 고객의 기대를 뛰어넘으며 비즈니스 성장을 촉진할 수 있습니다.

고객 만족도 향상

마찬가지로 SLA 메트릭과 KPI를 모니터링하는 것은 서비스가 고객의 요구를 충족하는지 확인하는 가장 좋은 방법 중 하나입니다. 경쟁이 치열한 비즈니스 분야에서 고객 만족은 고객 유지를 촉진하고 긍정적인 평판을 구축하는 핵심 요소입니다.

투명성 향상

SLA는 서비스 약관을 명확하게 설명함으로써 혼란을 없애고 모든 당사자를 보호하는 데 도움이 됩니다. 잘 만들어진 SLA는 모든 이해관계자가 기대할 수 있는 사항을 명확히 하고, 서비스가 제공되는 시기와 특정 작업을 담당하는 이해관계자에 대한 잘 정의된 타임라인을 제공합니다. SLA를 제대로 이행하면 원활한 파트너십을 위한 환경을 조성하는 데 도움이 됩니다.

성능 이해 및 고객 기대치 초과

IBM Instana Observability 플랫폼 및 IBM Cloud Pak for AIOps는 팀이 데이터에서 더 강력한 인사이트를 얻고 서비스 제공을 개선하는 데 도움이 될 수 있습니다.

IBM Instana Observability는 자동화, 컨텍스트 및 지능형 조치를 하나의 플랫폼으로 결합하여 실시간으로 풀 스택 관측 가능성을 제공합니다. Instana는 운영 사일로를 해소하고 DevOps, SRE, 플랫폼 엔지니어링 및 ITOps 팀 전반에 걸쳐 데이터에 대한 액세스를 제공합니다.

IT 서비스 관리 팀은 인시던트 관리 및 문제 해결을 위한 자동화된 툴을 통해 IBM Cloud Pak for AIOps의 이점을 누릴 수 있습니다. IBM Cloud Pak for AIOps는 IT 운영의 혁신과 변화를 위한 툴을 제공합니다. 환경 전반의 종속성에 대한 컨텍스트를 제공하는 고급 가시성 솔루션으로 SLA를 충족하고 메트릭을 모니터링하세요.

IBM Cloud Pak for AIOps는 여러 환경의 성능 데이터와 종속성에 대한 가시성을 제공하는 AIOps 플랫폼입니다. 이를 통해 IT 운영 관리자와 사이트 안정성 엔지니어(SRE)는 인공 지능, 머신 러닝 및 자동화를 사용하여 인시던트 관리 및 문제 해결을 개선할 수 있습니다. IBM Cloud Pak for AIOps를 사용하면 팀은 더 빠르게 혁신하고 운영 비용을 절감하며 IT 운영(ITOps)을 혁신할 수 있습니다.

작가

Camilo Quiroz-Vázquez

IBM Staff Writer