클라우드 네이티브 관측 가능성이란 무엇인가요?

By Derek Robertson and Matthew Kosinski

클라우드 네이티브 관측 가능성, 정의

클라우드 네이티브 관측 가능성은 매우 복잡한 클라우드 애플리케이션과 시스템(일반적으로 마이크로서비스 기반, 종종 서버리스)을 아웃풋 및 원격 측정 데이터를 기반으로 이해하는 능력입니다.

클라우드 네이티브 관측 가능성은 클라우드 시스템이 제기하는 문제에 특별히 초점을 맞춘다는 점에서 전통적인 관측 가능성과 다릅니다. 이러한 시스템에서는 컨테이너, 가상 머신 및 기타 자원이 순식간에 프로비저닝되거나 삭제될 수 있어, 때로는 일시적인 대량의 데이터를 생성합니다.

클라우드 네이티브 관측 가능성 솔루션은 조직이 이 변경 가능한 시스템에서 주요 데이터 포인트를 추적하는 데 도움이 되며, 이를 통해 DevOps 프로세스와 소규모의 빈번한 자동 업데이트를 지원합니다.

클라우드 네이티브 관측 가능성 플랫폼은 조직의 하이브리드 클라우드 환경 전반에서 데이터를 수집하며, 이 환경은 여러 제공 업체의 서비스(예: Microsoft Azure 및 Amazon Web Services), 온사이트 서버, 및 이들이 지원하는 다양한 툴 및 리소스(예: 마이크로서비스 또는 Kubernetes와 같은 컨테이너 오케스트레이션 툴)로 구성될 수 있습니다. 네트워크 트래픽, 지연 시간 같은 지표와 플랫폼 전반의 이러한 지표 간 상관관계에 대한 실행 가능한 인사이트를 제공하며, 종종 필요한 수리와 수집된 데이터 시각화를 자동화합니다.

예를 들어, 클라우드 기반 관측 가능성 플랫폼은 클라우드 서버에 호스팅된 가상 머신에서 지연 시간 지표를 수집하고, 그 가상 머신의 Kubernetes 오케스트레이션 컨테이너에서 API 호출을 설명하는 로그, 그리고 새 애플리케이션 배포 같은 네트워크 이벤트 정보를 모을 수 있습니다. 그 후 수집된 데이터를 차트나 그래프로 제시하고 근본 원인 분석을 수행하여 관리자에게 다운타임의 원인에 대한 구체적인 인사이트를 제공합니다.

많은 최신 플랫폼은 인공 지능(AI)과 머신 러닝(ML)을 사용하여 이러한 자동화된 기능을 구동합니다. 2025년 451 Research의 보고서에 따르면 관측 가능성 솔루션을 사용하는 조직의 71%가 AI 기능을 사용하고 있으며, 이는 2024년보다 26% 증가한 수치입니다.¹

OpenTelemetry, Jaeger, Prometheus와 같이 널리 사용되는 많은 클라우드 네이티브 관측 가능성 툴은 오픈 소스입니다. 오픈 소스 툴은 개발자 커뮤니티가 문제 발생 시 플랫폼 또는 애플리케이션별 수정을 수행할 수 있도록 함으로써 때로는 예측할 수 없는 클라우드 네이티브 환경에서도 조직에 더 많은 유연성을 제공하고 다양한 시스템 애플리케이션프로그래밍 인터페이스(API)와 툴을 연결할 수 있는 더 큰 기능을 제공합니다.

업계 뉴스레터

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

클라우드 네이티브 관측 가능성은 어떻게 작동하나요?

클라우드 네이티브 관측 가능성 툴은 클라우드 에코시스템 전반에서 로그, 추적 및 지표를 수집합니다. 대시보드를 통해 원시 데이터, 분석, 시각화를 제공하여 사용자가 애플리케이션 상태와 비즈니스 목표를 모니터링할 수 있게 합니다.

데이터 수집

주로 마이크로서비스로 구성된 클라우드 환경에서는 새로운 컨테이너와 가상 머신이 순식간에 사라지고 나타나면서 방대한 양의 원격 측정 데이터가 생성될 수 있습니다. 이로 인해 클라우드 네이티브 관측 가능성 플랫폼이 해결해야 하는 새로운 문제가 발생합니다. 바로 끊임없이 변화하는 네트워크의 모든 것을 파악하고 비즈니스 요구 사항을 충족하기 위해 네트워크가 자동으로 확장 및 축소되면서 더 이상 존재하지 않을 수 있는 소스의 데이터를 추적하는 것입니다.

관측 가능성 툴은 이러한 복잡한 네트워크 내에서 CPU 메모리 데이터, 앱 로그, 가용성 정보, 평균 지연 시간 및 기타 데이터 포인트의 수집 및 집계를 용이하게 합니다.

클라우드 네이티브 관측 가능성 플랫폼은 관측 가능성의 세 가지 핵심 요소인 로그, 추적, 지표를 기반으로 합니다.

로그

로그는 세분화되고 타임스탬프가 찍히며 완전하고 변경할 수 없는 애플리케이션 이벤트 기록입니다. 로그를 사용하면 주변 컨텍스트를 포함한 모든 이벤트에 대해 정확도가 높은 밀리초 단위의 레코드를 만들 수 있습니다. 개발자는 문제 해결 및 디버깅을 위해 로그를 사용합니다.

트레이스

추적은 사용자 인터페이스에서 전체 아키텍처를 거쳐 사용자에게 돌아오는 모든 사용자 요청의 엔드투엔드 '여정'을 기록합니다.

메트릭

지표는 시간 경과에 따른 애플리케이션 및 시스템 상황을 측정하는 기본적인 척도입니다. 예를 들어, 지표는 애플리케이션이 5분 동안 사용하는 메모리 또는 CPU 용량이나 사용량이 급증하는 동안 애플리케이션이 경험하는 지연 시간을 측정하는 데 사용됩니다.

모니터링

가시성은 클라우드 네이티브 관측 가능성 플랫폼의 핵심 기능입니다. 마이크로서비스 기반 네트워크의 컨테이너, 가상 머신, 서버 및 기타 요소를 모니터링할 수 있는 능력은 이러한 아키텍처에서 핵심 기능입니다. 분산 추적과 의존성 맵이 복잡하고 거의 해독 불가능할 수 있기 때문입니다.

관측 가능성 대시보드를 통해 사용자는 가용성, 리소스 사용량과 같은 애플리케이션 상태 측정값과 전환율이나 활성 사용자와 같은 관련 비즈니스 목표를 모니터링할 수 있습니다. 모니터링 기능은 (종속성 그래프 같은 도구를 사용해) 서비스들이 서로 어떻게 상호 작용하는지 명확히 하고, 전체 아키텍처에 어떻게 맞춰지는지 파악하는 데 도움이 됩니다.

분석

전통적인 모니터링은 애플리케이션 성능 관리(APM) 툴을 사용하여 각 데이터 소스에서 수집한 데이터를 집계해 이해하기 쉬운 보고서, 대시보드 및 시각화를 생성하는 방식으로 수행되었습니다. 이는 현대적인 관측 가능성 소프트웨어의 모니터링 기능과 비슷합니다.

최신 클라우드 컴퓨팅 환경에서 관측 가능성 도구는 컨테이너 오케스트레이션 소프트웨어가 네이티브 툴을 사용하여 플랫폼 내에서 관측 가능성을 수행하는 Kubernetes 계층으로 기본 원격 측정을 넘겨 처리하는 경우가 많습니다. Kubernetes가 이 활동을 자동화할 수 있도록 허용하면 IT 팀은 서비스 수준 목표(SLO)와 서비스 수준 지표(SLI)에 데이터 분석을 집중할 수 있습니다.

최신 관측 가능성 소프트웨어의 자동화는 수집, 모니터링 및 분석을 넘어섭니다. 또한 관측 가능성 툴은 새로운 서비스가 네트워크에 추가될 때 디버깅 프로세스, 계측 및 모니터링 대시보드 업데이트를 자동화할 수 있습니다. 또한 에이전트는 에코시스템 전체에 배포되는 소규모 소프트웨어 구성 요소로서 원격 측정 데이터를 지속적으로 수집하는 에이전트 처리를 관리할 수 있습니다.

클라우드 네이티브 관측 가능성의 이점

클라우드 네이티브 관찰 가능성을 실행하면 조직이 복잡한 시스템을 더 종합적으로 파악할 수 있고 평균 복구 시간(MTTR)을 줄이며 자동화 툴을 DevOps 워크플로에 더욱 통합할 수 있습니다.

시스템 투명성

고도로 분산된 시스템에서는 수많은 겹치는 서버와 클라우드 네이티브 애플리케이션이 신호, 지표, 로그 및 추적을 방출하며 항상 데이터를 공유하지는 않습니다. 클라우드 기반 관측 가능성 툴은 생태계 전반에서 관찰 데이터를 수집하여 이러한 병목 현상을 극복하는 데 도움이 되며, 관리자가 실시간으로 문제를 해결하고 데이터 기반의 의사 결정을 내릴 수 있도록 합니다.

더 빠른 복구

관리자 또는 관측 가능성 플랫폼 내의 자동화된 툴이 클라우드에서 문제 간의 상관관계를 발견하면 근본 원인 분석을 수행할 수 있습니다. 예를 들어, 플랫폼은 특정 지역의 높은 지연 시간과 동시에 발생하는 느린 애플리케이션 응답을 전역적으로 표시한 다음, 해당 문제의 원인이 되는 잘못 구성되거나 제대로 작동하지 않는 서버를 식별하기 위한 분석을 수행할 수 있습니다.

이 분석은 사고를 몇 시간 동안 조사하는 대신, 사건 발생 전에 발생이 임박한 문제를 해결함으로써 다운타임을 줄이고 DevOps 팀이 다른 작업에 집중할 수 있게 합니다.

자동화 향상

인공 지능과 머신 러닝 도구는 많은 최신 관측 가능성 플랫폼의 핵심으로, 사용자 개입 없이 이상 징후를 감지하고 근본 원인 분석을 수행하며 데이터 시각화를 위해 생성형 AI를 사용합니다.

클라우드 환경에서 생성되는 원격 측정 데이터의 양이 엄청나게 많기 때문에 AI와 ML은 클라우드 기반 관측 가능성에 매우 중요합니다. 대규모 관측 가능성을 자동화하면 조직이 다른 비즈니스 기능도 자동화할 수 있는 인사이트를 생성할 수 있습니다. 예를 들어, 예측 분석을 통해 기업은 트래픽이 급증하기 전에 새로운 서버 인프라를 프로비저닝할 수 있습니다.

클라우드 네이티브 관측 가능성의 과제

클라우드 네이티브 관측 가능성은 이처럼 방대하고 다양한 양의 데이터를 수집하고 합성하기 때문에 확장성 및 복잡성, 여러 관측 가능성 툴의 사용, 데이터 프라이버시 및 규정 준수와 관련하여 문제가 발생할 수 있습니다.

확장 및 복잡성

조직은 복잡한 클라우드 환경 전반에 대한 가시성을 유지하면서 스토리지 비용과 쿼리 성능 및 데이터 보존과 관련된 실질적인 제약 조건을 균형 있게 관리해야 합니다. 적절한 샘플링 전략과 데이터 우선순위 지정 없이는 수집된 데이터의 양이 관측 가능성 플랫폼을 압도할 수 있습니다.

컨테이너화된 마이크로서비스의 광범위하고 빠르게 변화하는 특성은 모니터링이 애플리케이션 수준을 넘어 Kubernetes와 같은 오케스트레이션 도구의 클러스터 및 노드로 확장되어야 한다는 것을 의미할 수도 있습니다.

여러 도구 사용

대부분의 조직은 수년간 누적된 수십 개의 모니터링 툴을 운영하며, 각 툴은 특정 팀 또는 기술을 지원합니다. 기술 스택은 일반적으로 여러 프로그래밍 언어, 레거시 시스템, 멀티클라우드 환경, 마이크로서비스, 인프라 구성 요소 및 프레임워크에 걸쳐 있습니다. 이로 인해 상호 운용성이 어려워지고 데이터 단편화를 초래하여 관측 가능성의 기본 목표인 시스템 상태에 대한 통합된 보기를 구축하는 데 실패하게 됩니다.

개인정보 보호 및 규정 준수

클라우드 네이티브 관측 가능성은 기업 전반의 민감한 데이터를 플랫폼으로 집계하여 규정 준수 문제를 일으킬 수 있습니다. 원격 측정 데이터에는 개인 식별 정보(PII), 결제 카드 세부 정보 또는 보호 대상 건강 정보가 포함될 수 있습니다. 이러한 유형의 데이터는 일반 데이터 보호 규정(GDPR), 건강 보험 양도 및 책임에 관한 법률(HIPAA), 캘리포니아 소비자 개인정보 보호법(CCPA)과 같은 규정의 적용을 받을 수 있습니다.

데이터 마스킹, 토큰화, 지리적 제한 및 역할 기반 액세스 제어가 없으면 조직은 민감한 데이터를 무단 사용자에게 노출하거나 규제 요구 사항을 위반할 위험이 있습니다. 예를 들어, 유럽 고객의 트랜잭션 문제를 해결하려면 개인 식별 정보가 포함된 로그에 액세스해야 할 수 있습니다. 미국에 있는 직원이 해당 데이터를 확인할 경우 GDPR을 위반하게 될 수 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

클라우드 네이티브 관측 가능성 및 AIOps

클라우드 네이티브 관측 가능성 구현은 IT 서비스 관리와 운영 워크플로를 자동화, 간소화, 최적화하기 위해 AI 기능을 적용하는 AIOps로의 전환에 있어 한 축을 담당합니다.

조직이 클라우드의 데이터에 대한 가시성을 높이면 클라우드의 방대하고 광범위하며 예측할 수 없는 환경에서도 프로비저닝 또는 문제 해결에 대한 의사 결정을 자동화할 수 있습니다. 요약하자면, 관측 가능성은 조직이 AI 및 ML 도구의 의사 결정에 더 큰 확신을 갖게 함으로써 AIOps를 가능하게 합니다.

클라우드 네이티브 관측 가능성의 주요 AI 기능은 다음과 같습니다.

알고리즘이 대규모로 데이터를 분석하여 시스템의 기준 성능을 결정하고 편차를 신속하게 식별할 수 있는 이상현상 감지
상관관계를 넘어 오류를 직접 수정하기 위해 취할 수 있는 조치를 식별하는 근본 원인 분석
AI 모델이 미래의 워크로드를 예측하고 그에 따라 네트워크를 확장하거나 축소할 수 있는 예측 분석

클라우드 네이티브 관측 가능성과 풀 스택 관측 가능성 비교

이 둘은 중요한 유사점을 공유하지만, 클라우드 네이티브 관측 가능성은 풀스택 관측 가능성의 관행과는 다릅니다. 클라우드 네이티브 관측 가능성은 풀 스택 관측 가능성의 진화로 볼 수 있으며, 클라우드 네이티브 환경에 동일한 툴과 기술을 적용합니다.

풀스택 관측 가능성은 기술 스택의 모든 계층에서 원격 측정의 상관관계를 분석합니다. 풀 스택 관측 가능성 플랫폼은 여러 시스템에서 실시간으로 데이터를 수집하고 AI 및 ML을 사용하여 이상 징후를 감지하며 장애를 예측하고 관리자를 위한 인사이트를 생성합니다.

클라우드 네이티브 관측 가능성은 이러한 관측 가능성의 진화된 형태로, 풀스택 관측 가능성에 사용되는 데이터 수집 및 분석 툴이 클라우드 네이티브 기술에 맞게 특별히 개발되어 복잡하고 컨테이너화된 마이크로서비스와 원활하게 통합됩니다.

간단히 말해, 풀 스택 관측 가능성은 IT 환경 전반에 걸쳐 종합적인 원격 측정 데이터를 제공하는 반면, 클라우드 네이티브 관측 가능성은 특히 서버리스 클라우드 환경에 중점을 둡니다.

작성자

Derek Robertson

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor