Kubernetes 관측 가능성

Kubernetes(K8) 컨테이너 및 환경은 컨테이너화된 애플리케이션을 대규모로 패키징, 배포 및 관리하기 위한 선도적인 접근 방식입니다. Kubernetes의 오픈 소스, 마이크로서비스 기반의 동적인 구성은 인프라 민첩성을 극대화하려는 비즈니스에 매우 적합할 수 있습니다. 그러나 Kubernetes의 가장 중요한 매력 포인트인 분산된 유연성 때문에 Kubernetes 모니터링 및 관측 가능성 방식을 구현하는 것이 어려울 수도 있습니다.

관측 가능성은 팀에서 시스템 아웃풋을 검사하여 시스템 내부 상태에 대한 실행 가능 인사이트를 얻는 데 도움이 되는 다양한 프로세스와 메트릭으로 구성됩니다. 이는 모든 IT 인프라를 유지 관리하는 데 필수적인 부분입니다. 그러나 Kubernetes 환경을 구성하는 엄청난 양의 데이터, 노드, 파드, 서비스 및 엔드포인트를 관리하려면 작업에 적합한 관측 가능성 관행이 필요합니다.

이 블로그에서는 Kubernetes 관측 가능성이 어떻게 작동하는지, 그리고 조직에서 이를 사용하여 클라우드 네이티브 IT 아키텍처를 최적화하는 방법에 대해 설명합니다.

관측 가능성은 어떻게 작동하나요?

광범위하게 말하자면, 관측 가능성은 외부 출력에서 내부 시스템 상태를 얼마나 잘 추론할 수 있는지를 설명합니다. 시스템이 특정 방식으로 작동하는 이유를 진단하고 이해하는 능력으로, 문제를 해결하고 성능 문제를 파악하며 시스템 설계를 개선하는 데 매우 중요합니다.

DevOps에서 관측 가능성의 개념은 원격 측정 데이터에 의해 지시되는 시스템 상태의 엔드투엔드 가시성을 의미하는 것으로 발전했습니다. 관측 가능성의 3가지 핵심 요소로 알려진 기본 데이터 클래스는 로그, 메트릭, 추적입니다.

로그

로그에는 상태 또는 오류 메시지 또는 트랜잭션 세부 정보와 같이 시스템에서 무언가가 발생할 때마다 기록되는 개별 이벤트가 포함됩니다. Kubernetes 로그는 정형 텍스트와 비정형 텍스트 모두로 작성할 수 있습니다.

메트릭

CPU 사용량, 메모리 소비, 네트워크 I/O, 요청 지연 시간 또는 기타 비즈니스 관련 지표. Kubernetes 메트릭은 종종 팀이 추세를 파악하고 패턴을 식별하는 데 도움이 되는 시계열 관측 가능성 데이터를 생성합니다.

트레이스

추적은 팀이 분산 시스템의 다양한 서비스 및 구성 요소를 통해 요청 또는 트랜잭션을 추적하는 데 도움이 됩니다. 또한 팀이 인프라의 서로 다른 구성 요소 간의 종속성을 시각화하여 지연과 오류를 신속하게 찾을 수 있도록 지원합니다.

성공적인 관측 가능성을 달성하려면 적절한 Kubernetes 모니터링 툴을 배포하고 세 가지 주요 아웃풋을 수집, 저장 및 분석하기 위한 효과적인 프로세스를 구현해야 합니다. 여기에는 모니터링 시스템, 애플리케이션 로그 집계자, 애플리케이션 성능 관리(APM) 도구 또는 기타 관측 가능성 플랫폼의 설정 및 유지 관리가 포함될 수 있습니다.

그러나 Kubernetes 환경에서도 표준 메트릭을 철저히 검토할 필요가 있습니다. Kubernetes 시스템은 상호 연결된 컨테이너, 마이크로서비스 및 기타 구성 요소로 이루어진 방대한 환경으로 구성되어 있으며, 이들 모두 대량의 데이터를 생성합니다. Kubernetes는 다음을 포함하여 애플리케이션 라이프사이클 전반에 걸쳐 컨테이너 관련 작업을 예약하고 자동화합니다.

배포

Kubernetes는 특정 호스트에 특정 수의 컨테이너를 배포하고 원하는 상태로 계속 실행할 수 있습니다.

롤아웃

롤아웃은 Kubernetes 배포 수정입니다. 팀은 Kubernetes를 사용하여 롤아웃을 시작, 일시 중지, 재개 및 롤백할 수 있습니다.

서비스 검색

Kubernetes는 DNS 이름 또는 IP 주소를 사용하여 컨테이너를 인터넷이나 다른 컨테이너에 자동으로 노출할 수 있습니다.

자동 확장

트래픽이 급증하면 Kubernetes가 자동으로 새로운 클러스터를 구동하여 추가 워크로드를 처리할 수 있습니다.

스토리지 프로비저닝

팀은 컨테이너에 대한 영구 로컬 또는 클라우드 스토리지를 탑재하도록 Kubernetes를 설정할 수 있습니다.

로드 밸런싱

Kubernetes 로드 밸런싱 기능은 CPU 사용률 또는 사용자 지정 메트릭을 기반으로 네트워크 전체에 워크로드를 분산하여 성능과 안정성을 유지할 수 있습니다.

고가용성을 위한 자가 치료

Kubernetes는 장애가 발생한 컨테이너를 자동으로 디버깅하거나 재시작 또는 교체하여 가동 중단 시간을 방지할 수 있습니다. 또한 상황 점검 요구 사항을 충족하지 않는 컨테이너를 폐기할 수도 있습니다.

구성 요소의 이동, 상호 작용 및 계층화가 너무 많아서 많은 잠재적 문제와 장애 지점이 발생하므로 실시간 모니터링이 필요한 영역이 많습니다. 또한 로그, 메트릭 및 추적을 모니터링하는 기존의 접근 방식으로는 Kubernetes 환경에서 충분한 관측 가능성을 확보하지 못할 수 있다는 뜻이기도 합니다.

Kubernetes 관측 가능성 원칙

Kubernetes 아키텍처의 모든 구성 요소는 다른 구성 요소에 상호 의존적이므로 관측 가능성을 위해서는 보다 전체적인 접근 방식이 필요합니다.

조직이 로그, 추적, 메트릭에서 클러스터 수준 데이터를 수집하고 분석하는 것을 넘어, 데이터 포인트를 연결하여 Kubernetes 클러스터 내의 관계와 이벤트를 더 잘 이해할 수 있도록 하는 것이 Kubernetes 관측 가능성의 핵심입니다. 즉, 조직은 맞춤형 클라우드 네이티브 관측 가능성 전략을 활용하고, 시스템 내에서 사용 가능한 모든 데이터 소스를 면밀히 조사해야 합니다.

K8 환경의 관측 가능성에는 다음이 포함됩니다.

1. 메트릭, 로그, 앱 그 이상 가상 머신(VM) 모니터링과 마찬가지로 Kubernetes 관측 가능성은 모든 로그 데이터(컨테이너, 마스터 및 작업자 노드, 기본 인프라)와 앱 수준 메트릭을 고려해야 합니다. 그러나 VM과 달리 Kubernetes는 앱과 클러스터를 넘어서는 컨테이너 상호 작용을 오케스트레이션합니다 . 따라서 Kubernetes 환경은 엄청난 양의 중요한 데이터를 네트워크 클러스터와 앱의 외부와 내부에 저장합니다. 여기에는 K8 클러스터에 공급하는 CI/CD 파이프라인 및 K8 클러스터를 구동하는 GitOps 워크플로우 데이터가 포함됩니다.

또한 Kubernetes는 기존 앱 및 VM과 같은 방식으로 메트릭, 로그 및 추적 데이터를 노출하지 않습니다. Kubernetes는 데이터 '스냅샷' 또는 라이프사이클의 특정 지점에서 캡처된 정보를 캡처하는 경향이 있습니다. 모든 클러스터 내의 각 구성 요소가 서로 다른 형식으로 서로 다른 유형의 데이터를 서로 다른 속도로 기록하는 시스템에서는 단순히 개별 데이터 포인트를 분석하는 것만으로는 관측 가능성을 확인하기가 어렵거나 아예 불가능할 수 있습니다.

또한 Kubernetes는 앱 또는 클러스터 수준에서 마스터 로그 파일을 생성하지 않습니다. 모든 앱과 클러스터는 각각의 환경에서 데이터를 기록하므로, 사용자가 데이터를 한 곳에서 모두 보려면 수동으로 데이터를 집계하고 내보내야 합니다. 또한 컨테이너는 몇 초 안에 스핀업, 스핀다운되거나 또는 완전히 사라질 수 있기 때문에 수동으로 집계된 데이터라도 적절한 컨텍스트가 없어 완전한 그림을 제공하지 못할 수 있습니다.

2. 컨텍스트 및 데이터 상관관계 우선. 모니터링과 관측 가능성은 모두 효율적인 Kubernetes 인프라를 유지하는 데 있어 중요한 부분입니다. 이 둘의 다른 점은 목표에 있습니다. 모니터링은 시스템에서 무슨 일이 일어나는지를 명확히 하는 데 도움이 되지만, 관측 가능성은 시스템이 왜 지금처럼 작동하는지 분명히 하는 것을 목표로 합니다. 따라서 효과적인 Kubernetes 관측 가능성은 성능 병목 현상과 기능 문제의 근본 원인을 파악하기 위해 데이터 포인트 사이의 점을 연결하는 데 우선순위를 둡니다.

Kubernetes 클러스터 동작을 이해하려면 다른 모든 클러스터 이벤트의 컨텍스트 내에서 클러스터의 각 개별 이벤트, 클러스터의 일반적인 동작, 해당 이벤트로 이어진 모든 이벤트를 이해해야 합니다.

예를 들어, 파드가 한 작업자 노드에서 시작되고 다른 작업자 노드에서 종료되는 경우 다른 Kubernetes 노드에서 동시에 발생하는 모든 이벤트와 다른 Kubernetes 서비스, API 서버 및 네임스페이스에서 발생하는 모든 이벤트를 이해해야 변경 사항, 근본 원인 및 잠재적 결과를 명확하게 이해할 수 있습니다.

즉, Kubernetes 환경에서는 단순히 작업을 모니터링하는 것만으로는 부적절한 경우가 많습니다. Kubernetes 관측 가능성을 달성하고 관련 시스템 인사이트를 얻거나 정확한 근본 원인 분석을 수행하려면 IT 팀이 네트워크 전반에서 데이터를 집계하고 컨텍스트화할 수 있어야 합니다.

3. Kubernetes 관측 가능성 도구 사용. Kubernetes 관측 가능성을 구현하고 유지하는 것은 크고 복잡한 작업입니다. 그러나 올바른 프레임워크와 도구를 사용하면 프로세스를 단순화하고 전반적인 데이터 시각화와 투명성을 개선할 수 있습니다.

기업은 메트릭 집계 및 분석을 자동화하는 프로그램(예: Prometheus 및 Grafana), 로깅을 자동화하는 프로그램(예: ELK, Fluentd 및 Elasticsearch), 추적 가시성을 용이하게 해주는 프로그램(예: 예거) 등 다양한 관측 가능성 솔루션 중에서 선택할 수 있습니다. OpenTelemetry와 같은 통합 솔루션은 세 가지 주요 관측 가능성 사례를 모두 관리할 수 있습니다. 또한 Google 클라우드 오퍼레이션, AWS X-Ray, Azure Monitor, IBM Instana Observability와 같은 맞춤형 클라우드 네이티브 솔루션은 인프라에서 실행되는 클러스터에 최적화된 관측 가능성 도구와 Kubernetes 대시보드를 제공합니다.

Kubernetes 관측 가능성 최적화를 위한 모범 사례

• KPI를 정의하세요. 앱 성능, 시스템 상황 및 리소스 사용량과 같은 주요 성능 지표 중 인프라의 동작에 대해 가장 유용한 인사이트를 제공하는 지표를 파악합니다. 필요에 따라 수정합니다.
• 로깅을 중앙 집중화하세요. K8 환경은 방대한 양의 데이터를 생성합니다. 중앙 집중식 로깅 솔루션을 사용하여 데이터를 집계하고 저장하는 것은 데이터 관리의 필수 요소입니다.
• 리소스 사용량을 모니터링하세요. 메모리, CPU 및 네트워크 사용량에 대한 실시간 데이터를 수집하여 필요할 때 리소스를 사전에 확장할 수 있습니다.
• 알림 및 경고를 설정하세요. 설정된 KPI 임계값을 사용하여 알림 및 경고를 구성합니다. 이렇게 하면 문제가 발생했을 때 팀이 제때 알림을 받을 수 있습니다.

IBM Instana Observability로 Kubernetes 관측 가능성 구축

Kubernetes는 업계 표준 컨테이너 오케스트레이션 플랫폼으로, 컨테이너화된 워크로드를 매우 효율적으로 관리합니다. 그러나 Kubernetes의 분산형 다계층 마이크로서비스 아키텍처에는 강력한 관측 가능성 메커니즘과 IBM Instana Observability와 같은 고급 솔루션이 필요합니다.

Instana Observability는 모든 Kubernetes 배치에 대해 노드와 파드에서 컨테이너와 애플리케이션에 이르기까지 전체 Kubernetes 애플리케이션 스택을 모니터링하도록 설계된 자동화된 Kubernetes 관측 가능성 및 APM 기능을 제공합니다.

Kubernetes에서의 관측 가능성은 단순한 기술적 구현이 아니라, 세심한 계획과 데이터 투명성을 중시하는 조직 문화가 필요한 전략적 접근 방식입니다.

Instana Observability는 팀이 Kubernetes 환경을 종합적으로 이해하고, 점점 더 클라우드 기반이 되는 세상에서 강력한 고성능 애플리케이션을 제공할 수 있도록 지원합니다.

작가

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

Kubernetes 관측 가능성을 달성하는 방법: 원칙 및 모범 사례