Apache Kafka는 널리 인정받는 오픈 소스 이벤트 스토어 및 스트림 처리 플랫폼입니다. Fortune 500대 기업 중 80% 이상이 Apache Kafka를 사용하면서 사실상 데이터 스트리밍의 표준으로 발전했습니다. 모든 주요 클라우드 제공업체는 이러한 증가하는 수요를 충족하기 위해 관리형 데이터 스트리밍 서비스를 제공합니다.
관리형 Kafka 서비스를 선택하는 주요 이점 중 하나는 브로커 및 운영 지표에 대한 책임을 위임하고, 사용자는 애플리케이션별 지표에만 집중할 수 있다는 점입니다. 이 글에서는 제품 관리자인 Uche Nwankwo가 고객이 최적의 성능을 위해 모니터링해야 하는 생산자 및 소비자 지표에 대한 지침을 제공합니다.
Kafka를 사용하는 모니터링에는 일반적으로 토픽, 파티션, 브로커 및 소비자 그룹과 관련된 다양한 지표가 포함됩니다. 일반적인 Kafka 지표에는 처리량, 지연 시간, 복제, 디스크 사용에 대한 정보가 포함됩니다. 사용 중인 Kafka 버전에서 사용할 수 있는 특정 지표와 이를 효과적으로 해석하는 방법을 이해하려면 Kafka 문서 및 관련 모니터링 툴을 참조하세요.
IBM® Event Streams for IBM Cloud 인스턴스를 모니터링하는 것은 데이터 파이프라인의 최적의 기능과 전반적인 상태를 보장하는 데 매우 중요합니다. Kafka 클라이언트를 모니터링하면 높은 리소스 사용량, 애플리케이션 실패의 초기 징후(예: 지연되는 소비자, 병목 현상)를 식별하는 데 도움이 됩니다. 이러한 경고 신호를 조기에 파악하면 잠재적인 문제에 선제적으로 대응하여 다운타임을 최소화하고 비즈니스 운영 중단을 방지할 수 있습니다.
Kafka 클라이언트(생산자 및 소비자)는 자신의 성과와 상태를 모니터링하기 위한 자체 지표 세트를 가지고 있습니다. 또한 Event Streams 서비스는 서버에서 생성한 다양한 지표 세트를 지원합니다. 자세한 내용은 IBM® Cloud Monitoring을 사용한 Event Streams 지표 모니터링을 참조하세요.
|Record-error-rate
|이 지표는 오류가 발생한 초당 평균 레코드 전송 수를 측정합니다. record-error-rate가 높거나 증가하면 데이터가 손실되었거나 데이터가 예상대로 처리되지 않았음을 의미할 수 있습니다. 이러한 모든 영향은 Kafka에서 처리하고 저장하는 데이터의 무결성을 손상시킬 수 있습니다. 이 지표를 모니터링하면 생산자가 전송하는 데이터가 Kafka 토픽에 정확하고 안정적으로 기록되도록 하는 데 도움이 됩니다.
|Request-latency-avg
|각 생산 요청에 대한 평균 지연 시간(ms)입니다. 지연 시간이 증가하면 성능에 영향을 미치며 문제가 발생할 수 있습니다. 요청 지연 시간 평균 지표를 측정하면 인스턴스 내 병목 현상을 식별하는 데 도움이 될 수 있습니다. 많은 애플리케이션에서 짧은 지연 시간은 고품질 사용자 경험을 보장하는 데 매우 중요하며, 평균 요청 지연 시간이 급증하면 프로비저닝된 인스턴스의 한도에 도달했음을 의미할 수 있습니다. 이 문제는 생산자 설정을 변경하여 해결할 수 있습니다. 예를 들어, 계획을 일괄 처리하거나 확장하여 성능을 최적화할 수 있습니다.
|Byte-rate
|토픽에 대한 초당 전송되는 평균 바이트 수는 처리량을 측정하는 기준입니다. 데이터를 정기적으로 스트리밍하는 경우 처리량이 감소하면 Kafka 인스턴스에 이상이 있을 수 있습니다. Event Streams Enterprise 요금제는 수신과 송신 간에 일대일로 분할된 초당 150MB부터 시작합니다. 따라서 효과적인 용량 계획을 위해서는 이 중 얼마만큼 소비하고 있는지 알고 있어야 합니다. 내부 업데이트 또는 장애 모드(예: 가용성 영역 손실)와 같은 운영 작업의 가능한 영향을 고려하여 최대 처리량의 3분의 2를 초과하지 않아야 합니다.
|Fetch-rate
fetch-size-avg
|초당 가져오기 요청 수(fetch-rate) 와 요청당 가져온 평균 바이트 수(fetch-size-avg) 는 Kafka 소비자의 성과를 나타내는 주요 지표입니다. fetch-rate가 높으면 특히 적은 수의 메시지에서 비효율성을 나타낼 수 있습니다. 이는 매번 충분하지 않은(아마도 전혀 없는) 데이터가 수신되고 있음을 의미하기 때문입니다. fetch-rate 및 fetch-size-avg는 세 가지 설정(fetch.min.bytes, fetch.max.bytes, fetch.max.wait.ms)의 영향을 받습니다. 이러한 설정을 조정하여 원하는 전체 지연 시간을 달성하는 동시에, 가져오기 요청 수 그리고 잠재적으로 브로커 CPU의 부하를 최소화합니다. 지표를 모두 모니터링하고 최적화하면 현재 및 미래의 워크로드에 맞게 데이터를 효율적으로 처리할 수 있습니다.
|Commit-latency-avg
|이 지표는 커밋된 레코드가 전송되고 커밋 응답이 수신되기까지의 평균 시간을 측정합니다. 생산자 지표인 request-latency-avg와 마찬가지로 안정적인 commit-latency-avg는 오프셋 커밋이 적시에 발생한다는 것을 의미합니다. 높은 commit-latency는 소비자 내부에서 오프셋을 신속하게 커밋하지 못하게 하는 문제를 나타낼 수 있으며, 이는 데이터 처리의 신뢰성에 직접적인 영향을 미칩니다. 소비자가 이전에 커밋되지 않은 오프셋에서 메시지를 다시 시작하고 다시 처리해야 하는 경우 메시지가 중복 처리될 수 있습니다. 또한 높은 commit-latency는 실제 메시지 처리보다 관리 작업에 더 많은 시간이 소요된다는 의미이기도 합니다. 이 문제는 특히 대량 처리 환경에서 처리 대기 중인 메시지의 백로그 발생으로 이어질 수 있습니다.
|Bytes-consumed-rate
|초당 소비되는 평균 바이트 수를 측정하는 consumer-fetch 지표입니다. 생산자 지표로서의 byte-rate와 마찬가지로 안정적이고 예상 가능한 지표여야 합니다. bytes-consumed-rate의 예상 추세가 갑자기 바뀌면 애플리케이션에 문제가 있는 것일 수 있습니다. 비율이 낮으면 데이터 가져오기의 효율성이 떨어지거나 리소스가 과도하게 프로비저닝되었다는 신호일 수 있습니다. 비율이 높으면 소비자의 처리 기능을 압도할 수 있으므로 부하를 분산하기 위해 더 많은 소비자를 생성하거나 가져오기 크기와 같은 소비자 구성을 변경하는 등 확장이 필요할 수 있습니다.
|Rebalance-rate-per-hour
|시간당 참여한 그룹 재조정 횟수입니다. 재조정은 새로운 소비자가 있거나 소비자가 그룹을 떠날 때마다 발생하여 처리가 지연될 수 있습니다. 이는 시간당 재조정 횟수가 많은 경우 파티션이 재할당되어 Kafka 소비자의 효율성이 떨어지기 때문에 발생합니다. 높은 시간당 재조정 비율은 잘못된 구성으로 인해 발생할 수 있으며, 이는 불안정한 소비자 행동으로 이어집니다. 이러한 재조정 작업으로 인해 지연 시간이 증가하고 애플리케이션이 충돌할 수 있습니다. 낮고 안정적인 rebalance-rate-per-hour를 추적하여 소비자 그룹이 안정적인 상태인지 확인하세요.
지표는 다양한 애플리케이션 및 사용 사례를 포함해야 합니다. IBM Cloud의 Event Streams는 여기에 문서화된 풍부한 지표 세트를 제공하며 애플리케이션 도메인에 따라 유용한 추가 인사이트를 제공합니다. 이제 다음 단계로 넘어가세요. IBM Event Streams for IBM Cloud에 대해 자세히 알아보세요.
Event Streams는 완전 관리형 Apache Kafka 서비스를 제공하여 내구성, 고가용성, 보안 및 규정 준수를 제공합니다. 그래서 사람은 애플리케이션 구축 등 부가 가치가 높은 작업에 집중할 수 있습니다.
Event Streams 는 3개 영역에 분산되어 있으며 10개의 다중 영역에 배포되어 가용성이 높습니다. 높은 보안과 지리적 복제 기능으로 재해 복구를 지원합니다.
IBM® Event Streams는 오픈소스 Apache Kafka를 기반으로 구축된 이벤트 스트리밍 소프트웨어입니다. IBM Cloud 상의 완전 관리형 서비스 또는 자체 호스팅으로 사용할 수 있습니다.
