Kafkaクライアント・メトリックを試す

Apache Kafkaは、広く認識されているオープンソースのイベント保管およびストリーム処理プラットフォームです。これは、データ・ストリームの事実上の標準へと進化し、フォーチュン500企業の80%以上が使用しています。主要なクラウド・プロバイダーはすべて、この需要の高まりに応えるためにマネージド・データ・ストリーム・サービスを提供しています。

マネージドKafkaサービスを選択する主な利点の1つは、ブローカーと運用メトリックに対する責任を委任することで、ユーザーがアプリケーションに固有のメトリクスのみに集中できることです。この記事では、プロダクト・マネージャーのUche Nwankwo氏が、生産者と消費者の指標に関して顧客が最適な性能を実現するために監視すべき一連のメトリクスに関するガイダンスを提供します。

Kafkaの場合、モニタリングには通常、トピック、パーティション、ブローカー、コンシューマー・グループに関連するメトリクスが含まれます。標準的なKafkaメトリクスには、スループット、レイテンシー、複製、ディスク使用量に関する情報が含まれます。Kafkaのドキュメントおよび関連する監視ツールを参照して、Kafkaのバージョンで利用可能な特定のメトリクスと、それらを効果的に解釈する方法を理解してください。

Kafkaのクライアントを監視することが重要な理由

IBM® Event Streams for IBM Cloudのインスタンスを監視することは、データ・パイプラインの最適な機能と全体的な正常性を確保するために非常に重要です。Kafkaクライアントを監視することで、高いリソース使用率、コンシューマーの遅延、ボトルネックなど、アプリケーションの初期兆候を特定することができます。これらの警告の兆候を早期に特定することで、潜在的な問題に事前に対応し、ダウンタイムを最小限に抑え、オペレーションの中断を防ぐことができます。

Kafkaのクライアント（プロデューサーおよびコンシューマー）には、パフォーマンスと正常性のメトリクスを監視するための独自のセットがあります。さらに、Event Streamsサービスは、サーバーによって生成された豊富なメトリクス・セットをサポートしています。詳細については、IBM Cloud Monitoringを使用したEvent Streamsのメトリクス監視を参照してください。

監視すべきクライアント指標

プロデューサー・メトリクス

 
 
Record-error-rateこのメトリクスは、エラーが発生した毎秒の平均送信レコード数を測定します。高い（または上昇している）recored-error-rateは、データの損失またはデータが期待どおりに処理されていないことを示している可能性があります。これらすべての影響により、Kafkaで処理し、保管しているデータの整合性が損なわれる可能性があります。このメトリックを監視することで、プロデューサーから送信されたデータがKafkaトピックに正確かつ確実に記録されるようになります。
Request-latency-avgこれは、各ビルド・リクエストの平均待ち時間（ミリ秒）です。レイテンシーが大きくなるとパフォーマンスに影響が生じ、問題が生じている可能性があります。レイテンシー平均メトリクスを測定すると、インスタンス内のボトルネックを特定するのに役立ちます。多くのアプリケーションでは、質の高いユーザー・エクスペリエンスを確保するために低遅延が不可欠であり、レイテンシーの急増は、プロビジョニングされたインスタンスの制限に達していることを示している可能性があります。この問題は、プロデューサーの設定を変更することで解決できます（例：プランをバッチ処理またはスケーリングしてパフォーマンスを最適化する）。
Byte-rateトピックの1秒あたりに送信される平均バイト数は、スループットの尺度です。データを定期的にストリーミングする場合、スループットの低下はKafkaインスタンスに異常があることを示している可能性があります。Event StreamsのEnterpriseプランは、受信と送信を1対1で分割した1秒毎150MBから開始されるため、効果的な容量計画のためには、その量を消費していることを知ることが重要です。内部更新や障害モード（アベイラビリティー・ゾーンの喪失など）などの運用アクションの可能性のある影響を考慮するため、最大スループットの3分の2を超えないでください。
 

消費者メトリクス
 

Fetch-rate
fetch-size-avg		1秒あたりのフェッチ・リクエスト数（fetch-rate）と、1リクエストあたりに取得される平均バイト数（fetch-size-avg）は、Kafkaコンシューマーのパフォーマンスを示す重要な指標です。fetch-rateが高いと、特に少数のメッセージの場合は非効率であることが示される可能性があります。これは、毎回不十分な（おそらくまったく）データが受信されていないことを意味します。fetch-rateとfetch-size-avgは、次の3つの設定によって影響されます：fetch.min.bytes、fetch.max.bytesおよびfetch.max.wait.ms.フェッチ・リクエストの数とブローカーのCPUへの負荷の可能性を最小限に抑えながら、望ましい全体的なレイテンシーを実現するためにこれらの設定を調整します。両方のメトリクスを監視および最適化することで、現在と将来のワークロードのデータを効率的に処理できるようになります。
Commit-latency-avgこのメトリクスは、コミットされたレコードが送信されてから、コミットされた応答を受信するまでの平均時間を測定します。プロデューサー・メトリクスとしてのRequest-latency-avgと同様、安定したcommit-latency-avgは、オフセット・コミットがタイムリーに行われることを意味します。コミットのレイテンシーが高い場合、コンシューマー内に問題があり、迅速なオフセットのコミットができないことを示している可能性があります。これはデータ処理に直接影響します。コンシューマーが以前はコミットされていなかったオフセットからメッセージを再起動して再処理する必要がある場合、メッセージの重複処理につながる可能性があります。コミットのレイテンシーが大きいということは、実際のメッセージ処理よりもオペレーションに多くの時間を費やすことも意味します。この問題は、特に処理量が膨大な環境では、処理されるのを待つメッセージのバックログにつながる可能性があります。
Bytes-consumed-rateこれは、1秒あたりに消費される平均バイト数を測定するコンシューマーフェッチ・メトリクスです。プロデューサー・メトリクスとしてのバイト・レートと同様に、これは安定し、予測されたメトリクスである必要があります。消費バイト率の予想される傾向の突然の変化は、アプリケーションの問題を示している可能性があります。レートが低いことは、データ取得または過剰にプロビジョニングされたリソースの効率を示している可能性があります。レートが高いとコンシューマーの機能を圧倒する可能性があるため、スケーリングや、負荷を分散するためにコンシューマーを増やすか、フェッチサイズなどのコンシューマー構成を変更する必要があります。
Rebalance-rate-per-hour1時間あたりに行われたグループ・リバランスの回数。リバランシングは、新しい消費者が発生するたびに、または消費者がグループから離れるたびに行われ、処理に遅れが生じます。これは、パーティションが再割り当てされるため、1時間あたりに多くのリバランスが発生した場合、Kafkaコンシューマーの効率が低下してしまいます。1時間あたりのリバランス率が高くなるのは、設定ミスが原因で消費者の行動が不安定になる場合です。このリバランス作業により、レイテンシーが大きくなり、アプリケーションがクラッシュする可能性があります。1時間あたりの低安定のリバランス率を追跡することで、消費者グループの安定性を確保します。

メトリクスはさまざまなアプリケーションとユースケースをカバーする必要があります。Event Streams on IBM Cloudは、ここに文書化されている豊富なメトリック・セットを提供し、アプリケーションのドメインに応じてさらに役立つ洞察を提供します。次のステップを踏み出しましょう。Event Streams for IBM Cloudの詳細はこちら。

