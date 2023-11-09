Apache Kafkaは、高性能でスケーラブルなイベント・ストリーミング・プラットフォームです。Kafkaの可能性を最大限に解き放つには、アプリケーションの設計を慎重に検討する必要があります。性能が低かったり、最終的に拡張性の壁にぶつかったりするKafkaアプリケーションは、あまりにも簡単に作成できます。2015年以来、IBMは、IBM® Cloud上で実行されるフルマネージドApache KafkaサービスであるIBM® Event Streamsサービスを提供しています。それ以来、このサービスは、多くの顧客とIBM社内のチームが、彼らが作成したKafkaアプリケーションの拡張性と性能の問題を解決するのに役立っています。
この記事では、Kafkaの一般的な問題のいくつかについて説明し、アプリケーションで拡張性の問題の発生を回避する方法に関する推奨事項をいくつか提供します。
特定のKafkaオペレーションは、クライアントがブローカーにデータを送信し、応答を待つことで機能します。ラウンドトリップには10ミリ秒かかる場合があり、高速のように聞こえますが、毎秒最大100回の操作に制限されています。このため、この種のオペレーションは可能な限り回避することをお勧めします。幸い、Kafkaクライアントには、このような往復時間の待ち時間を回避する方法が用意されています。それらを確実に活用するだけでよいのです。
スループットを最大化するためのヒント：
上記を読んで、「ああ、そのことによってアプリケーションがもっと複雑になるのではないか？」と考えた方は、答えはイエスであり、おそらくそのような状況になるでしょう。スループットとアプリケーションの複雑さの間にはトレードオフがあります。ネットワークのラウンドトリップ時間で特に深刻な落とし穴となるのは、この制限に達すると、さらなるスループットの向上を実現するために大規模なアプリケーションの変更が必要になる可能性があることです。
Kafkaの主要な機能の1つは、消費するアプリケーションの「ライブネス」を監視し、失敗した可能性のあるアプリケーションを切断することです。これは、ブローカーが各コンシューミング・クライアントが最後に「ポーリング」（より多くのメッセージを求めることを意味するKafkaの用語）と呼んだ時期を追跡することで機能します。クライアントが十分な頻度でポーリングしない場合、そのクライアントが接続されているブローカーは、クライアントが失敗したに違いないと判断し、クライアントを切断します。これは、問題を経験していないクライアントが介入し、失敗したクライアントから作業を再開できるように設計されています。
ただし残念ながら、Kafkaブローカーは、受信したメッセージの処理に長い時間かかっているクライアントと、実際に失敗したクライアントを区別することができません。次のことをループするコンシューミング・アプリケーションを考えてみましょう。1）ポーリングを呼び出し、一連のメッセージを返します。または2）バッチ内の各メッセージを処理し、各メッセージの処理に1秒かかります。
この利用者が10件のメッセージのバッチを受信している場合、ポーリングの呼び出し間隔は約10秒になります。デフォルトでは、Kafkaはクライアントを切断するまでにポーリング間に最大300秒（5分）を許可するため、このシナリオではすべてが問題なく機能します。しかし、アプリケーションが使用しているトピックに関してメッセージのバックログが蓄積し始め、非常に忙しい日にはどうなるでしょうか。各ポーリング呼び出しから10件のメッセージを返すのではなく、アプリケーションは500個のメッセージを取得します（デフォルトでは、これがポーリングの呼び出しによって返されるレコードの最大数です）。これで、Kafkaがアプリケーション・インスタンスが失敗したと判断し、切断するのに十分な処理時間がかかります。これは悪いニュースです。
それがさらに悪化する可能性があることを知ってうれしく思います。一種のフィードバック・ループが発生する可能性があります。十分な頻度でポーリングを実行しないことからKafkaがクライアントの切断を開始すると、メッセージを処理するアプリケーションのインスタンスが減少します。トピックについての大量のメッセージが未処理のまま存在する可能性が高まり、より多くのクライアントが大規模なメッセージを取得し、その処理に時間がかかりすぎる可能性が高まります。最終的には、消費側アプリケーションのすべてのインスタンスが再起動ループに含まれ、有用な作業は行われません。
こうした事態を回避するためにできることとは。
この記事の後半では、利用者障害のトピックに戻り、利用者グループのリバランシングを引き起こす方法と、これがもたらす破壊的な影響について説明します。
内部では、Kafka利用者がメッセージを受信するために使用するプロトコルは、Kafkaブローカーに「取得」リクエストを送信することで機能します。このリクエストの一環として、クライアントは、ブローカーが空の応答を送信するまでの時間など、差し迫ったメッセージがない場合にブローカーがすべきことを示します。デフォルトでは、Kafkaの利用者はブローカーに最大500ミリ秒（「fetch.max.wait.ms」によって制御）、少なくとも1バイトのメッセージ・データが使用可能になるようにする（「fetch.min.bytes」で制御する構成）です。
500ミリ秒を待つのは不合理なことではありませんが、アプリケーションにほとんどアイドル状態の利用者があり、インスタンスが5,000件まで拡張された場合、1秒あたり2,500件のリクエストがあり、まったく何も行わないことになります。これらのリクエストはそれぞれ、ブローカーの処理にCPU時間を要し、極端な場合には、有益な作業を実行したいKafkaクライアントの性能と安定性に影響を与える可能性があります。
通常、Kafkaのスケーリング・アプローチは、ブローカーをさらに追加し、新旧の両方のすべてのブローカーにわたってトピック・パーティションのバランスを均等に再調整することです。残念ながら、クライアントがKafkaに不必要なフェッチ・リクエストを大量に送信している場合、このアプローチは役に立たない可能性があります。各クライアントは、クライアントがメッセージを利用しているトピック・パーティションをリードするすべてのブローカーにフェッチ・リクエストを送信します。そのため、Kafkaクラスターを拡張し、パーティションを再分散した後でも、クライアントのほとんどがブローカーのほとんどに取得リクエストを送信する可能性があります。
そこで、できることは何でしょうか。
他のパブリッシュ・サブスクライブ・システム（Message Queuing Telemetry Transport、略してMQTT）を使用している背景からKafkaにアクセスする場合、Kafkaトピックは非常に軽量で、ほとんど一時的なものであると予想されるかもしれません。そうではありません。Kafkaは、数千ものトピックにはるかに満足しています。Kafkaのトピックも比較的長く続くと予想されています。単一の返信メッセージを受信するようにトピックを作成し、そのトピックを削除するなどの慣行は、Kafkaでは一般的ではなく、Kafkaの強みを発揮しません。
代わりに、長く続くトピックを計画します。おそらく、アプリケーションやアクティビティーのライフサイクルを共有します。また、トピックの数を数百、場合によっては数千に制限することも目指します。これには、特定のトピックにどのようなメッセージが織り込まれているかについて、異なる視点が必要になる場合があります。
これに関連して、「トピックのパーティション数はいくつ必要か。」という質問がよく寄せられます。従来、トピックの作成後にパーティションを追加しても、そのトピックに保持されている既存のデータのパーティショニングは変更されないため（したがって、パーティション内でメッセージの順序を提供するためにパーティショニングに依存している利用者に影響を与える可能性があるため）、過大評価することがアドバイスです。これは良いアドバイスです。ただし、追加でいくつかの考慮事項を提案します。
メッセージを消費するほとんどのKafkaアプリケーションは、Kafkaの利用者・グループ機能を利用して、どのクライアントがどのトピック・パーティションから消費するかを調整します。利用者グループの想起が少し混乱している場合に、重要なポイントについて簡単にご確認ください。
Kafkaが成熟するにつれて、ますます洗練されたリバランシング・アルゴリズムが考案されています（そして今後も考案され続けます）。Kafkaの初期バージョンでは、利用者グループがバランスを再調整すると、グループ内のすべてのクライアントが消費を停止する必要があり、トピックのパーティションはグループの新しいメンバー間で再配布され、すべてのクライアントが再び消費を開始していました。このアプローチには2つの欠点があります（これらは以前から改善されているため、ご心配いりません）。
最近のリバランス・アルゴリズムは、Kafkaの用語で言えば「定着性」と「連携」を追加することで大幅な改善を加えています。
最近のリバランシング・アルゴリズムのこのような機能強化にもかかわらず、アプリケーションが利用者グループのリバランスの対象となることが頻繁にある場合、全体的なメッセージング・スループットに影響が生じ、クライアントがバッファリングされたメッセージ・データを破棄して再取得するため、ネットワーク帯域幅が無駄になります。実行可能なことについていくつかの提案があります。
