Apache Kafka est une plateforme de streaming d'événements hautement performante et évolutive. Pour profiter de tout le potentiel de Kafka, vous devez bien réfléchir au design de votre application. Il est extrêmement facile de développer des applications Kafka qui fonctionnent mal ou qui finissent par se heurter à un obstacle en matière d'évolutivité. Depuis 2015, IBM propose le service IBM Event Streams, un service Apache Kafka entièrement géré qui fonctionne sur IBM Cloud. Depuis lors, ce service a aidé de nombreux clients, ainsi que des équipes au sein d'IBM, à résoudre des problèmes d'évolutivité et de performances avec les applications Kafka qu'ils ont développées.
Cet article décrit certains des problèmes courants d'Apache Kafka et fournit quelques recommandations pour éviter de rencontrer des problèmes d'évolutivité avec vos applications.
Certaines opérations Kafka fonctionnent lorsque le client envoie des données au courtier et attend une réponse. Un aller-retour complet peut prendre 10 millisecondes, ce qui semble rapide, mais vous limite à un maximum de 100 opérations par seconde. C'est pourquoi il est recommandé d'éviter ce type d'opérations dans la mesure du possible. Heureusement, les clients Kafka vous permettent de limiter ce problème. Vous devez juste vous assurer d’en profiter.
Conseils pour maximiser le débit :
Si vous avez lu ce qui précède et que vous vous êtes dit : « Oh oh, cela ne va-t-il pas rendre mon application plus complexe ? », la réponse est oui, c'est probable. Il faut trouver un compromis entre le débit et la complexité des applications. Ce qui rend le temps aller-retour réseau particulièrement délicat, c'est qu'une fois cette limite atteinte, il peut être nécessaire d'apporter des modifications importantes à l'application pour améliorer encore le débit.
Une fonctionnalité utile de Kafka est qu'il surveille la « vitalité » des applications consommatrices et déconnecte celles qui pourraient avoir échoué. Pour ce faire, le courtier surveille la dernière fois que chaque client consommateur a appelé « poll » (terme utilisé par Kafka pour demander plus de messages). Si un client n'effectue pas de sondage assez fréquemment, le courtier auquel il est connecté en conclut qu'il a dû échouer et le déconnecte. Ce système est conçu pour permettre aux clients qui ne rencontrent pas de problèmes d'intervenir et de reprendre le travail du client défaillant.
Malheureusement, avec ce système, le courtier Kafka ne peut pas faire la distinction entre un client qui met longtemps à traiter les messages reçus et un client qui a réellement échoué. Considérons une application consommatrice qui effectue une boucle : 1) elle appelle poll et récupère un lot de messages ; ou 2) elle traite chaque message du lot, ce qui prend 1 seconde par message.
Si ce consommateur reçoit des lots de 10 messages, il s’écoulera environ 10 secondes entre les appels à « poll ». Par défaut, Kafka accorde jusqu'à 300 secondes (5 minutes) entre les appels avant de déconnecter le client. Donc tout devrait fonctionner correctement dans ce scénario. Cependant, que se passe-t-il lors d'une journée très chargée, lorsque des messages commencent à s'accumuler sur la page que l'application utilise ? Au lieu de simplement recevoir 10 messages à chaque appel, votre application reçoit 500 messages (par défaut, c'est le nombre maximum d'enregistrements pouvant être renvoyés par un appel). Cela se traduirait par un temps de traitement suffisant pour que Kafka détermine que l'instance de l'application a échoué et la déconnecte. Ceci est regrettable.
Et vous serez ravi d'apprendre que cela peut encore empirer. Il est possible qu'une sorte de boucle de rétroaction se produise. Lorsque Kafka commence à déconnecter les clients parce qu'ils n'appellent pas « poll » assez fréquemment, il y a moins d'instances de l'application pour traiter les messages. La probabilité d'un important retard dans le traitement des messages sur ce sujet augmente, ce qui accroît le risque que davantage de clients reçoivent de grands volumes de messages et prennent trop de temps pour les traiter. Finalement, toutes les instances de l'application consommatrice entrent dans une boucle de relance et aucun travail constructif n'est effectué.
Quelles mesures pouvez-vous prendre pour éviter que cela ne vous arrive ?
Nous reviendrons sur le sujet des problèmes liés à la consommation plus loin dans cet article, lorsque nous examinerons comment ils peuvent entraîner un rééquilibrage des groupes de consommateurs et les conséquences négatives que cela peut avoir.
Sous le capot, le protocole utilisé par le consommateur Kafka pour recevoir les messages fonctionne en envoyant une requête « fetch » à un courtier Kafka. Dans le cadre de cette demande, le client indique ce que le courtier doit faire s'il n'y a pas de messages à renvoyer, y compris le délai d'attente avant d'envoyer une réponse vide. Par défaut, les consommateurs Kafka demandent aux courtiers d'attendre jusqu'à 500 millisecondes (contrôlé par la configuration du consommateur « fetch.max.wait.ms ») pour qu'au moins 1 octet de données de message soit disponible (contrôlé par la configuration « fetch.min.bytes ») .
Attendre 500 millisecondes ne semble pas déraisonnable, mais si votre application compte des utilisateurs qui sont principalement inactifs et s'étend à, disons, 5 000 instances, cela représente potentiellement 2 500 requêtes par seconde qui ne servent absolument à rien. Chacune de ces requêtes nécessite du temps de CPU pour être traitée par le courtier et, dans les cas extrêmes, peut avoir un impact sur les performances et la stabilité des clients Kafka qui souhaitent effectuer un travail utile.
En règle générale, l'approche de Kafka en matière de mise à l'échelle consiste à ajouter des courtiers supplémentaires, puis à rééquilibrer uniformément les partitions de sujets entre tous les courtiers, anciens et nouveaux. Malheureusement, cette approche risque de ne pas fonctionner si vos clients bombardent Kafka de requêtes « fetch » inutiles. Chaque client enverra ces demandes à chaque courtier gérant une partition de sujet dont le client consomme les messages. Il est donc possible que, même après avoir mis à l'échelle le cluster Kafka et redistribué les partitions, la plupart de vos clients continuent d'envoyer des requêtes fetch à la majorité des courtiers.
Que pouvez-vous faire ?
Si vous découvrez Kafka après avoir utilisé d'autres systèmes de publication-abonnement (par exemple Message Queuing Telemetry Transport, ou MQTT), vous pourriez vous attendre à ce que les sujets Kafka soient très légers, voire éphémères. Ce n'est pas le cas. Kafka est beaucoup plus enclin à gérer des milliers de sujets. On attend également des sujets Kafka qu'ils aient une durée de vie relativement longue. Les pratiques telles que la création d'un sujet pour recevoir un seul message de réponse, puis la suppression du sujet, sont peu courantes avec Kafka et ne tirent pas parti de ses forces.
Au lieu de cela, planifiez des sujets qui s'inscrivent dans la durée. Ils peuvent par exemple correspondre à la durée de vie d'une application ou d'une activité. Essayez également de limiter le nombre de sujets à des centaines, voire à des milliers. Cela pourrait nécessiter d'adopter une perspective différente sur les messages associés à un sujet particulier.
Une question connexe qui revient souvent est : « Combien de partitions mon sujet devrait-il comporter ? » Traditionnellement, il est conseillé de surestimer, car l'ajout de partitions après la création d'un sujet ne modifie pas le partitionnement des données existantes contenues dans le sujet (et peut donc affecter les consommateurs qui s'appuient sur le partitionnement pour ordonner les messages au sein d'une partition). C’est un bon conseil ; toutefois, nous aimerions suggérer quelques considérations supplémentaires :
La plupart des applications Kafka qui traitent des messages utilisent les fonctionnalités de groupe de consommateurs de Kafka pour coordonner quels clients traitent quelles partitions de sujet. Si vos souvenirs des groupes de consommateurs sont un peu flous, voici un bref rappel des points clés :
Au fur et à mesure que Kafka a évolué, des algorithmes de rééquilibrage de plus en plus sophistiqués ont été (et continuent d'être) développés. Dans les premières versions de Kafka, lorsqu'un groupe de consommateurs se rééquilibrait, tous les clients du groupe devaient cesser de consommer, les partitions de sujets étaient redistribuées entre les nouveaux membres du groupe et tous les clients recommençaient à consommer. Cette approche présente deux inconvénients (ne vous inquiétez pas, ils ont été améliorés depuis) :
Les algorithmes de rééquilibrage plus récents ont apporté des améliorations significatives en ajoutant, pour reprendre la terminologie de Kafka, de la « cohérence » (stickiness) et de la « coopération » (cooperation) :
Malgré ces améliorations apportées aux algorithmes de rééquilibrage plus récents, si vos applications sont fréquemment soumises à des rééquilibrages de groupes de consommateurs, vous constaterez toujours un impact sur le débit global des messages et gaspillerez de la bande passante réseau, car les clients suppriment et récupèrent à nouveau les données de messages mises en mémoire tampon. Voici quelques suggestions sur ce que vous pouvez faire :
