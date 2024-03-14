Apache Kafka est un support d’événements open source et une plateforme de traitement de flux largement reconnue. Il est devenu la norme de facto pour la diffusion en continu de données, avec une utilisation dans plus de 80 % des entreprises citées au classement Fortune 500. Tous les grands fournisseurs de cloud proposent des services gérés de diffusion en continu de données pour répondre à cette demande croissante.
Un des principaux avantages des services gérés de Kafka est la délégation de la responsabilité des courtiers et des indicateurs opérationnels, ce qui permet aux utilisateurs de se concentrer uniquement sur les indicateurs spécifiques à l’application. Dans cet article, le chef de produit Uche Nwankwo fournit des conseils sur un ensemble d’indicateurs relatifs aux producteurs et aux consommateurs que les clients devraient surveiller pour une performance optimale.
Avec Kafka, la surveillance implique généralement divers indicateurs liés aux thèmes, aux partitions, aux courtiers et aux groupes de consommateurs. Les indicateurs Kafka standard incluent des informations sur le débit, la latence, la réplication et l’utilisation du disque. Consultez la documentation Kafka et les outils de surveillance associés pour comprendre les indicateurs spécifiques disponibles pour votre version de Kafka et comment les interpréter efficacement.
La surveillance de votre instance IBM® Event Streams for IBM Cloud est cruciale pour garantir des fonctionnalités optimales et la santé globale de votre pipeline de données. La surveillance de vos clients Kafka permet d’identifier les premiers signes de défaillance de l’application, tels qu’une utilisation élevée des ressources, des consommateurs en retard et des goulots d’étranglement. L’identification précoce de ces signes d’alerte permet de réagir de manière proactive aux problèmes potentiels afin de minimiser les temps d’arrêt et d’éviter toute perturbation des opérations.
Les clients Kafka (producteurs et consommateurs) disposent de leurs propres indicateurs pour surveiller leurs performances et leur état de santé. En outre, le service Event Streams prend en charge un ensemble complet d’indicateurs produits par le serveur. Pour plus d’informations, consultez la section Surveillance des indicateurs Event Streams avec IBM Cloud Monitoring.
|Record-error-rate
|Cet indicateur mesure le nombre moyen d’enregistrements envoyés par seconde, ayant entraîné des erreurs. Un taux d’erreurs d’enregistrement élevé (ou en augmentation) peut indiquer une perte de données ou des données qui ne sont pas traitées comme prévu. Tous ces effets peuvent compromettre l’intégrité des données que vous traitez et stockez dans Kafka. Le suivi de cet indicateur permet de s’assurer que les données envoyées par les producteurs sont enregistrées de manière précise et fiable dans vos thèmes Kafka.
|Request-latency-avg
|C’est la latence moyenne pour chaque demande de production en ms. Une augmentation de la latence impacte les performances et peut signaler un problème. La mesure de l’indicateur request-latence-avg peut aider à identifier les goulots d’étranglement au sein de votre instance. Pour de nombreuses applications, une latence faible est cruciale pour garantir une expérience utilisateur de haute qualité, et une augmentation soudaine de la latence moyenne des requêtes peut indiquer que vous atteignez les limites de votre instance provisionnée. Vous pouvez résoudre le problème en modifiant vos paramètres de producteur, par exemple, avec un traitement par lots ou en adaptant votre plan pour optimiser la performance.
|Byte-rate
|Le nombre moyen d’octets envoyés par seconde pour un thème est une mesure de votre débit. Si vous diffusez régulièrement des données, une baisse du débit peut indiquer une anomalie dans votre instance Kafka. Le forfait Event Streams Enterprise commence à partir de 150 Mo par seconde répartis individuellement entre les entrées et les sorties, et il est important de connaître la quantité que vous consommez pour une planification efficace des capacités. Ne dépassez pas les deux tiers du débit maximal, afin de tenir compte de l’impact éventuel d’actions opérationnelles, telles que des mises à jour internes ou des modes de défaillance (par exemple, la perte d’une zone de disponibilité).
|Fetch-rate
fetch-size-avg
|Le nombre de requêtes de récupération par seconde (fetch-rate) et le nombre moyen d’octets récupérés par requête (fetch-size-avg) sont des indicateurs clés de la performance de vos consommateurs Kafka. Un taux de récupération élevé peut être un signe d’inefficacité, surtout pour un petit nombre de messages, car cela signifie qu’aucune donnée n’est reçue à chaque fois. Le taux de récupération et la taille de récupération sont affectés par trois paramètres : fetch.min.bytes, fetch.max.bytes et fetch.max.wait.ms. Réglez ces paramètres pour obtenir la latence globale souhaitée, tout en minimisant le nombre de requêtes de recherche et potentiellement la charge sur l’unité centrale du courtier. La surveillance et l’optimisation de ces deux indicateurs vous garantissent un traitement efficace des données pour les charges de travail actuelles et futures.
|Commit-latence-avg
|Cet indicateur mesure le temps moyen entre l’envoi d’un enregistrement validé et la réception d’une réponse de validation. Tout comme la moyenne de latence des requêtes (request-latency-avg) est un indicateur du producteur, une moyenne de latence des validations (commit-latency-avg) stable signifie que vos validations de décalage se produisent en temps opportun. Une latence élevée lors de la validation peut indiquer des problèmes au niveau du consommateur qui l’empêchent de valider rapidement les décalages, ce qui a un impact direct sur la fiabilité du traitement des données. Cela peut conduire à un double traitement des messages si un consommateur doit redémarrer et retraiter les messages à partir d’un décalage précédemment non engagé. Une latence élevée implique également de consacrer plus de temps aux opérations administratives que de traitement réel des messages. Ce problème peut entraîner des retards de messages en attente de traitement, en particulier dans les environnements à haut volume.
|Bytes-consumed-rate
|Il s’agit d’un indicateur de récupération des consommateurs qui mesure le nombre moyen d’octets consommés par seconde. Comme pour le débit d’octets en tant qu’indicateur de production, cet indicateur dot être stable et conforme aux attentes. Un changement soudain dans la tendance attendue du débit de données consommées peut indiquer un problème avec vos applications. Un faible débit peut être un signe d’efficacité dans la récupération des données ou d’un surprovisionnement en ressources. Un taux plus élevé peut dépasser la capacité de traitement des consommateurs et nécessiter une mise à l’échelle, en créant plus de consommateurs pour équilibrer la charge ou en modifiant les configurations des consommateurs, telles que les tailles de récupération.
|Rebalance-rate-per-hour
|Nombre de rééquilibrages de groupe effectués par heure. Le rééquilibrage se produit chaque fois qu’il y a un nouveau consommateur ou qu’un consommateur quitte le groupe, ce qui entraîne un retard dans le traitement. Cela est dû au fait que les partitions sont réattribuées, ce qui rend les consommateurs de Kafka moins efficaces s’il y a beaucoup de rééquilibres par heure. Un taux de rééquilibrage par heure plus élevé peut être causé par des erreurs de configuration conduisant à un comportement instable des consommateurs. Ce rééquilibrage peut entraîner une augmentation de la latence et un blocage des applications. Assurez la stabilité de vos groupes de consommateurs en surveillant un taux de rééquilibrage horaire faible et stable.
Les indicateurs doivent couvrir une grande variété d’applications et de cas d’utilisation. Les Event Streams sur IBM Cloud fournissent un ensemble complet d’indicateurs qui sont documentés ici et qui fourniront d’autres informations utiles en fonction du domaine de votre application. Passez à l’étape suivante. En savoir plus sur Event Streams pour IBM Cloud.
Vous disposez désormais des connaissances nécessaires sur les clients Kafka essentiels à surveiller. Vous êtes invité à mettre ces points en pratique et à essayer l’offre Kafka entièrement gérée sur IBM Cloud. Si vous rencontrez des difficultés lors de l’installation, consultez le guide de démarrage et les FAQ.
Event Streams offre un service Apache Kafka entièrement géré, garantissant durabilité, haute disponibilité, sécurité et conformité afin que vous puissiez vous consacrer à des tâches à valeur ajoutée telles que la création d’applications.
Exploitez toutes les API et tous les clients Kafka standard sur une instance Event Streams pour une expérience Kafka native.
Event Streams est réparti sur 3 zones et déployé dans 10 régions multi-zones, ce qui le rend hautement disponible. Vous pouvez assurer la reprise après incident grâce à des fonctionnalités de sécurité et de géo-réplication avancées.
Rejoignez ce groupe en ligne afin de communiquer avec d’autres utilisateurs et experts des produits IBM et ainsi partager des conseils et des bonnes pratiques avec vos pairs.
« Event Streams on IBM Cloud est au cœur de tout ce que nous développons. » Viktor Nilsson, directeur de la technologie (CTO), SiB Solutions
IBM® Event Streams est un logiciel de transmission d’événements en continu basé sur la plateforme open source Apache Kafka. Il est disponible en tant que service entièrement géré sur IBM® Cloud ou en auto-hébergement.
Libérez le potentiel de votre entreprise avec les solutions d’intégration IBM qui connectent les applications et les systèmes pour fournir un accès rapide et sécurisé aux données critiques.
Déverrouillez de nouvelles capacités et stimulez l’agilité métier grâce aux services de conseils cloud d’IBM.
IBM® Event Streams est un logiciel de transmission d’événements en continu basé sur la plateforme open source Apache Kafka. Il est disponible en tant que service entièrement géré sur IBM® Cloud ou en auto-hébergement.