Quand est-ce que 10 secondes deviendraient importantes ? En ce qui concerne les performances des applications.
Pour les applications cloud natives de microservices, 10 secondes représentent un délai considérable.
Les incidents pouvant survenir sur vos applications en 10 secondes sont innombrables et la plupart ne sont pas souhaitables.
Mais avant d'entrer dans les détails de ce qui pourrait arriver à vos applications, examinons quelques événements réels qui montrent ce qui peut se passer en 10 secondes :
Nous aimons particulièrement l'exemple d'Usain Bolt, car cette distance est longue à parcourir en moins de 10 secondes.
Pour les performances et la disponibilité des applications cloud natives, 10 secondes représentent une éternité. Les transactions circulent rapidement sur Internet, assurant le bon fonctionnement du commerce.
Que peut-il se passer en 10 secondes en cas de problème ? En effet, des milliers de transactions peuvent subir des retards ou des défaillances et ne pas aboutir.
Avec ce type de problème, les revenus peuvent chuter en raison des ventes perdues. Les clients abandonneront leurs paniers d'achat et votre site et trouveront un autre endroit où acheter ce qu'ils veulent. Et votre image de marque pourrait en pâtir.
Pourquoi serait-il alors acceptable que les outils d'observabilité capturent les métriques lentement ou, pire encore, échantillonnent et agrègent les indicateurs et les traces ? Comment une telle plateforme peut-elle être considérée comme équivalente à une plateforme d'observabilité, telle que la plateforme IBM Instana qui recueille et contextualise les informations à la vitesse des microservices modernes. Elles permettent aux problèmes décrits ci-dessus de persister pendant une période prolongée jusqu'à ce que les informations nécessaires pour remédier au problème soient disponibles.
Pour PRISA Tecnologia, la performance est essentielle. Lorsqu'ils rencontrent un problème de performance, cela a un impact immédiat et préjudiciable sur la performance de l'entreprise et sur la perception de leur marque par le consommateur.
« Un décalage d'une seconde dans l'affichage du contenu peut considérablement influencer l'expérience de notre public. » - Jorge Tomé Hernando, directeur de l'architecture informatique, des opérations, de la sécurité et du lieu de travail, PRISA Tecnologia
Les principaux concurrents de la plateforme Instana en matière d'observabilité échantillonnent les indicateurs toutes les 10 secondes ou les agrègent toutes les minutes ou plus, contrairement à la plateforme Instana qui offre un intervalle ultra précis d'une seconde entre chaque indicateur. La plateforme Instana envoie également une notification en cas de problème en trois secondes. Cette réponse est illustrée dans le diagramme représentant l'écart de détection de l'observabilité présenté ici.
Pouvez-vous réellement vous permettre d'attendre 10 secondes, voire une minute, avant que votre plateforme d'observabilité vous signale un problème ? Avec un triage manuel, peut-être. Mais avec une résolution automatisée ou même semi-automatisée, c’est impossible.
Pour toutes les applications, la vitesse et la fiabilité sont les objectifs. Pour améliorer les performances et la fiabilité des applications, la stratégie de référence selon laquelle « un humain doit toujours résoudre un problème (MTTR) » doit changer. Une intervention humaine visant à apporter des solutions correctives risque de surcharger les ressources humaines et de ralentir le rythme du changement. Cela réduira également les indicateurs de niveau de service (SLI).
« Avec Instana, notre objectif quotidien est de pouvoir garantir un certain niveau de temps d’attente. Notre objectif pour les appels de service est de les compléter en moins de 250 millisecondes. Ainsi, ce n’est pas seulement pour les exercices d’urgence. Au quotidien, nous sommes capables d’améliorer les performances, et cela nous permet d’atteindre cet objectif de 250 millisecondes. Instana rend cela possible. » — Bryce Hendrix, architecte principal de la plateforme, Dealerware
Pour améliorer les performances et augmenter la disponibilité, l’AIOps automatisée est la solution. L'AIOps automatisée offre une automatisation supplémentaire combinée à l'AIOps, ce qui permet d'atteindre des niveaux plus élevés de performance et de disponibilité. Comment expliquer cela ? En permettant aux AIOps automatisées de résoudre les problèmes que la machine peut corriger sans erreur et beaucoup plus rapidement qu'un être humain. Il existe de nombreux problèmes liés à l'allocation des ressources d'infrastructure et autres que la machine peut résoudre et prévenir avant même qu'un être humain n'ait le temps d'intervenir.
Ces avantages signifient-ils que tous les problèmes liés aux applications peuvent être résolus grâce à l'automatisation des AIOps ? Bien sûr que non.
Il existe de nombreux problèmes logiques complexes que seul un triage humain peut résoudre, tels que les problèmes de code et autres. Mais il y a aussi de nombreux problèmes pour lesquels l’AIOps automatisée est plus rapide et plus efficace et devrait être privilégiée pour la résolution des problèmes.
Considérez le temps moyen de prévention (MTTP), qui correspond au temps nécessaire à l'observabilité et à l'AIOps pour empêcher un problème d'avoir un impact négatif sur les applications et l'infrastructure du cloud hybride.
L'AIOps automatisée ajoute une nouvelle option au continuum de résolution des problèmes d'application. Le diagramme précédent illustre que le continuum commence par la résolution entièrement automatisée des problèmes jusqu'au MTTR humain essentiel.
Dans le continuum, l'observabilité est le point de départ de tout type de résolution. Plus il faut de temps pour qu'un problème soit détecté par la plateforme d'observabilité, plus il faut de temps pour commencer le processus de résolution. Ce délai signifie que lorsqu’une AIOps automatisée est ajoutée, la différence entre une détection d’une seconde et une détection de 10 secondes ou plus devient énorme. Si votre application peut se permettre d’attendre plus de 10 secondes pour détecter un problème, pourquoi utiliser l’AIOps automatisée ?
La correction automatisée des AIOps représente l'avenir. C'est la prochaine étape logique pour améliorer les performances et la résilience des applications. Les problèmes de performance des infrastructures surpassent souvent les problèmes liés au code des microservices et continueront de le faire à l'avenir.
La nouvelle norme de référence en matière de détection et de correction des problèmes d'application sera l'observabilité automatisée associée aux AIOps. Ces deux technologies seront utilisées conjointement pour éviter que les problèmes ne se transforment en incidents majeurs.
Si vous souhaitez tirer tous les avantages de la résolution automatisée de l'AIOps, vous avez besoin de indicateurs haute fréquence et ultra précis pour alimenter son moteur. Et vous pouvez les obtenir pour un coût nettement inférieur à celui des technologies d’observabilité plus lentes.
En effet, beaucoup de choses peuvent arriver en 10 secondes. Grâce aux indicateurs en temps réel et à l’AIOps automatisée, vous pouvez vous assurer que les problèmes n’affectent pas vos applications.
