En général, l'observabilité est le degré de compréhension de l'état ou de la condition interne d'un système complexe à partir de la connaissance seule de ses résultats externes. Plus un système est observable, plus il est possible de remonter rapidement et précisément d'un problème de performance identifié à sa cause première, sans test ou codage supplémentaire.
En informatique et dans le domaine du cloud computing, l'observabilité fait également référence aux outils et pratiques logiciels qui permettent d'agréger, de corréler et d'analyser un flux régulier de données de performances à partir d'une application distribuée et du matériel et du réseau sur lesquels elle fonctionne, afin de de surveiller, d'identifier et de déboguer plus efficacement l'application pour répondre aux attentes d'expérience client, aux accords sur les niveaux de service (SLA) et aux autres exigences opérationnelles.
Sujet relativement nouveau dans le domaine de la technologie de l'information, l'observabilité fait souvent l'objet d'une publicité surmédiatisée ou est considérée, à tort, comme l'équivalent de la surveillance des systèmes, de la surveillance des performances des applications (APM) et de la gestion des performances du réseau (NPM). En fait, l'observabilité est une évolution naturelle des méthodes de collecte de données APM et NPM qui répond mieux à la nature toujours plus rapide, distribuée et dynamique des déploiements d'applications cloud natives. L'observabilité ne remplace pas la surveillance ; elle l'améliore, ainsi que la surveillance APM et NPM.
Le terme « observabilité » vient de la théorie du contrôle, un domaine d'ingénierie centré sur l'automatisation du contrôle d'un système dynamique (par exemple, le flux d'eau dans un tuyau ou la vitesse d'une automobile dans les pentes et les montées) en fonction des retours d'un système.
Depuis une vingtaine d'années, les équipes informatiques s'appuient principalement sur APM pour surveiller et identifier et résoudre les problèmes liés aux applications. La surveillance APM échantillonne et agrège régulièrement des données d'application et de système, appelées télémétrie, dont on sait qu'elles sont liées à des problèmes de performances des applications. Elle analyse la télémétrie par rapport à des indicateurs clés de performance (KPI) et rassemble les résultats dans un tableau de bord pour signaler aux équipes chargées des opérations et du support les états anormaux qui doivent être traités pour résoudre ou prévenir les problèmes.
La surveillance APM est suffisamment efficace pour surveiller et résoudre les problèmes liés aux applications monolithiques ou les applications distribuées traditionnelles, où le nouveau code est publié régulièrement et où les flux et les dépendances entre les composants de l'application, les serveurs et les ressources connexes sont identifiés ou faciles à retracer.
Mais les organisations actuelles adoptent rapidement des pratiques de développement modernes (développement agile, intégration continue et déploiement continu (CI/CD), DevOps, langages de programmation multiples) et des technologies cloud natives, telles que les microservices, les conteneurs Docker, Kubernetes et les fonctions sans serveur. En conséquence, elles mettent plus de services sur le marché plus rapidement que jamais. Mais au cours de ce processus, elles déploient de nouveaux composants d'application si souvent, dans tant d'endroits, dans tant de langages différents et pour des périodes si variables (quelques secondes ou quelques fractions de seconde, dans le cas des fonctions sans serveur) que l'échantillonnage de données APM toutes les minutes ne peut pas suivre le rythme.
Ce qu'il faut, c'est une télémétrie de meilleure qualité, et beaucoup plus étendue, qui puisse être utilisée pour créer un enregistrement très précis, très contextuel et entièrement corrélé de chaque demande ou transaction de l'utilisateur de l'application. Entrez dans l'observabilité.
Les plateformes d'observabilité découvrent et collectent en continu des données de télémétrie sur les performances en s'intégrant à l'instrumentation existante incorporée dans les composants d'application et d'infrastructure et en fournissant des outils permettant d'ajouter des instruments à ces composants.
L'observabilité couvre quatre principaux types de télémétrie :Après avoir collecté cette télémétrie, la plateforme la corrèle en temps réel pour fournir aux équipes DevOps, aux équipes d'ingénierie de fiabilité des sites (SRE) et au personnel informatique des informations complètes et contextuelles sur l'élément, l'emplacement et la raison liés à un événement susceptible d'indiquer un problème de performances d'application, de le générer ou d'être utilisé pour le résoudre.
De nombreuses plateformes d'observabilité découvrent automatiquement de nouvelles sources de télémétrie à mesure qu'elles apparaissent dans le système (par exemple, un nouvel appel d'API à une autre application logicielle). Et comme elles traitent beaucoup plus de données qu'une solution APM standard, de nombreuses plateformes intègrent des fonctionnalités AIOps (intelligence artificielle pour les opérations) qui écartent les signaux (indications de problèmes réels) du bruit (données sans rapport avec les problèmes).
Le principal avantage de l'observabilité est que, toutes choses étant égales par ailleurs, un système plus observable est plus facile à comprendre (en général et dans les moindres détails), plus facile à contrôler, plus facile et plus sûr à mettre à jour avec un nouveau code, et plus facile à réparer qu'un système moins observable. Plus précisément, l'observabilité soutient directement les objectifs Agile/DevOps/SRE de fournir plus rapidement des logiciels de meilleure qualité en permettant à une organisation de :
De vos flux de travaux métier à vos opérations IT, nous avons la solution qu'il vous faut avec l'automatisation basée sur l'IA.
Découvrez la plateforme d'observabilité d'entreprise leader pour les clouds hybrides.
IBM Cloud Pak® for Watson AIOps est une solution de gestion des opérations informatiques qui permet aux opérateurs informatiques de placer l'IA au cœur de leur chaîne d'outils ITOps.