En général, l'observabilité est la mesure dans laquelle vous pouvez comprendre l'état ou la condition interne d'un système complexe en vous basant uniquement sur la connaissance de ses sorties externes. Plus un système est observable, plus on peut naviguer rapidement et précisément d'un problème de performances identifié à sa cause première, sans test ni codification supplémentaire.
Dans le cloud computing , l'observabilité fait également référence aux outils et pratiques logiciels qui permettent d'agréger, de corréler et d'analyser un flux régulier de données de performances depuis une application distribuée et le matériel sur lequel elle fonctionne, afin de plus efficacement surveiller, identifier et déboguer l'application pour répondre aux attentes de l'expérience client, aux accords de niveau de service (SLA) et aux autres exigences commerciales.
Sujet informatique relativement nouveau, l'observabilité est souvent mal interprétée, comme un mot à la mode survendu, ou un « rebranding » de surveillance de système en général et d'analyse des performances d'application (APM) en particulier. En fait, l'observabilité est une évolution naturelle des méthodes de recueil de données APM (surveillance des points d'analyse) qui répond mieux à la nature toujours plus rapide, distribuée et dynamique des déploiements d'applications cloud-natives. L'observabilité ne remplace pas la surveillance – elle permet une meilleure surveillance, et une meilleure surveillance des points d'analyse.
(Le terme « observabilité » vient de la théorie du contrôle, un domaine d'ingénierie centré sur le contrôle automatique d'un système dynamique - par exemple, le flux d'eau dans un tuyau ou la vitesse d'une automobile dans les pentes et les montées - basées sur les retours du système.)
IBM Cloud Pak for Watson AIOps
Observabilité IBM avec Instana
Depuis une vingtaine d'années, les équipes informatiques s'appuient principalement sur l'APM (surveillance des points d'analyse) pour surveiller et dépanner les applications. L'APM échantillonne et regroupe les données des systèmes et applications, appeléestélémétrie, qui sont connues pour être liées aux problèmes de performance des applications. Elle analyse la télémétrie relative aux indicateurs de performance clés (KPI) et rassemble les résultats dans un tableau de bord dans le but d'alerter les équipes de support et des opérations des conditions anormales qui doivent être traitées pour résoudre ou éviter des problèmes.
La surveillance des points d'analyse est suffisamment efficace pour surveiller et dépanner les applications monolithiques ou traditionnelles distribuées, où le nouveau code est publié périodiquement et les flux de travail et dépendances entre les composants de l'application, les serveurs et les ressources connexes sont bien connues ou faciles à retrouver.
Mais les organisations d'aujourd'hui adoptent rapidement des pratiques de développement modernes - développement agile,intégration continue etdéploiement continu (CI/CD), DevOps, langages de programmation multiples – et des technologies cloud-natives telles que les microservices, les conteneurs Docker,Kubernetes et les fonctions sans serveur. En rconséquence, ils apportent plus de services sur le marché, plus rapidement que jamais. Mais dans le processus ils déploient de nouveaux composants d'applications si souvent, dans tant d'endroits, dans tant de langues différentes et pour des périodes très variables de temps (des secondes ou des fractions de seconde, dans le cas des fonctions sans serveurs) que l' échantillonnage de données une fois par minute de l'APM ne peut pas suivre le rythme.
Ce qu'il faut, c'est une télémétrie de meilleure qualité - et en plus grand nombre - qui peut être utilisée pour créer un enregistrement haute fidélité, riche en contexte et entièrement corrélé de chaque requête ou transaction d'utilisateur de l'application. Entrez dans l'observabilité.
Les plateformes d'observabilité découvrent et recueillent des télémétrie de performance de manière continue en intégrant avec l'instrumentation existante intégrée dans les composants de l'infrastructure et de l'application, et en fournissant des outils pour ajouter des instrumentations à ces composants. L'observabilité se concentre sur quatre types de télémétrie principaux :
Après avoir rassemblé cette télémétrie, la plateforme la corrèle en temps réel pour fournir aux équipes DevOps équipes, aux équipes d'ingénierie de fiabilité site (SRE) et à l'ensemble du personnel informatique les informations contextuelles – le quoi, où et pourquoi de tout événement qui pourrait indiquer, causer ou être utilisé pour traiter une question de performance d'application.
De nombreuses plateformes d'observabilité découvrent automatiquement de nouvelles sources de télémétrie, car elles peuvent émerger au sein du système (comme un nouvel appel API à un autre application logicielle). Et parce qu'elles traitent bien plus de données qu'une solution APM standard, de nombreuses plateformes incluent des capacités AIOps (intelligence artificielle pour les opérations) qui tamisent les signaux - indications de réels problèmes - du bruit (données non liées à des questions).
L'avantage primordial de l'observabilité est qu'avec tous les autres éléments étant égaux, un système plus observable est plus facile à comprendre (en général et en détail), plus facile à surveiller, plus facile et plus sûr à mettre à jour avec un nouveau code, et plus facile à réparer qu'un système moins observable. Plus précisément, l'observabilité soutient directement les buts Agile/DevOps/SRE de fournir un logiciel de plus haute qualité plus rapidement en permettant à une organisation de :
Avec l'acquisition d'Instana, IBM offre des capacités d'automatisation propulsée par IA leader du secteur visant à gérer la complexité des applications modernes qui couvrent des paysages de clouds hybrides - d'autant plus que la demande de meilleures expériences client et de plus d'applications affecte les opérations informatiques et commerciales.
Toute évolution vers une automatisation à l'échelle de l'entreprise doit commencer par de petits projets au succès quantifiable, que vous pourrez ensuite adapter et optimiser pour d'autres processus et dans d'autres parties de votre organisation.
En collaborant avec IBM, vous aurez accès à des capacité d'automatisation propulsées par l'IA, notamment des flux de travaux préconfigurés qui rendent plus intelligents tous les processus de services IT et permettent aux équipes de se consacrer aux problèmes IT les plus importants et d'accélérer l'innovation.
Pour aller plus loin :
De vos flux de travaux métier jusqu'à vos opérations informatiques, nous avons la solution qu'il vous faut avec l'automatisation basée sur l'IA.
Découvrez la plateforme d'entreprise leader pour les clouds hybrides.
IBM Cloud Pak for Watson AIOps est une solution de gestion des opérations informatiques qui permet aux opérateurs informatiques de placer l'IA au cœur de leur chaîne d'outils IT.