L'observabilité est la capacité de comprendre l'état interne d'un système en analysant ses sorties externes, principalement au moyen de données de télémétrie telles que des indicateurs, des événements, des journaux et des traces, collectivement appelées « données MELT ».
L'observabilité va au-delà des solutions de surveillance traditionnelles pour fournir des informations critiques sur les systèmes logiciels et les environnements de cloud computing, aidant ainsi les équipes informatiques à garantir la disponibilité, à optimiser les performances et à détecter les anomalies.
La plupart des systèmes informatiques se comportent de manière déterministe, ce qui facilite l’analyse des causes racines. Lorsqu’une application tombe en panne, les outils d’observabilité peuvent utiliser les données MELT pour corréler les signaux et identifier les défaillances, en déterminant s’il s’agit d’une fuite de mémoire, d’un échec de connexion à la base de données ou d’un dépassement de délai d’API.
Mais les grands modèles de langage (LLM) et autres applications d’intelligence artificielle (IA) générative compliquent l’observabilité. Contrairement aux logiciels traditionnels, les LLM produisent des sorties probabilistes, ce qui signifie que des entrées identiques peuvent produire des réponses différentes. Ce manque d’interprétabilité,ou la difficulté de savoir comment les entrées façonnent les sorties, peut poser problème pour les outils d’observabilité conventionnels. Par conséquent, le dépannage, le débogage et la surveillance de performance sont beaucoup plus complexes dans les systèmes d’IA générative.
« L'observabilité peut détecter si une réponse d'IA contient des informations personnelles identifiables (PII), par exemple, mais ne peut pas empêcher que cela se produise », explique Drew Flowers, responsable des ventes d'Instana pour les Amériques chez IBM. « Le processus de prise de décision du modèle reste une boîte noire. »
Ce phénomène « boîte noire » met en lumière un défi critique pour l'observabilité du LLM. Bien que les outils d'observabilité puissent détecter les problèmes survenus, ils ne peuvent pas les prévenir car ils ont du mal à expliquer l'IA, c'est-à-dire à fournir une raison compréhensible par l'homme pour laquelle un modèle a pris une décision spécifique ou généré un résultat particulier.
Tant que le problème de l'explicabilité n'est pas résolu, les solutions d'observabilité de l'IA doivent donner la priorité aux éléments qu'elles peuvent mesurer et analyser efficacement. Cela inclut une combinaison de données MELT traditionnelles et d'indicateurs d'observabilité spécifiques à l'IA.
Bien que les indicateurs traditionnels ne fournissent pas une visibilité complète sur le comportement du modèle, ils restent des composants essentiels de l'observabilité. Les performances du processeur, de la mémoire et du réseau ont un impact direct sur les fonctionnalités du système d’IA et l’expérience utilisateur. Ils peuvent aider les entreprises à évaluer l’efficacité avec laquelle les workloads de l’IA s’exécutent et à déterminer si les contraintes d’infrastructure affectent les performances et les temps de réponse.
Cependant, l'observabilité complète de l'IA nécessite des indicateurs supplémentaires qui surveillent les qualités spécifiques au comportement et aux sorties des modèles d'IA, notamment :
Un token est une unité de langage (généralement un mot ou une partie d’un mot) qu’un modèle d’IA peut comprendre. Le nombre de tokens traités par un modèle pour comprendre une entrée ou produire une production a un impact direct sur le coût et la performance d’une application basée sur un LLM. Une consommation de tokens plus élevée peut augmenter les dépenses opérationnelles et la latence de réponse.
Les indicateurs clés pour le suivi de l'utilisation des tokens sont les suivants :
Ces indicateurs peuvent aider les entreprises à identifier les possibilités d’optimisation pour réduire la consommation de tokens, par exemple en affinant les prompts pour fournir plus d’informations dans moins de tokens. En optimisant l'utilisation des tokens, les entreprises peuvent maintenir une qualité de réponse élevée tout en réduisant potentiellement les coûts d'inférence liés aux workloads de machine learning.
Contrairement aux logiciels traditionnels, les modèles IA peuvent progressivement modifier leur comportement à mesure que les données du monde réel évoluent. Ce phénomène, connu sous le nom de dérive du modèle, peut avoir un impact significatif sur la fiabilité et les performances des systèmes d’IA.
Les principaux indicateurs permettant de suivre la dérive du modèle sont les suivants :
Les mécanismes de détection des dérives peuvent fournir des alertes précoces lorsque la précision d’un modèle diminue pour des cas d’utilisation spécifiques, permettant aux équipes d’intervenir avant que le modèle ne perturbe les opérations métier.
Contrôler la qualité des sorties d’IA est essentiel pour maintenir la confiance, la fiabilité et la conformité. Les indicateurs clés permettant de suivre la qualité des réponses sont les suivants :
Si le suivi de ces indicateurs peut aider à repérer les réponses anormales, les outils d'observabilité ne peuvent pas expliquer complètement pourquoi les hallucinations se produisent, ni déterminer automatiquement l'exactitude du contenu généré par l'IA. Il s'agit là de défis majeurs pour la confiance et la gouvernance de l'IA, qui n'ont pas encore été pleinement abordés par quiconque.
Un déploiement éthique de l’IA et la conformité aux réglementations nécessitent une surveillance complète du contenu généré par l’IA.
Voici les principaux indicateurs permettant de suivre l’IA responsable :
Des tableaux de bord de visualisation en temps réel avec détection automatique des anomalies peuvent alerter les équipes lorsque les résultats de l'IA s'écartent des normes attendues. Cette approche proactive aide les entreprises à adresser rapidement les problèmes, à surveiller la performance de l'IA au fil du temps et à garantir un déploiement responsable de l'IA à l’échelle.
OpenTelemetry (OTel) s'est imposé comme le cadre des exigences des secteurs pour la collecte et la transmission des données de télémétrie, et il peut également contribuer à l'observabilité de l'IA générative. Ce projet open-source propose une approche neutre de l'observabilité qui est particulièrement utile dans les écosystèmes complexes d'IA.
Pour les fournisseurs d’IA, OpenTelemetry offre un moyen de normaliser la façon dont ils partagent les données de performance sans exposer les détails du modèle propriétaire ou le code source. Pour les entreprises, il garantit que les données d’observabilité circulent de manière cohérente dans des pipelines d’IA complexes, qui peuvent inclure plusieurs modèles, diverses dépendances et des systèmes de génération augmentée de récupération (RAG).
Les principaux avantages d'OpenTelemetry pour l'observabilité de l'IA générative sont les suivants :
Les applications de l’IA nécessitent des investissements importants, depuis les coûts de licence des modèles jusqu’aux dépenses d’infrastructure et aux ressources des développeurs. Les entreprises qui retardent l’observabilité de l’IA générative risquent de gaspiller des ressources si elles ne peuvent pas identifier les problèmes de performance, les problèmes éthiques ou les mises en œuvre inefficaces.
« Pour l'observabilité de l'IA, le temps de création de valeur (TTV) est primordial », explique Flowers. « Si je ne peux pas commencer à obtenir des informations rapidement, je dépense de l'argent en attendant d'optimiser mon système. »
Voici quelques-uns des défis courants qui ralentissent l’adoption de l’observabilité de l’IA :
Pour relever ces défis, les entreprises devraient envisager des solutions d'observabilité qui prennent en charge :
Les entreprises doivent donner la priorité aux solutions d'observabilité qu'elles peuvent déployer rapidement pour obtenir des informations immédiates. Les plateformes préconfigurées peuvent réduire considérablement le temps de configuration et accélérer la TTV, permettant ainsi aux équipes de commencer à surveiller les systèmes d'IA en quelques jours au lieu de plusieurs semaines.
Les principales capacités de la solution d'observabilité pour un déploiement rapide de l'observabilité de l'IA sont les suivantes :
L'analyse manuelle de vastes quantités de données générées par l'IA peut prendre beaucoup de temps et d'expertise, ce qui entraîne souvent des retards, des erreurs ou des problèmes manqués. Les solutions d'observabilité peuvent automatiser ce processus, ce qui permet aux équipes de se concentrer sur des questions plus urgentes que l'examen des données télémétriques brutes.
Les principales automatisations des solutions d’observabilité de l’IA sont les suivantes :
L'observabilité ne doit pas être une préoccupation secondaire. L'embedding tout au long du cycle de développement de l'IA permettra aux équipes de l'entreprise d'avoir une visibilité partagée sur les performances des systèmes d'IA, ce qui permettra de résoudre plus rapidement les problèmes et de prendre des décisions plus éclairées de prise de décision.
En ce qui concerne l'observabilité de l'IA, la TTV ne se résume pas à la rapidité de mise en œuvre des outils d'observabilité. Il s’agit également de la rapidité avec laquelle ces outils fournissent des informations exploitables qui optimisent les investissements dans l’IA et évitent les temps d’arrêt.
Les principaux moyens d’intégrer l’observabilité de l’IA dans les workflows de développement de l’IA sont les suivants :
À mesure que l'observabilité de l'IA mûrit, les entreprises passent de la surveillance réactive à des approches prédictives qui anticipent les problèmes avant qu'ils n'affectent les utilisateurs ou les résultats commerciaux. Pour ce faire, les solutions d'observabilité les plus avancées intègrent désormais leurs propres outils d'IA spécialisés pour analyser les schémas des données télémétriques et identifier les problèmes avant qu'ils ne deviennent critiques.
« L'IA la plus précieuse en matière d'observabilité est l'IA prédictive et causale, et non l'IA générative », explique Flowers.
Les outils d'observabilité dotés de capacités d'IA prédictive et causale peuvent :
Ce passage d’une observabilité réactive à une observabilité prédictive représente la prochaine frontière pour les opérations d’IA, permettant une gestion plus proactive des applications et de l’infrastructure d’IA tout en garantissant des résultats cohérents et de haute qualité.
Parmi les défis et les solutions évoqués, voici cinq principes essentiels à garder à l’esprit lors de la recherche d’une solution d’observabilité adaptée à vos applications d’IA générative :
Bien que l'observabilité de l'IA fournisse des informations critiques sur les modèles de performance et les anomalies, elle ne peut pas expliquer entièrement les processus de prise de décision internes des grands modèles linguistiques. Concentrez-vous sur des indicateurs mesurables qui indiquent la santé et la performance du système.
L'observabilité complète de l'IA nécessite la surveillance des modèles d'utilisation des tokens, des indicateurs de dérive du modèle et des relations prompt-réponse, ainsi que des mesures de performance d'infrastructure traditionnelles telles que l'utilisation du processeur et la consommation de mémoire.
Sélectionner les plateformes d’observabilité qui offrent des capacités de déploiement rapide avec des tableaux de bord préconfigurés et des alertes automatisées pour obtenir plus rapidement des retours sur les investissements dans l’IA et éviter les problèmes opérationnels coûteux.
Intégrer des instruments d'observabilité dès le début du cycle de développement des logiciels afin d'identifier les problèmes avant le déploiement, d'établir des références de performance et de créer des boucles de rétroaction qui améliorent la qualité du système d'IA.
La normalisation sur des cadres d'observabilité ouverts permet de pérenniser les stratégies d'observabilité tout en offrant une visibilité complète de bout en bout sur les systèmes complexes d'IA et en évitant l'enfermement propriétaire.
De plus, n'oubliez pas que l'adoption d'OpenTelemetry ne signifie pas que vous devez choisir une solution d'observabilité open source. De nombreuses plateformes commerciales, que votre organisation utilise peut-être déjà, prennent pleinement en charge oTel tout en proposant des fonctionnalités supplémentaires de niveau entreprise.
Les solutions d'observabilité commerciales peuvent fournir une observabilité entièrement gérée avec des informations pilotées par l'IA et un support continu, minimisant la configuration et la maintenance manuelles et améliorant le TTV.
« Si je suis assis là à créer des tableaux de bord, des alertes, à créer du contexte et des données, je me concentre littéralement sur la création d’outils. Je n’optimise pas le système. Je ne soutiens pas les initiatives des clients », explique Flowers. « Ce que je fais ne me permet pas de gagner de l'argent. »
Avec les solutions commerciales d'observabilité, une grande partie de cette configuration peut être automatisée ou préconfigurée. Les équipes peuvent se concentrer sur l’optimisation de la performance et de la fiabilité de leurs modèles d’IA, maximisant ainsi leurs investissements en observabilité et les impacts réels des applications d’IA.
Identifiez et corrigez rapidement la source du problème. Les données haute fidélité en temps réel offrent une visibilité complète sur les environnements d’application et d’infrastructure dynamiques.
Intensifiez l’automatisation et les opérations informatiques avec l’IA générative, en alignant chaque aspect de votre infrastructure informatique sur vos priorités métier.
IBM SevOne Network Performance Management est un logiciel de surveillance et d’analyse qui fournit une visibilité et des analyses en temps réel sur les réseaux complexes.