Comment l’observabilité s’adapte à l’IA générative

15 avril 2025

Auteurs

L'observabilité est la capacité de comprendre l'état interne d'un système en analysant ses sorties externes, principalement au moyen de données de télémétrie telles que des indicateurs, des événements, des journaux et des traces, collectivement appelées « données MELT ».

L'observabilité va au-delà des solutions de surveillance traditionnelles pour fournir des informations critiques sur les systèmes logiciels et les environnements de cloud computing, aidant ainsi les équipes informatiques à garantir la disponibilité, à optimiser les performances et à détecter les anomalies.

La plupart des systèmes informatiques se comportent de manière déterministe, ce qui facilite l’analyse des causes racines. Lorsqu’une application tombe en panne, les outils d’observabilité peuvent utiliser les données MELT pour corréler les signaux et identifier les défaillances, en déterminant s’il s’agit d’une fuite de mémoire, d’un échec de connexion à la base de données ou d’un dépassement de délai d’API.

Mais les grands modèles de langage (LLM) et autres applications d’intelligence artificielle (IA) générative compliquent l’observabilité. Contrairement aux logiciels traditionnels, les LLM produisent des sorties probabilistes, ce qui signifie que des entrées identiques peuvent produire des réponses différentes. Ce manque d’interprétabilité,ou la difficulté de savoir comment les entrées façonnent les sorties, peut poser problème pour les outils d’observabilité conventionnels. Par conséquent, le dépannage, le débogage et la surveillance de performance sont beaucoup plus complexes dans les systèmes d’IA générative.

« L'observabilité peut détecter si une réponse d'IA contient des informations personnelles identifiables (PII), par exemple, mais ne peut pas empêcher que cela se produise », explique Drew Flowers, responsable des ventes d'Instana pour les Amériques chez IBM. « Le processus de prise de décision du modèle reste une boîte noire. »

Ce phénomène « boîte noire » met en lumière un défi critique pour l'observabilité du LLM. Bien que les outils d'observabilité puissent détecter les problèmes survenus, ils ne peuvent pas les prévenir car ils ont du mal à expliquer l'IA, c'est-à-dire à fournir une raison compréhensible par l'homme pour laquelle un modèle a pris une décision spécifique ou généré un résultat particulier.

Tant que le problème de l'explicabilité n'est pas résolu, les solutions d'observabilité de l'IA doivent donner la priorité aux éléments qu'elles peuvent mesurer et analyser efficacement. Cela inclut une combinaison de données MELT traditionnelles et d'indicateurs d'observabilité spécifiques à l'IA.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Indicateurs critiques pour l'observabilité de l'IA générative

Bien que les indicateurs traditionnels ne fournissent pas une visibilité complète sur le comportement du modèle, ils restent des composants essentiels de l'observabilité. Les performances du processeur, de la mémoire et du réseau ont un impact direct sur les fonctionnalités du système d’IA et l’expérience utilisateur. Ils peuvent aider les entreprises à évaluer l’efficacité avec laquelle les workloads de l’IA s’exécutent et à déterminer si les contraintes d’infrastructure affectent les performances et les temps de réponse.

Cependant, l'observabilité complète de l'IA nécessite des indicateurs supplémentaires qui surveillent les qualités spécifiques au comportement et aux sorties des modèles d'IA, notamment :

  • Utilisation de token
  • Dérive de modèle
  • Qualité de la réponse
  • Surveillance de l’IA responsable

Utilisation de tokens

Un token est une unité de langage (généralement un mot ou une partie d’un mot) qu’un modèle d’IA peut comprendre. Le nombre de tokens traités par un modèle pour comprendre une entrée ou produire une production a un impact direct sur le coût et la performance d’une application basée sur un LLM. Une consommation de tokens plus élevée peut augmenter les dépenses opérationnelles et la latence de réponse.

Les indicateurs clés pour le suivi de l'utilisation des tokens sont les suivants :

  • Les taux de consommation et les coûts des tokens, qui peuvent aider à quantifier les dépenses opérationnelles.

  • L'efficacité des tokens, une mesure de l'efficacité avec laquelle chaque token est utilisé dans une interaction. Les interactions efficaces produisent des productions de haute qualité tout en minimisant le nombre de tokens consommés.

  • Modèles d'utilisation des tokens à travers différents types de prompts, qui peuvent aider à identifier les utilisations des modèles à forte intensité de ressources.

Ces indicateurs peuvent aider les entreprises à identifier les possibilités d’optimisation pour réduire la consommation de tokens, par exemple en affinant les prompts pour fournir plus d’informations dans moins de tokens. En optimisant l'utilisation des tokens, les entreprises peuvent maintenir une qualité de réponse élevée tout en réduisant potentiellement les coûts d'inférence liés aux workloads de machine learning.

Dérive du modèle 

Contrairement aux logiciels traditionnels, les modèles IA peuvent progressivement modifier leur comportement à mesure que les données du monde réel évoluent. Ce phénomène, connu sous le nom de dérive du modèle, peut avoir un impact significatif sur la fiabilité et les performances des systèmes d’IA.

Les principaux indicateurs permettant de suivre la dérive du modèle sont les suivants :

  • Changements dans les modèles de réponse au fil du temps pour identifier les incohérences émergentes.

  • Des variations dans la qualité ou la pertinence des résultats pourraient indiquer une baisse des performances du modèle.

  • Des changements dans la latence ou l’utilisation des ressources qui pourraient signaler des inefficacités de calcul.

Les mécanismes de détection des dérives peuvent fournir des alertes précoces lorsque la précision d’un modèle diminue pour des cas d’utilisation spécifiques, permettant aux équipes d’intervenir avant que le modèle ne perturbe les opérations métier.

Qualité de la réponse

Contrôler la qualité des sorties d’IA est essentiel pour maintenir la confiance, la fiabilité et la conformité. Les indicateurs clés permettant de suivre la qualité des réponses sont les suivants :

  • Fréquence d’hallucination sur différents types de prompts afin d’identifier les déclencheurs possibles de résultats inexacts.

  • L’exactitude factuelle des réponses générées, bien que cela nécessite souvent une validation externe et une supervision humaine.

  • Cohérence des productions pour des entrées similaires afin de vérifier la stabilité du modèle au fil du temps.

  • Pertinence des réponses aux prompts de l’utilisateur pour évaluer comment le modèle s’aligne sur l’intention de l’utilisateur.

  • La latence est critique pour les applications d'IA orientées utilisateur, où la rapidité et la précision nécessitent souvent de faire des compromis. En surveillant les temps de réponse pour différents types de prompts, les entreprises peuvent identifier les goulots d'étranglement et les inefficacités de performance.

Si le suivi de ces indicateurs peut aider à repérer les réponses anormales, les outils d'observabilité ne peuvent pas expliquer complètement pourquoi les hallucinations se produisent, ni déterminer automatiquement l'exactitude du contenu généré par l'IA. Il s'agit là de défis majeurs pour la confiance et la gouvernance de l'IA, qui n'ont pas encore été pleinement abordés par quiconque.

Supervision de l'IA responsable

Un déploiement éthique de l’IA et la conformité aux réglementations nécessitent une surveillance complète du contenu généré par l’IA.

Voici les principaux indicateurs permettant de suivre l’IA responsable :

  • Occurrences de biais dans les réponses pour aider à assurer l’équité dans les interactions avec les utilisateurs.

  • Instances d’informations personnelles dans le contenu généré pour aider à protéger les informations sensibles.

  • Conformité aux directives éthiques en matière d’IA pour s’aligner sur les normes et réglementations du secteur.

  • La pertinence du contenu pour préserver la réputation de la marque et la confiance des utilisateurs.

Des tableaux de bord de visualisation en temps réel avec détection automatique des anomalies peuvent alerter les équipes lorsque les résultats de l'IA s'écartent des normes attendues. Cette approche proactive aide les entreprises à adresser rapidement les problèmes, à surveiller la performance de l'IA au fil du temps et à garantir un déploiement responsable de l'IA à l’échelle. 

Mixture of Experts | 25 avril, épisode 52

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

OpenTelemetry et observabilité de l’IA

OpenTelemetry (OTel) s'est imposé comme le cadre des exigences des secteurs pour la collecte et la transmission des données de télémétrie, et il peut également contribuer à l'observabilité de l'IA générative. Ce projet open-source propose une approche neutre de l'observabilité qui est particulièrement utile dans les écosystèmes complexes d'IA.

Pour les fournisseurs d’IA, OpenTelemetry offre un moyen de normaliser la façon dont ils partagent les données de performance sans exposer les détails du modèle propriétaire ou le code source. Pour les entreprises, il garantit que les données d’observabilité circulent de manière cohérente dans des pipelines d’IA complexes, qui peuvent inclure plusieurs modèles, diverses dépendances et des systèmes de génération augmentée de récupération (RAG).

Les principaux avantages d'OpenTelemetry pour l'observabilité de l'IA générative sont les suivants :

  • Indépendance des fournisseurs : les entreprises évitent de s'enfermer dans des plateformes d'observabilité spécifiques, conservant ainsi la flexibilité à mesure que les technologies d'IA évoluent.

  • Visibilité de bout en bout : les données télémétriques circulent de manière cohérente à partir de tous les composants de l’infrastructure des applications d’IA.

  • Pérennité: à mesure que les technologies d’IA évoluent, la norme OpenTelemetry s’adapte, garantissant que les stratégies d’observabilité restent pertinentes.

  • Intégration de l’écosystème: les normes ouvertes permettent l’observabilité des solutions d’IA multifournisseurs et des modèles de déploiement hybrides.

  • Standardisation des métadonnées : capturez les métadonnées essentielles, y compris les horodatages d’entraînement, les origines des jeux de données et les entrées de modèles, afin de fournir un contexte critique permettant de comprendre le comportement des systèmes d’IA.
Image de la newsletter pour les messages d’automatisation

Libérer la puissance d’IBM Instana Observability

IBM Instana Observability peut vous aider à réaliser un ROI de 219 % et à réduire de 90 % le temps que les développeurs passent à résoudre les problèmes.

La vitesse est tout

Les applications de l’IA nécessitent des investissements importants, depuis les coûts de licence des modèles jusqu’aux dépenses d’infrastructure et aux ressources des développeurs. Les entreprises qui retardent l’observabilité de l’IA générative risquent de gaspiller des ressources si elles ne peuvent pas identifier les problèmes de performance, les problèmes éthiques ou les mises en œuvre inefficaces.

« Pour l'observabilité de l'IA, le temps de création de valeur (TTV) est primordial », explique Flowers. « Si je ne peux pas commencer à obtenir des informations rapidement, je dépense de l'argent en attendant d'optimiser mon système. »

Voici quelques-uns des défis courants qui ralentissent l’adoption de l’observabilité de l’IA :

  • Des tableaux de bord personnalisés complexes qui nécessitent une installation et une configuration étendues.

  • Volume de données écrasant qui crée des goulets d’étranglement dans le traitement.

  • Manque d'automatisation dans la configuration des alertes et la génération de rapports.

  • Difficultés d’intégration entre les plateformes d’IA et les outils d’observabilité.

  • Manques en matière de compétences dans l’interprétation des données télémétriques spécifiques à l’IA.

Pour relever ces défis, les entreprises devraient envisager des solutions d'observabilité qui prennent en charge :

  • Déploiement rapide

  • Informations automatisées

  • Des workflows d'IA intégrés

Déploiement rapide

Les entreprises doivent donner la priorité aux solutions d'observabilité qu'elles peuvent déployer rapidement pour obtenir des informations immédiates. Les plateformes préconfigurées peuvent réduire considérablement le temps de configuration et accélérer la TTV, permettant ainsi aux équipes de commencer à surveiller les systèmes d'IA en quelques jours au lieu de plusieurs semaines.

Les principales capacités de la solution d'observabilité pour un déploiement rapide de l'observabilité de l'IA sont les suivantes :

  • Modèles de tableaux de bord spécifiques à l'IA qui fonctionnent dès leur sortie de l'emballage avec un minimum de personnalisation.

  • Instrumentation automatisée qui peut immédiatement commencer à collecter des données à partir de cadres des exigences et de plateformes d’IA.

  • Des connecteurs prédéfinis pour les fournisseurs LLM les plus populaires et une infrastructure d'IA qui éliminent le besoin de travaux d'intégration personnalisés.

  • Guides d’implémentation rapide pour aider les équipes à prendre en main des approches éprouvées pour les cas d’utilisation courants de l’IA.

Informations automatisées

L'analyse manuelle de vastes quantités de données générées par l'IA peut prendre beaucoup de temps et d'expertise, ce qui entraîne souvent des retards, des erreurs ou des problèmes manqués. Les solutions d'observabilité peuvent automatiser ce processus, ce qui permet aux équipes de se concentrer sur des questions plus urgentes que l'examen des données télémétriques brutes.

Les principales automatisations des solutions d’observabilité de l’IA sont les suivantes :

  • Utiliser la détection des anomalies pour identifier les irrégularités dans le comportement et les performances de l'IA sans avoir à configurer manuellement les seuils.

  • Générer des recommandations exploitables pour l’optimisation du système plutôt que de se contenter d’identifier les problèmes.

  • Traduire les problèmes techniques en explications pertinentes pour les entreprises.

  • Prioriser les alertes en fonction de leur impact pour éviter la baisse de la vigilance et réduire les temps d'arrêt.

Workflows d'IA intégrés

L'observabilité ne doit pas être une préoccupation secondaire. L'embedding tout au long du cycle de développement de l'IA permettra aux équipes de l'entreprise d'avoir une visibilité partagée sur les performances des systèmes d'IA, ce qui permettra de résoudre plus rapidement les problèmes et de prendre des décisions plus éclairées de prise de décision.

En ce qui concerne l'observabilité de l'IA, la TTV ne se résume pas à la rapidité de mise en œuvre des outils d'observabilité. Il s’agit également de la rapidité avec laquelle ces outils fournissent des informations exploitables qui optimisent les investissements dans l’IA et évitent les temps d’arrêt.

Les principaux moyens d’intégrer l’observabilité de l’IA dans les workflows de développement de l’IA sont les suivants :

  • Construire l'observabilité dans les pipelines CI/CD pour les applications d'IA.

  • Tester l'instrumentation d'observabilité pendant la pré-production.

  • Capture des indicateurs de l'étape de développement pour éclairer le suivi de la production.

De la surveillance à la prédiction

À mesure que l'observabilité de l'IA mûrit, les entreprises passent de la surveillance réactive à des approches prédictives qui anticipent les problèmes avant qu'ils n'affectent les utilisateurs ou les résultats commerciaux. Pour ce faire, les solutions d'observabilité les plus avancées intègrent désormais leurs propres outils d'IA spécialisés pour analyser les schémas des données télémétriques et identifier les problèmes avant qu'ils ne deviennent critiques.

« L'IA la plus précieuse en matière d'observabilité est l'IA prédictive et causale, et non l'IA générative », explique Flowers.

Les outils d'observabilité dotés de capacités d'IA prédictive et causale peuvent :

  • Prédire quand la dérive du modèle atteindra des niveaux problématiques.

  • Prévoir les besoins en ressources en fonction des modèles d’utilisation de l’IA

  • Identifier les modèles de prompt susceptibles de produire des hallucinations.

  • Détecter les tendances de biais subtiles avant qu'elles ne deviennent significatives.

Ce passage d’une observabilité réactive à une observabilité prédictive représente la prochaine frontière pour les opérations d’IA, permettant une gestion plus proactive des applications et de l’infrastructure d’IA tout en garantissant des résultats cohérents et de haute qualité.

Trouver la bonne solution d'observabilité de l'IA générative

Parmi les défis et les solutions évoqués, voici cinq principes essentiels à garder à l’esprit lors de la recherche d’une solution d’observabilité adaptée à vos applications d’IA générative :

Reconnaître les limites inhérentes 

Bien que l'observabilité de l'IA fournisse des informations critiques sur les modèles de performance et les anomalies, elle ne peut pas expliquer entièrement les processus de prise de décision internes des grands modèles linguistiques. Concentrez-vous sur des indicateurs mesurables qui indiquent la santé et la performance du système.

Au-delà des indicateurs traditionnels

L'observabilité complète de l'IA nécessite la surveillance des modèles d'utilisation des tokens, des indicateurs de dérive du modèle et des relations prompt-réponse, ainsi que des mesures de performance d'infrastructure traditionnelles telles que l'utilisation du processeur et la consommation de mémoire. 

Se concentrer sur la création de valeur

Sélectionner les plateformes d’observabilité qui offrent des capacités de déploiement rapide avec des tableaux de bord préconfigurés et des alertes automatisées pour obtenir plus rapidement des retours sur les investissements dans l’IA et éviter les problèmes opérationnels coûteux.

Intégrer l'observabilité dans le développement logiciel

Intégrer des instruments d'observabilité dès le début du cycle de développement des logiciels afin d'identifier les problèmes avant le déploiement, d'établir des références de performance et de créer des boucles de rétroaction qui améliorent la qualité du système d'IA.

Adopter OpenTelemetry

La normalisation sur des cadres d'observabilité ouverts permet de pérenniser les stratégies d'observabilité tout en offrant une visibilité complète de bout en bout sur les systèmes complexes d'IA et en évitant l'enfermement propriétaire.

De plus, n'oubliez pas que l'adoption d'OpenTelemetry ne signifie pas que vous devez choisir une solution d'observabilité open source. De nombreuses plateformes commerciales, que votre organisation utilise peut-être déjà, prennent pleinement en charge oTel tout en proposant des fonctionnalités supplémentaires de niveau entreprise.

Les solutions d'observabilité commerciales peuvent fournir une observabilité entièrement gérée avec des informations pilotées par l'IA et un support continu, minimisant la configuration et la maintenance manuelles et améliorant le TTV.

« Si je suis assis là à créer des tableaux de bord, des alertes, à créer du contexte et des données, je me concentre littéralement sur la création d’outils. Je n’optimise pas le système. Je ne soutiens pas les initiatives des clients », explique Flowers. « Ce que je fais ne me permet pas de gagner de l'argent. »

Avec les solutions commerciales d'observabilité, une grande partie de cette configuration peut être automatisée ou préconfigurée. Les équipes peuvent se concentrer sur l’optimisation de la performance et de la fiabilité de leurs modèles d’IA, maximisant ainsi leurs investissements en observabilité et les impacts réels des applications d’IA. 

Solutions connexes
Observabilité automatisée de la pile complète

Identifiez et corrigez rapidement la source du problème. Les données haute fidélité en temps réel offrent une visibilité complète sur les environnements d’application et d’infrastructure dynamiques.

En savoir plus sur l’observabilité de la pile complète
Conseil en AIOps

Intensifiez l’automatisation et les opérations informatiques avec l’IA générative, en alignant chaque aspect de votre infrastructure informatique sur vos priorités métier.

En savoir plus sur le conseil en AIOps
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management est un logiciel de surveillance et d’analyse qui fournit une visibilité et des analyses en temps réel sur les réseaux complexes.

Surveiller les performances réseau
Passez à l’étape suivante

Découvrez comment mettre l’IA au service de vos opérations informatiques pour optimiser l’analyse et atteindre une performance exceptionnelle.

Découvrir les solutions AIOps Réserver une démo live