Qu'est-ce que l'observabilité LLM ?

Auteurs

Joshua Noble

Data Scientist

Shalini Harkar

Lead AI Advocate

Définition de l’observabilité des LLM

L'observabilité LLM est le processus de collecte de données en temps réel à partir de modèles LLM ou d'applications sur ses caractéristiques de comportement, de performance et de sortie. Les LLM étant complexes, nous pouvons les observer en nous basant sur les modèles de leurs résultats.1

Une solution d'observabilité efficace consiste à collecter des indicateurs, des pistes et des journaux pertinents à partir des applications LLM, des interfaces de programmation d'applications (API) et des flux de travail, ce qui permet aux développeurs de surveiller, de déboguer et d'optimiser les applications de manière efficace, proactive et à grande échelle. 

Les grands modèles de langage (LLM) et les plateformes d'IA générative (gen AI) telles que IBM watsonx.ai et un éventail croissant de variantes open source s'imposent dans tous les secteurs. En raison de cette tendance, il est devenu plus important que jamais de maintenir la fiabilité, la sécurité et l'efficacité des modèles et des applications après leur adoption. C’est là que l’observabilité des LLM devient essentielle.

Les dernières actualités technologiques, étayées par des avis d’expert

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Pourquoi l'observabilité des LLM est-elle importante ?

  • Surveiller la qualité et les sorties des LLM :
    l’évaluation continue des sorties produites par les LLM peut être classée en plusieurs dimensions de qualité qui sont utiles et applicables pour les utilisateurs. Ces dimensions comprennent l'exactitude, la pertinence, la cohérence et la conformité factuelle avec des indicateurs d'évaluation définis. La vérification régulière de ces dimensions de performance permet d'éviter les retards ou les problèmes susceptibles d'entraîner une perte de confiance des utilisateurs dans le programme et de rendre difficile l'utilisation efficace des LLM.

  • Analyse rapide des causes profondes et dépannage :
    lorsqu'une défaillance importante ou un comportement inattendu survient dans une application LLM, un outil d'observabilité peut fournir des informations utiles pour identifier rapidement la ou les causes profondes du problème. Ce niveau de télémétrie très précis permettra généralement aux parties prenantes d'isoler les problèmes avec un degré de confiance plus élevé dans de nombreux domaines. Par exemple, des données d’entraînement corrompues, un ajustement mal conçu, des appels d’API externes ayant échoué ou des pannes de back-end de fournisseurs tiers obsolètes.

  • Optimisez les applications, l'engagement des utilisateurs et l'efficacité du système :
    l'observabilité LLM permet d'améliorer les performances des applications et l'engagement des utilisateurs grâce à une surveillance continue de l'ensemble de la pile LLM. Des indicateurs clés tels que la latence, les tokens utilisés, le temps de réponse et le débit sont suivis afin d’identifier les goulots d’étranglement et les facteurs limitants afin de permettre une optimisation supplémentaire des performances et une réduction des coûts, en particulier dans les workflows RAG. Le suivi en temps réel des interactions et des commentaires des utilisateurs permet de savoir quand des productions de mauvaise qualité sont générées, de résoudre les problèmes au fur et à mesure et d'en découvrir les causes racines. Cette adaptation constante au comportement utilisateur permet au LLM de produire des réponses personnalisées, d'optimiser les workflows et de s'adapter à la demande sans perte de performance.2, 3
Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Indicateurs clés d’observabilité

Les indicateurs d'observabilité des LLM peuvent être catégorisés en trois dimensions principales.

Une observabilité globale des grands modèles linguistiques (LLM) n'est possible que si nous suivons des indicateurs d'observabilité qui mesurent les performances du système, la consommation des ressources et le comportement du modèle.4

Indicateurs de performance du système :

  • Latence : la durée entre l'entrée et la sortie représente le temps de réponse du modèle.

  • Débit : nombre de demandes traitées par le modèle pendant une durée déterminée ; mesure de la charge du modèle.

  • Taux d'erreur : le taux d'échecs ou de réponses non valides ; un reflet de la fiabilité du modèle.

Indicateurs d’utilisation des ressources :

  • Utilisation du CPU/GPU : mesure des ressources consommées pendant l'inférence, en fonction du coût et de l'efficacité.

  • Utilisation de la mémoire : RAM ou stockage consommé pendant le traitement. Bien qu'importante pour les performances et l'évolutivité, cette utilisation est secondaire par rapport à la tâche globale.

  • Utilisation des tokens : suivi des tokens traités. Cette étape est particulièrement importante lorsque les tokens sont associés à des coûts dans les modèles.

  • Rapport débit/latence : le débit décrit un workload d'un système par rapport à sa réactivité ; il est essentiel de trouver un bon équilibre entre ces deux éléments pour garantir l'efficacité.

Indicateurs de comportement du modèle :

  • Exactitude : contrôle la fréquence à laquelle le modèle produit une réponse correcte.

  • Justesse des faits : évalue si le modèle fournit des sorties factuelles « correctes ».

  • Engagement de l'utilisateur : quantifie la durée de l'interaction, les commentaires et la satisfaction pour évaluer l'expérience.

  • Qualité de la réponse : mesure la cohérence, la clarté et la pertinence des résultats.5

Observabilité manuelle et autonome basée sur des agents 

Le contrôle manuel des LLM est difficile en raison du grand volume de données, de l'architecture complexe du système et de la nécessité d'un suivi en temps réel. L'abondance de logs et d'indicateurs rend difficile l'identification rapide des problèmes. En outre, l'observation manuelle nécessite beaucoup de ressources, est sujette aux erreurs et ne peut s'adapter efficacement à l'expansion des systèmes, ce qui ralentit la détection des problèmes et rend le dépannage inefficace.

Ces contraintes démontrent la difficulté de maintenir manuellement l'observabilité dans les LLM, soulignant la nécessité de solutions plus sophistiquées et autonomes pour les environnements d'entreprise.6

Résolution autonome des problèmes basée sur des agents 

Le dépannage autonome désigne des systèmes capables d’identifier, de diagnostiquer et de résoudre des problèmes de manière indépendante sans intervention humaine, en utilisant des méthodes de surveillance avancées utilisant des systèmes basés sur des agents. Les agents surveillent les performances, identifient les anomalies et effectuent des diagnostics en temps réel, permettant ainsi aux systèmes de fonctionner sans surveillance et sans aucune intervention humaine.7

La résolution autonome des problèmes basée sur des agents aide à :

  • Détecter en temps réel : identifiez les problèmes instantanément sans intervention manuelle.

  • Analyser la cause racine : identifiez l’origine des problèmes grâce aux informations pilotées par l’IA. 

  • Résoudre automatiquement : appliquez des solutions prédéfinies prêtes à être utilisées immédiatement pour résoudre les problèmes.

  • Surveiller de façon continue : adaptez les données et tirez-en des enseignements pour optimiser la résolution des problèmes au fil du temps.

  • Optimiser l'évolutivité : traitez efficacement les environnements complexes à grande échelle en réduisant considérablement le travail manuel.

  • Maintenance prédictive : anticipez les problèmes potentiels avant qu'ils ne surviennent, ce qui peut s'avérer extrêmement précieux lors des cycles de performances maximales. 

  • Interagir avec l'observabilité : fonctionne avec d'autres outils d'observabilité pour une résolution plus rapide des problèmes.

Solutions d’entreprise 

La solution IBM Instana est conçue pour s'adapter à toutes les échelles et offre une visibilité en temps réel ainsi que des capacités de dépannage autonomes pour répondre aux besoins complexes actuels des entreprises en matière d'observabilité.

Grâce à un processus en trois étapes (détection, diagnostic basé sur l'IA et résolution autonome), Instana offre un dépannage autonome de bout en bout afin de garantir que les problèmes soient détectés et résolus avant qu'ils n'affectent vos performances.8

Pour en savoir plus sur cette capacité, inscrivez-vous sur la liste d’attente de l'IA agentique d'Instana.  

Conclusion

La mise à l'échelle de l'IA générative implique une résolution autonome des problèmes avec une instrumentation intelligente, une surveillance des LLM en temps réel et une orchestration efficace. L’optimisation des réponses des jeux de données, des résultats du modèle et des LLM, ainsi que la maintenance efficace des performances du modèle grâce à des pipelines optimisés et des tests en temps réel des LLM, est cruciale pour une expérience utilisateur fluide dans divers cas d’usage tels que les chatbots. L'utilisation des LLM open source et des workflows de machine learning augmente et tire parti des techniques d'embedding, en surveillant les requêtes LLM à l'aide d'une série d'outils. Des outils tels qu'OpenTelemetry et d'autres qui intègrent des outils sophistiqués d'observabilité LLM dans des plateformes et des tableaux de bord d'observabilité intégrés seront essentiels pour construire des systèmes d'IA évolutifs et efficaces qui offrent des performances optimales.9, 10

Solutions connexes
Observabilité automatisée de la pile complète

Identifiez et corrigez rapidement la source du problème. Les données haute fidélité en temps réel offrent une visibilité complète sur les environnements d’application et d’infrastructure dynamiques.

En savoir plus sur l’observabilité de la pile complète
Conseil en AIOps

Intensifiez l’automatisation et les opérations informatiques avec l’IA générative, en alignant chaque aspect de votre infrastructure informatique sur vos priorités métier.

En savoir plus sur le conseil en AIOps
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management est un logiciel de surveillance et d’analyse qui fournit une visibilité et des analyses en temps réel sur les réseaux complexes.

Surveiller les performances réseau
Passez à l’étape suivante

Découvrez comment mettre l’IA au service de vos opérations informatiques pour optimiser l’analyse et atteindre une performance exceptionnelle.

Découvrir les solutions AIOps Réserver une démo live
Notes de bas de page :

1 Kumar, S., & Singh, R. (2024). Don’t blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://dl.acm.org/doi/10.1145/3706599.3719914

2 Datadog. (n.d.). What Is LLM Observability & Monitoring?. Consulté le 19 mai 2025 sur le site https://www.datadoghq.com/knowledge center/llm-observability/.

3 LLM-observability, GitHub. Consulté le 19 mai 2025 sur le site https://github.com/DataDog/llm-observability, Datadog. (n.d.).

4 Dong, L., Lu, Q., & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

5 LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Consulté le 19 mai 2025 sur https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

6 Optimizing LLM Accuracy, consulté le 19 mai 2025 sur le site https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

7 IBM Instana Observability. Consulté le 19 mai 2025 sur le site https://www.ibm.com/fr-fr/products/instana.

8 Monitoring AI Agents. Documentation IBM. Consulté le 19 mai 2025 sur https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents

9 Zhou, Y., Yang, Y., & Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

10 Vesely, K., & Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136.