Alors que l’engouement pour l’intelligence artificielle (IA) continue de déferler sur le monde des affaires, l’attention se tourne vers sa dernière évolution : les agents d’IA.
Contrairement aux modèles d’IA traditionnels, les agents d’IA peuvent prendre des décisions sans supervision humaine constante. Ils fonctionnent de manière autonome pour atteindre des objectifs complexes tels que répondre aux questions des clients, optimiser une chaîne d’approvisionnement ou analyser des données de santé afin de fournir un diagnostic.
Dans la pratique, cela signifie que les agents d’IA peuvent gérer des workflows complets du début à la fin, par exemple traiter automatiquement des demandes d’indemnisation ou gérer les niveaux de stock, plutôt que de se contenter de fournir des recommandations.
Des estimations récentes montrent que les entreprises adoptent rapidement les agents d’IA. Une enquête de KPMG a révélé que 88 % des entreprises explorent ou testent activement des initiatives d’agents d’IA1. Gartner prévoit que d’ici 2028, plus d’un tiers des applications logicielles d’entreprise incluront l’IA agentique, la technologie qui fait fonctionner les agents d’IA2.
Cependant, les capacités mêmes qui rendent les agents d’IA si précieux peuvent également les rendre difficiles à surveiller, à comprendre et à contrôler.
Les agents d’IA utilisent des grands modèles de langage (LLM) pour raisonner, créer des workflows et décomposer les tâches en sous-tâches. Ils accèdent à des outils externes, tels que des bases de données, des moteurs de recherche et des calculatrices, et utilisent leur mémoire pour se rappeler les conversations précédentes et les résultats des tâches.
Si ce processus leur permet de travailler de manière indépendante, il les rend également beaucoup moins transparents que les applications traditionnelles basées sur des règles et une logique explicites et prédéfinies.
Cette complexité et ce manque de transparence inhérents peuvent rendre difficile le suivi de la manière dont les agents d’IA génèrent des résultats particuliers. Pour les entreprises, cela peut présenter des risques sérieux, notamment :
Afin d’atténuer ces risques, les entreprises se tournent de plus en plus vers l’observabilité des agents d’IA, qui leur permet de mieux comprendre leur comportement et leurs performances.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
L’observabilité des agents d’IA est le processus qui consiste à surveiller et à comprendre les comportements de bout en bout d’un écosystème agentique, ce qui englobe toutes les interactions que l’agent d’IA peut avoir avec des grands modèles de langage et des outils externes.
Elle découle de la pratique plus large de l’observabilité, qui est la capacité à comprendre l’état interne d’un système en analysant ses données télémétriques, c’est-à-dire ses sorties externes, telles que les indicateurs, les événements, les journaux et les traces, communément appelées « données MELT ».
Grâce à l’observabilité des agents d’IA, les entreprises peuvent évaluer les performances des agents en collectant des données sur leurs actions, leurs décisions et leur utilisation des ressources. Cela permet de répondre à des questions essentielles, telles que :
À la lumière de ces informations, les entreprises peuvent résoudre et déboguer les problèmes plus efficacement et améliorer les performances et la fiabilité des agents d’IA.
Les systèmes multi-agents exploitent plusieurs agents d’IA qui collaborent pour accomplir des tâches complexes, comme automatiser le pipeline de vente d’une entreprise ou répondre à des questions et générer des tickets pour un système d’assistance informatique.
Contrairement aux systèmes à agent unique, où les défaillances peuvent souvent être attribuées à un composant particulier, les systèmes multi-agents sont beaucoup plus complexes. Les interactions entre les agents d’IA autonomes étant nombreuses, le risque de comportements imprévisibles est plus élevé.
L’observabilité des agents d’IA fournit des informations essentielles sur ces systèmes multi-agents. Elle aide les développeurs à identifier l’agent ou l’interaction responsable d’un problème et offre une visibilité sur les workflows complexes créés par les agents. Elle permet également d’identifier les comportements et les schémas collectifs susceptibles de s’aggraver et de causer des problèmes à l’avenir.
Par exemple, dans un système de réservation de voyages comportant des agents distincts pour les vols, les hôtels et les locations de voitures, une réservation peut échouer à tout moment. Les outils d’observabilité assurent le suivi de l’intégralité du processus de bout en bout afin d’identifier exactement où et pourquoi l’échec s’est produit.
De nombreuses entreprises utilisent des solutions open source telles qu’IBM BeeAI, LangChain, LangGraph et AutoGen afin de mettre au point des systèmes multi-agents plus rapidement et de manière plus sûre. Ces solutions fournissent un kit de développement logiciel (SDK) avec des outils permettant de créer des agents d’IA et un cadre d’IA agentique, le moteur qui exécute et coordonne les agents.
L’observabilité des agents d’IA consiste à collecter et à analyser des données télémétriques qui reflètent à la fois les indicateurs système traditionnels et les comportements spécifiques à l’IA. Les équipes peuvent ensuite utiliser ces données pour comprendre les décisions des agents, résoudre les problèmes et optimiser les performances.
L’observabilité des agents d’IA utilise les mêmes données télémétriques que les solutions d’observabilité traditionnelles, mais inclut également des points de données supplémentaires propres aux systèmes d’IA générative, tels que l’utilisation des tokens, les interactions avec les outils et les chemins de décision des agents. Ces signaux spécifiques à l’IA s’inscrivent toujours dans le cadre du modèle MELT (indicateurs, événements, journaux, traces).
En plus des indicateurs de performance traditionnels collectés par les outils d’observabilité standard, tels que l’utilisation des ressources CPU, mémoire et réseau, l’observabilité des agents d’IA mesure :
Les tokens sont les unités de texte traitées par les modèles d’IA, généralement des mots ou des parties de mots. Étant donné que les fournisseurs d’IA facturent en fonction de l’utilisation des tokens, le suivi de cet indicateur a un impact direct sur les coûts. Les entreprises ont la possibilité d’optimiser leurs dépenses en surveillant la consommation de tokens. Par exemple, si certaines questions des clients utilisent 10 fois plus de tokens que d’autres, les équipes peuvent repenser la manière dont les agents traitent ces demandes afin de réduire les coûts.
En raison de l’évolution des données du monde réel, les modèles d’IA peuvent perdre en précision au fil du temps. La surveillance des indicateurs clés de dérive du modèle, telles que les changements dans les modèles de réponse ou les variations dans la qualité des résultats, permet aux entreprises de détecter le phénomène rapidement. Par exemple, un agent de détection des fraudes peut devenir moins efficace à mesure que les criminels développent de nouvelles tactiques. L’observabilité signale ce déclin afin que les équipes puissent entraîner à nouveau le modèle avec des jeux de données à jour.
Cet indicateur mesure la qualité des résultats des agents d’IA et vérifie si leurs réponses sont précises, pertinentes et utiles. Il suit la fréquence à laquelle les agents fournissent des informations inexactes ou fantaisistes. Il aide les entreprises à maintenir la qualité du service et à identifier les domaines à améliorer. Par exemple, si les agents ont des difficultés avec les questions techniques, les équipes peuvent élargir leur base de connaissances ou ajouter des outils spécialisés.
Cet indicateur indique le temps nécessaire à un agent d’IA pour répondre aux demandes. Des temps de réponse rapides sont essentiels pour la satisfaction des utilisateurs et les résultats des entreprises. Par exemple, si un assistant commercial met trop de temps à recommander des produits, les clients risquent de partir sans acheter. Le suivi de la latence aide les équipes à identifier les ralentissements et à résoudre les problèmes de performance avant qu’ils n’aient un impact sur les ventes.
Les événements correspondent aux actions significatives que l’agent d’IA effectue pour accomplir une tâche. Ces données renseignent sur le comportement et le processus décisionnel de l’agent, ce qui permet de résoudre les problèmes et d’améliorer les performances.
Voici quelques exemples d’événements liés aux agents d’IA :
Ce terme désigne le cas où un agent d’IA utilise une API pour interagir avec un outil externe tel qu’un moteur de recherche, une base de données ou un service de traduction. Le suivi des appels d’API permet aux entreprises de surveiller l’utilisation des outils et d’identifier les lacunes. Par exemple, si un agent effectue 50 appels d’API pour une tâche qui n’en nécessite que 2 ou 3, les équipes peuvent corriger la logique.
Ce terme désigne le cas où un agent d’IA se sert de grands modèles de langage pour comprendre les demandes, prendre des décisions ou générer des réponses. Le suivi des appels de LLM permet de révéler le comportement, les performances et la fiabilité des modèles qui pilotent les actions des agents d’IA. Par exemple, si un agent d’IA bancaire fournit à un client des informations erronées sur son compte, les équipes peuvent analyser les appels de LLM de l’agent pour identifier le problème, tel que des données obsolètes ou des prompts peu clairs.
Ce phénomène survient lorsqu’un agent tente d’utiliser un outil, mais que celui-ci ne fonctionne pas, par exemple lorsqu’un appel d’API échoue en raison d’un problème réseau ou d’une requête incorrecte. Le suivi de ces échecs améliore la fiabilité des agents et optimise les ressources. Par exemple, si un agent d’assistance ne parvient pas à vérifier le statut d’une commande car les appels à la base de données échouent, les équipes sont immédiatement alertées afin de résoudre les problèmes, tels que les identifiants manquants ou les interruptions de service.
Il s’agit du cas où les agents d’IA transfèrent les demandes qu’ils ne peuvent pas traiter au personnel humain. Ces informations peuvent révéler des lacunes dans les capacités des agents ainsi que les subtilités des interactions avec les clients. Par exemple, si un agent d’IA spécialisé dans les services financiers transfère fréquemment des questions à un humain, cela peut indiquer qu’il a besoin de meilleures données financières d’entraînement ou d’un outil d’investissement spécialisé.
Il s’agit du cas où un problème survient, tel qu’un temps de réponse lent, un accès non autorisé aux données ou des ressources système insuffisantes, et où l’agent d’IA reçoit un avertissement automatique. Les alertes permettent aux équipes de détecter et de résoudre les problèmes en temps réel avant qu’ils n’aient une incidence sur les utilisateurs. Par exemple, une alerte concernant une utilisation élevée de la mémoire permet aux équipes d’ajouter des ressources avant que l’agent ne plante.
Les journaux sont des enregistrements détaillés et chronologiques de chaque événement et action qui se produit pendant le fonctionnement d’un agent d’IA. Ils permettent de créer, pour chaque événement, un enregistrement haute fidélité, milliseconde par milliseconde, accompagné de son contexte.
Exemples de journaux dans l’observabilité des agents d’IA :
Ces journaux documentent chaque interaction entre les utilisateurs et les agents d’IA, notamment les requêtes, l’interprétation des intentions et les résultats. Les entreprises peuvent utiliser ces journaux pour comprendre les besoins des utilisateurs et les performances des agents. Par exemple, si les utilisateurs reformulent plusieurs fois la même question, il est probable que l’agent ne comprenne pas leur intention.
Ces journaux enregistrent chaque échange entre les agents et les LLM, notamment les prompts, les réponses, les métadonnées, les horodatages et l’utilisation des tokens. Ces données révèlent comment les agents d’IA interprètent les requêtes et génèrent des réponses, même lorsque l’agent interprète mal le contexte. Par exemple, si un agent d’IA chargé de la modération de contenu signale à tort du contenu inoffensif tout en passant à côté de contenu préjudiciable, ces journaux peuvent mettre en évidence les schémas erronés à l’origine des erreurs.
Ces journaux enregistrent les outils utilisés par les agents, le moment où ils les utilisent, les commandes qu’ils envoient et les résultats qu’ils obtiennent. Cela permet de remonter à la source des problèmes de performance et des erreurs liées aux outils. Par exemple, si un agent d’IA chargé de l’assistance technique répond lentement à certaines questions, les journaux peuvent révéler qu’il utilise des requêtes de recherche vagues. Les équipes peuvent alors rédiger des prompts plus spécifiques afin d’améliorer les réponses.
Ces journaux enregistrent la manière dont un agent d’IA est parvenu à une décision ou à une action particulière lorsqu’elle est disponible, telle que les actions choisies, les scores, les sélections d’outils et les prompts/résultats, sans impliquer l’accès à un raisonnement caché. Ces données sont essentielles pour détecter les biais et garantir une IA responsable, en particulier à mesure que les agents deviennent plus autonomes.
Par exemple, si un agent d’IA chargé des prêts rejette injustement les demandes provenant de certains quartiers, les journaux de prise de décision peuvent aider à révéler des schémas discriminatoires dans les données d’entraînement. Les équipes peuvent alors entraîner à nouveau le modèle d’IA afin de répondre aux exigences en matière d’équité des prêts.
Les traces enregistrent le « parcours » complet de chaque demande utilisateur, dont toutes les interactions avec les LLM et les outils tout au long du processus.
Par exemple, la trace d’une simple demande d’agent d’IA peut contenir les étapes suivantes.
Les développeurs peuvent ensuite exploiter ces données pour identifier la source des blocages ou des défaillances et mesurer les performances à chaque étape du processus.
Par exemple, si les traces montrent que les recherches sur le Web prennent 5 secondes alors que toutes les autres étapes sont effectuées en quelques millisecondes, les équipes peuvent mettre en place une mise en cache ou utiliser des outils de recherche plus rapides afin d’améliorer le temps de réponse global.
Il existe deux approches courantes pour collecter les données utilisées dans l’observabilité des agents d’IA : l’instrumentation intégrée et les solutions tierces.
Dans la première approche, les données MELT sont collectées via l’instrumentation intégrée d’un cadre d’IA agentique. Ces capacités natives de surveillance et de journalisation capturent et transmettent automatiquement les données télémétriques sur les indicateurs, les événements, les journaux et les traces.
Nombre de grandes entreprises et celles ayant des besoins spécialisés adoptent cette approche, car elle offre une personnalisation approfondie et un contrôle précis de la collecte et de la surveillance des données. Cependant, elle nécessite également un investissement important en matière de développement, de temps et de maintenance continue.
Dans la deuxième approche, les solutions d’observabilité des agents d’IA fournissent des outils et des plateformes spécialisés pour collecter et analyser les données MELT. Les entreprises bénéficient ainsi d’un déploiement rapide et simple grâce à des fonctionnalités et des intégrations préconfigurées qui réduisent le besoin d’expertise interne. Toutefois, le recours à une solution tierce peut créer une dépendance vis-à-vis d’un fournisseur et limiter les options de personnalisation pour répondre aux besoins très spécifiques ou de niche d’une entreprise.
Certaines entreprises choisissent de combiner des instruments intégrés et des fournisseurs de solutions tiers afin de collecter des données télémétriques sur les agents d’IA.
Ces deux approches s’appuient généralement sur OpenTelemetry (OTel), un outil d’observabilité open source hébergé sur la plateforme web GitHub.
OTel s’est imposé comme le cadre de référence pour la collecte et la transmission des données télémétriques, car il propose une approche non liée à un fournisseur, ce qui s’avère particulièrement utile dans les systèmes d’IA complexes, où les composants de différents fournisseurs doivent fonctionner ensemble de manière harmonieuse. Il permet de garantir la cohérence des flux de données d’observabilité entre les agents, les différents modèles, les outils externes et les systèmes de génération augmentée de récupération (RAG).
Une fois que les entreprises ont collecté les données MELT grâce à l’approche retenue, elles peuvent les utiliser de plusieurs manières.
Voici quelques exemples des cas d’utilisation les plus courants :
Les équipes utilisent des tableaux de bord afin de consulter en temps réel les indicateurs, les flux d’événements et les cartes de traces. Cette vue consolidée permet d’identifier les modèles et les anomalies dans l’ensemble de l’écosystème des agents d’IA. Par exemple, un tableau de bord peut révéler que les agents du service client ralentissent chaque après-midi à 15 heures, ce qui amène les équipes à en rechercher la cause.
Lorsque des problèmes surviennent, les équipes établissent des corrélations entre les données des indicateurs, des événements, des journaux et des traces afin d’identifier les points de défaillance exacts. Par exemple, le fait de relier une augmentation du taux d’erreurs (indicateur) à des défaillances d’API spécifiques (événements) et d’examiner les journaux de décision éclaire les équipes sur le comportement inattendu d’un agent.
Les entreprises utilisent les informations issues des données d’observabilité pour améliorer l’efficacité des agents. Elles peuvent réduire l’utilisation des tokens, optimiser la sélection des outils ou restructurer les workflows des agents sur la base de l’analyse des traces. Par exemple, une équipe peut découvrir qu’un agent effectue trois recherches dans la même base de données au lieu d’enregistrer le résultat après la première recherche.
Les équipes mettent en place des boucles de rétroaction, où les informations issues de l’observabilité permettent d’affiner les agents. L’examen régulier des données MELT permet d’identifier les problèmes récurrents et les cas limites, tels que les agents qui ont des difficultés à traiter les demandes de remboursement ou qui échouent lorsque les utilisateurs posent des questions qui ne sont pas couvertes par la documentation. Ces problèmes peuvent indiquer la nécessité d’élargir les jeux de données d’entraînement et de mettre à jour la documentation.
Considérons comment un détaillant en ligne pourrait utiliser l’observabilité afin d’identifier et de corriger un problème lié à un agent d’IA qui interagit avec les clients.
Tout d’abord, le tableau de bord d’observabilité indique une augmentation des commentaires négatifs des clients concernant un agent d’IA particulier.
Lorsque les équipes examinent les journaux de l’agent, elles découvrent qu’il utilise un appel d’outil de base de données pour répondre aux questions des clients. Cependant, les réponses contiennent des informations obsolètes ou incorrectes.
Une trace, c’est-à-dire l’enregistrement complet du processus étape par étape suivi par l’agent pour traiter la question du client, identifie l’appel d’outil qui a renvoyé les données obsolètes. Une analyse plus approfondie révèle le jeu de données précis au sein de la base de données qui contient les informations obsolètes.
Grâce à ces informations, le détaillant en ligne met à jour ou supprime le jeu de données défectueux. L’équipe met également à jour la logique de l’agent afin de valider l’exactitude des données avant de répondre aux clients. En conséquence, l’agent fournit désormais des réponses précises et utiles qui améliorent la satisfaction des clients.
Bien que la plus grande partie de l’observabilité des agents d’IA consiste encore à transmettre les alertes et les anomalies aux membres de l’équipe pour qu’ils les examinent et les résolvent manuellement, l’automatisation alimentée par l’IA transforme de plus en plus la manière dont les entreprises collectent, analysent et exploitent les données télémétriques.
Les solutions d’observabilité avancées utilisent désormais ces technologies pour surveiller, déboguer et optimiser les agents d’IA avec peu ou pas d’intervention humaine. Les cas d’utilisation émergents dans ce domaine comprennent :
Automatisez la fourniture de logiciels pour toutes les applications sur site, dans le cloud ou sur mainframe.
Utilisez les logiciels et outils DevOps pour créer, déployer et gérer des applications cloud natives sur de nombreux appareils et environnements.
Déverrouillez de nouvelles fonctionnalités et stimulez l’agilité de votre entreprise grâce aux services de conseil d’IBM Cloud. Découvrez comment co-créer des solutions, accélérer la transformation numérique et optimiser les performances grâce à des stratégies de cloud hybride et à des partenariats d’experts.
1 AI Q4Pulse Survey: Key Findings, KPMG, novembre 2024
2 Top Strategic Technology Trends for 2025: Agentic AI, Gartner, octobre 2024