La prévalence croissante des agents d'IA introduit des complexités importantes, telles que le défi d'évaluer la performance, la fiabilité, la sécurité et le comportement éthique de ces agents d'IA autonomes.

Les bonnes pratiques d’évaluation de l’IA agentique peuvent réduire l’exposition à divers risques, prévisibles et inconnus. Cependant, un suivi efficace de la performance peut constituer un défi pour les entreprises et les développeurs, car les agents exigent d'observer non seulement la production, mais aussi les comportements, les décisions et les intentions. Avec watsonx.governance, les entreprises peuvent évaluer les performances des agents en utilisant :

Indicateurs d’évaluation avec points de référence : permettent d’évaluer les compétences globales des agents et dans différentes tâches.

: permettent d’évaluer les compétences globales des agents et dans différentes tâches. Analyses des causes racines : identifient les raisons sous-jacentes des mauvaises chaînes de décision en matière de suivi des performances, et pas seulement le résultat final pour apporter des améliorations, par exemple : manque de données non biaisées.

: identifient les raisons sous-jacentes des mauvaises chaînes de décision en matière de suivi des performances, et pas seulement le résultat final pour apporter des améliorations, par exemple : manque de données non biaisées. Commentaires humains ou red teaming : permettent aux PME d'observer et de vérifier les actions de l'agent (humain dans la boucle) et de tester les agents pour déceler des vulnérabilités.

Depuis mars, watsonx.governance a introduit ces nouvelles capacités pour prendre en charge des indicateurs spécialisés supplémentaires. Les nouveaux indicateurs d’évaluation de l’IA agentique RAG sont désormais disponibles. L'ensemble complet d'indicateurs pour évaluer la performance, notamment HAP, PII, l'injection de prompt, la pertinence du contexte, la fidélité, la similarité des réponses, la pertinence des réponses, le taux de réussite, la précision moyenne, le classement mutuel et les demandes infructueuses, entre autres, afin de garantir une évaluation approfondie de l'efficacité de notre système. Cela permet de confirmer que les agents agissent de manière appropriée et de détecter les signes d'alerte en ajoutant les garde-fous nécessaires pour réguler le comportement des agents en fonction des résultats souhaités.

Ces indicateurs seront disponibles en ajoutant un simple décorateur python au nœud de l'outil dans une application LangGraph. L'ajout de ce décorateur entraînera le calcul de cet indicateur en tant que sous-produit de l'exécution du nœud dans l'application agentique. Le calcul peut alors être utilisé dans l'application pour prendre des décisions concernant le flux. Par exemple, si le contexte extrait de la base de données vectorielle n’est pas pertinent pour la requête de l’utilisateur, ne générez pas de réponse, mais lancez une recherche sur le Web pour récupérer le bon contexte. Ces évaluateurs ne sont pas seulement faciles à utiliser, ils sont également efficaces et comprennent à la fois des indicateurs open source et des indicateurs avancés d’IBM. Ils offrent donc un large éventail de capacités d’évaluation et conviennent à différents cas d’utilisation et types de tâches.