L’évaluation d’un agent IA nécessite une approche structurée dans un cadre des exigences d’observabilité formel plus large. Les méthodes d’évaluation (ou éval) diffèrent considérablement, mais le processus implique généralement les étapes suivantes :
1. Définir les objectifs de l’évaluation et les indicateurs
Quel est l’objectif de l’agent ? Quels sont les résultats attendus ? Comment l’IA est-elle utilisée dans des scénarios réels ?
Voir « Indicateurs d’évaluation des agents IA » pour connaître certains des indicateurs les plus populaires, qui entrent dans les catégories suivantes : performance, interaction et expérience, IA responsable, système et efficacité et indicateurs spécifiques aux tâches.
2. Collecter des données et préparer les tests
Pour évaluer efficacement l’agent IA, utilisez des jeux de données d’évaluation représentatifs, y compris diverses entrées qui reflètent des scénarios réels et des scénarios de test qui simulent des conditions en temps réel. Les données annotées représentent une vérité terrain par rapport à laquelle les modèles IA peuvent être testés.
Planifiez chaque étape potentielle du workflow d’un agent, qu’il s’agisse d’appeler une API, de transmettre des informations à un deuxième agent ou de prendre une décision. En décomposant le workflow de l’IA en éléments individuels, vous pouvez plus facilement évaluer la manière dont l’agent gère chaque étape. Tenez également compte de l’approche globale de l’agent tout au long du workflow, c’est-à-dire le cheminement qu’il suit pour résoudre un problème en plusieurs étapes.
3. Réaliser des tests
Exécutez l’agent IA dans différents environnements, si possible avec différents LLM, et suivez la performance. Analysez les étapes des agents individuels et évaluez-les. Par exemple, surveillez l’utilisation par l’agent IA de la génération augmentée de récupération (RAG) pour récupérer des informations à partir d’une base de données externe, ou la réponse à un appel d’API.
4. Analyser les résultats
Comparez les résultats aux critères de réussite prédéfinis s’il y en a ; si ce n’est pas le cas, utilisez un LLM en tant que juge (voir ci-dessous). Évaluez les compromis en mettant en balance les performances et les considérations éthiques.
L’agent a-t-il choisi le bon outil ? A-t-il appelé la bonne fonction ? A-t-il transmis la bonne information dans le bon contexte ? A-t-il produit une réponse factuellement correcte ?
L’appel de fonctions et l’utilisation d’outils sont une capacité fondamentale pour construire des agents intelligents capables de fournir des réponses en temps réel et contextuellement précises. Envisagez d’utiliser une évaluation et une analyse dédiées utilisant une approche basée sur des règles, ainsi qu’une évaluation sémantique utilisant un LLM en tant que juge.
Le LLM-as-a-judge, ou LL en tant que juge, est un système d’évaluation automatisé qui évalue la performance des agents IA à l’aide de critères et d’indicateurs prédéfinis. Au lieu de s’appuyer uniquement sur des examinateurs humains, un LLM en tant que juge applique des algorithmes, des heuristiques ou des modèles de notation basés sur l’IA pour évaluer les réponses, les décisions ou les actions d’un agent IA.
Voir « Indicateurs d’évaluation de l’appel de fonctions » ci-dessous.
5. Optimiser et itérer
Les développeurs peuvent désormais modifier les prompts, déboguer les algorithmes, rationaliser la logique ou configurer les architectures agentiques en fonction des résultats de l’évaluation. Par exemple, les cas d’utilisation du support client peuvent être améliorés en accélérant la génération de réponses et les délais d’exécution des tâches. L’efficacité du système peut être optimisée en termes d’évolutivité et d’utilisation des ressources.