Autre innovation de l’équipe IBM, le « studio d’évaluation ». Cette fonctionnalité offre deux capacités clés :

L’optimisation des prompts en comparant différentes versions des prompts côte à côte et Le suivi des expérimentations pour les agents

Le studio d’évaluation aide les développeurs à évaluer différentes versions du prompt sur un jeu de données et à comparer les résultats dans une interface utilisateur intuitive. Il prend également en charge un classement personnalisé unique où les utilisateurs peuvent créer un système de classement personnalisé en sélectionnant des indicateurs et en leur attribuant des pondérations en fonction de leur importance. Cela permet aux utilisateurs d’optimiser facilement un prompt qui doit être utilisé dans un outil ou un agent.

Le studio d’évaluation watsonx.governance prend également en charge le suivi des expériences, un outil puissant permettant de créer de meilleurs systèmes d’IA agentique. Vous pouvez rapidement configurer des expériences, essayer différentes variantes (de l’agent) et les étiqueter avec des détails tels que le modèle, le récupérateur ou le prompt que vous avez utilisés. Les comparaisons côte à côte basées sur la latence, le coût et la qualité (par exemple, la fidélité) facilitent l’identification de ce qui fonctionne le mieux. Il est important de noter que la plateforme vous aide à enregistrer le code exact pour chaque exécution, ce qui libère du temps pour les développeurs et leur permet de se concentrer sur la création et l’amélioration de l’agent.