Otra innovación del equipo de IBM es el "Evaluation Studio". Esta característica proporciona dos capacidades clave:

Optimización de las instrucciones comparando diferentes versiones de las instrucciones una al lado de la otra y Seguimiento de la experimentación para agentes

Evaluation Studio ayuda a los desarrolladores a evaluar diferentes versiones de la instrucción en un conjunto de datos y comparar los resultados en una interfaz de usuario intuitiva. También proporciona soporte para una clasificación personalizada única en la que los usuarios pueden crear un esquema de clasificación personalizado seleccionando métricas y asignándoles ponderaciones en función de la importancia. Esto ayuda a los usuarios a optimizar fácilmente una instrucción que se utilizará en una herramienta o agente.

watsonx.governance, evaluation studio, también admite el seguimiento de experimentos, que es una potente herramienta para crear mejores sistemas de IA agéntica. Puede configurar rápidamente experimentos, probar diferentes variantes (del agente) y etiquetarlos con detalles como el modelo, el recuperador o la instrucción que utilizó. Las comparaciones en paralelo basadas en la latencia, el coste y la calidad (como la fidelidad) facilitan ver qué funciona mejor. Importante, la plataforma le ayuda a almacenar el código exacto para cada ejecución, lo que libera a los desarrolladores del tiempo de guardar cada versión y les permite centrarse en crear y mejorar el agente.