La creciente prevalencia de los agentes de IA introduce importantes complejidades, como el reto de evaluar el rendimiento, la fiabilidad, la seguridad y el comportamiento ético de estos agentes autónomos de IA.

Las buenas prácticas de evaluación de la IA agéntica pueden reducir la exposición a diversos riesgos predecibles y desconocidos. Sin embargo, un seguimiento eficaz del rendimiento puede suponer un reto para las organizaciones y los desarrolladores, ya que los agentes exigen observar no solo las salidas, sino también los comportamientos, las decisiones y las intenciones. Con watsonx.governance, las organizaciones pueden evaluar el rendimiento de los agentes utilizando:

Métricas de evaluación con puntos de referencia : ayudan a evaluar la competencia de los agentes en general y en diversas tareas.

: ayudan a evaluar la competencia de los agentes en general y en diversas tareas. Análisis de causa raíz : identifica las razones subyacentes de las cadenas de decisiones de seguimiento del rendimiento deficientes, no solo el resultado final para informar mejoras para, por ejemplo, la falta de datos imparciales.

: identifica las razones subyacentes de las cadenas de decisiones de seguimiento del rendimiento deficientes, no solo el resultado final para informar mejoras para, por ejemplo, la falta de datos imparciales. Feedback humano o red teaming: permite a las pymes observar y verificar las acciones del agente (human in the loop) y probar la susceptibilidad de los agentes.

A partir de marzo, watsonx.governance introdujo estas nuevas capacidades para admitir métricas especializadas adicionales. Las nuevas métricas de evaluación de la IA agéntica de RAG ya están disponibles. El conjunto completo de métricas para evaluar el rendimiento incluye HAP, PII, inyección de instrucciones, relevancia contextual, fidelidad, similitud de respuestas, tasa de aciertos, precisión media, clasificación recíproca y solicitudes fallidas, entre otras, para garantizar una evaluación exhaustiva de la eficacia de nuestro sistema. Esto ayuda a confirmar que los agentes actúan de manera adecuada y detectan señales de alerta, añadiendo las medidas de protección necesarias para regular el comportamiento de los agentes con el fin de alcanzar el resultado deseado.

Estas métricas estarán disponibles añadiendo un decorador de Python simple al nodo de la herramienta en una aplicación LangGraph. La adición de este decorador dará como resultado que la métrica se calcule como un subproducto de la ejecución del nodo en la aplicación agéntica. La métrica calculada se puede utilizar dentro de la aplicación para tomar decisiones de flujo. Por ejemplo, si el contexto obtenido de la base de datos vectorial no es relevante para la consulta del usuario, no genere una respuesta, pero intente una búsqueda web para obtener el contexto correcto. Estos evaluadores no solo son fáciles de usar, sino que también son eficientes e incluyen tanto métricas de código abierto como métricas avanzadas de IBM. Por lo tanto, proporcionan una amplia gama de capacidades de evaluación y son adecuados para diversos casos de uso y tipos de tareas.