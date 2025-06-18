La creciente prevalencia de los agentes de IA introduce complejidades significativas, como el desafío de evaluar el rendimiento, la confiabilidad, la seguridad y el comportamiento ético de estos agentes autónomos de agente de IA.

Las mejores prácticas de evaluación de la IA agéntica pueden reducir la exposición a diversos riesgos predecibles y desconocidos. Sin embargo, el seguimiento eficaz del rendimiento puede ser un desafío para las organizaciones y los desarrolladores, ya que los agentes exigen observar no solo los resultados, sino también los comportamientos, las decisiones y las intenciones. Con watsonx.governance, las organizaciones pueden evaluar el rendimiento de los agentes mediante:

Métricas de evaluación con puntos de referencia : ayuda a evaluar la competencia del agente en general y en diversas tareas.

: ayuda a evaluar la competencia del agente en general y en diversas tareas. Análisis de causa principal : identifica las razones subyacentes de las cadenas de decisiones de seguimiento del rendimiento deficientes, no solo el resultado final para informar mejoras para, por ejemplo, la falta de datos sin sesgo.

: identifica las razones subyacentes de las cadenas de decisiones de seguimiento del rendimiento deficientes, no solo el resultado final para informar mejoras para, por ejemplo, la falta de datos sin sesgo. Retroalimentación humana o equipo rojo: permite a las expertos observar y verificar las acciones del agente (humano en el bucle) y evaluar la susceptibilidad de los agentes.

A partir de marzo, watsonx.governance introdujo estas nuevas capacidades para admitir métricas especializadas adicionales. Las nuevas métricas de evaluación de IA agéntica de RAG ya están disponibles. El conjunto integral de métricas para evaluar el rendimiento incluye HAP, PII, inyección de instrucciones, relevancia del contexto, fidelidad, similitud de respuestas, tasa de aciertos, precisión promedio, rango recíproco y solicitudes fallidas, entre otras, para garantizar una evaluación exhaustiva de la eficacia de nuestro sistema. Esto ayuda a confirmar que los agentes actúen de manera adecuada y a detectar señales de advertencia al agregar las medidas de seguridad necesarias para regular el comportamiento de los agentes hacia el resultado deseado.

Estas métricas estarán disponibles agregando un decorador de Python simple al nodo de la herramienta en una aplicación LangGraph. Agregar este decorador dará como resultado que la métrica se calcule como un subproducto de la ejecución del nodo en la aplicación agéntica. La métrica calculada se puede utilizar dentro de la aplicación para tomar decisiones de flujo. Por ejemplo, si el contexto obtenido de la base de datos vectorial no es relevante para la consulta del usuario, no genere una respuesta, pero intente una búsqueda web para obtener el contexto correcto. Estos evaluadores no solo son fáciles de usar, sino que también son eficientes e incluyen tanto métricas de código abierto como métricas avanzadas de IBM. Por lo tanto, proporcionan una amplia gama de capacidades para la evaluación y son adecuados para diversos casos de uso y tipos de tareas.