¿Qué es la evaluación de agentes de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

La evaluación de agentes de IA se refiere al proceso de evaluar y comprender el rendimiento de un agente de IA en la ejecución de tareas, la toma de decisiones y la interacción con los usuarios. Dada su autonomía inherente, la evaluación de los agentes es esencial para promover su correcto funcionamiento. Los agentes de IA deben comportarse de acuerdo con la intención de sus diseñadores, ser eficientes y adherirse a ciertos principios de IA ética para satisfacer las necesidades de la organización. La evaluación ayuda a verificar que los agentes cumplan con dichos requisitos y también a mejorar la calidad de los agentes al identificar áreas de refinamiento y optimización.

A menudo, se evalúan a los agentes de IA generativa en tareas tradicionales de texto a texto, similares a los puntos de referencia estándar de modelos de lenguaje extensos (LLM), donde se utilizan comúnmente métricas, como la coherencia, la relevancia y la fidelidad del texto generado. Sin embargo, los agentes de IA generativa suelen realizar operaciones más amplias y complejas, incluido el razonamiento de varios pasos, la llamada de herramientas y la interacción con sistemas externos, que requieren una evaluación más completa. Incluso cuando la salida final es texto, puede ser el resultado de acciones intermedias, como consultar una base de datos o invocar a una API, cada una de las cuales debe evaluarse por separado.

En otros casos, es posible que el agente no produzca ningún resultado textual, sino que complete una tarea, como actualizar un registro o enviar un mensaje, donde la eficacia se mide a través de la ejecución correcta. Por lo tanto, la evaluación debe ir más allá de la calidad del texto a nivel superficial y evaluar el comportamiento general del agente, la eficacia de la tarea y la alineación con la intención del usuario. Además, para evitar el desarrollo de agentes altamente capaces, pero que consumen muchos recursos, lo que limita su despliegue práctico, se deben incluir mediciones de costos y eficiencia como parte de la evaluación.

Además de medir el rendimiento de las tareas, la evaluación de los agentes de IA debe priorizar dimensiones críticas como la seguridad, la confiabilidad, el cumplimiento de políticas y la mitigación de sesgos. Estos factores son esenciales para desplegar agentes en entornos reales de alto riesgo. La evaluación ayuda a garantizar que los agentes eviten comportamientos dañinos o inseguros, mantengan la confianza del usuario a través de resultados predecibles y verificables, y resistan la manipulación o el uso indebido.

Para lograr estos objetivos funcionales (calidad, costo) y no funcionales (seguridad), los métodos de evaluación pueden incluir pruebas de punto de referencia, evaluaciones humanas en el circuito, pruebas A/B y simulaciones del mundo real. Al evaluar sistemáticamente a los agentes de IA, las organizaciones pueden mejorar sus capacidades de IA, optimizar los esfuerzos de automatización y mejorar las funciones comerciales, al tiempo que minimizan los riesgos asociados con la IA agéntica poco segura y confiable o con sesgo.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona la evaluación de agentes de IA

La evaluación de un agente de IA requiere un enfoque estructurado dentro de un marco formal más amplio de observabilidad. Los métodos de evaluación difieren ampliamente, pero el proceso suele implicar los siguientes pasos:

1. Definir objetivos y métricas de evaluación

¿Cuál es el propósito del agente? ¿Cuáles son los resultados esperados? ¿Cómo se utiliza la IA en escenarios del mundo real?

Consulte “Métricas comunes de evaluación de agentes de IA” para conocer algunas de las métricas más populares, que se incluyen en las categorías de rendimiento, interacción y experiencia, IA responsable, sistema y eficiencia, así como métricas específicas de tareas.

2. Recopilar datos y prepararse para las pruebas

Para evaluar el agente de IA de manera efectiva, utilice conjuntos de datos de evaluación representativos, incluidas diversas entradas que reflejen escenarios del mundo real y escenarios de prueba que simulen condiciones en tiempo real. Los datos anotados representan una verdad fundamental con la que se pueden probar los modelos de IA.

Mapee cada paso potencial del flujo de trabajo de un agente, ya sea llamar a una API, pasar información a un segundo agente o tomar una decisión. Al dividir el flujo de trabajo de IA en partes individuales, es más fácil evaluar cómo el agente maneja cada paso. Considere también el Approach del agente en todo el flujo de trabajo o, en otras palabras, la ruta de ejecución que toma el agente para resolver un problema de varios pasos.

3. Realizar pruebas

Ejecute el agente de IA en diferentes entornos, potencialmente con diferentes LLM como columna vertebral, y realice un seguimiento del rendimiento. Desglose los pasos individuales de los agentes y evalúe cada uno. Por ejemplo, supervise el uso que hace el agente de la generación aumentada por recuperación (RAG) para recuperar información de una base de datos externa, o la respuesta a una llamada a la API.

4. Analizar los resultados

Compare los resultados con criterios de éxito predefinidos si existen y, de no ser así, utilice LLM como juez (consulte a continuación). Evalúe las compensaciones equilibrando el rendimiento con las consideraciones éticas.

¿El agente eligió la herramienta correcta? ¿Llamó a la función correcta? ¿Transmitió la información correcta en el contexto adecuado? ¿Produjo una respuesta objetivamente correcta?

El uso de herramientas/llamadas de funciones es una habilidad fundamental para crear agentes inteligentes capaces de ofrecer respuestas contextualmente precisas en tiempo real. Considere una evaluación dedicada y análisis utilizando un enfoque basado en reglas junto con una evaluación semántica utilizando LLM-as-a-judge.

LLM-as-a-judge (LLM como juez) es un sistema de evaluación automatizado que evalúa el rendimiento de los agentes de IA mediante criterios y métricas predefinidos. En lugar de depender únicamente de revisores humanos, un LLM-as-a-judge aplica algoritmos, heurísticos o modelos de puntaje basados en IA para evaluar las respuestas, decisiones o acciones de un agente.

Consulte “Métricas de evaluación de llamadas a funciones” a continuación.

5. Optimizar e iterar

Los desarrolladores ahora pueden ajustar las instrucciones, depurar algoritmos, optimizar la lógica o configurar arquitecturas de agentes basadas en los resultados de la evaluación. Por ejemplo, los casos de uso de atención al cliente pueden mejorarse acelerando la generación de respuestas y los tiempos de finalización de tareas. La eficiencia del sistema se puede optimizar para la escalabilidad y el uso de recursos.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones reales

Descubra cómo la IA orientada a objetivos y basada en utilidades se adapta a los flujos de trabajo y entornos complejos.

Métricas comunes para la evaluación de los agentes de IA

Los desarrolladores quieren que los agentes trabajen según lo previsto. Y dada la autonomía de los agentes de IA, es importante comprender el "por qué" detrás de las decisiones que toma la IA. Revise algunas de las métricas más comunes que los desarrolladores pueden usar para evaluar con éxito a sus agentes.

Específicas de la tarea

Dependiendo de la aplicación de IA, se pueden aplicar métricas de evaluación específicas para la calidad:

  • LLM como juez evalúa la calidad de la generación de texto de IA independientemente de la disponibilidad de datos reales.
  • BLEU y ROUGE son alternativas de menor costo que evalúan la calidad del texto generado por IA comparándolo con el texto escrito por humanos.

Otras métricas funcionales para evaluar el rendimiento de los agentes de IA incluyen:

  • La tasa de éxito/finalización de tareas mide la proporción de tareas u objetivos que el agente completa correctamente o satisfactoriamente del número total
    intentado.
  • La tasa de error es el porcentaje de resultados incorrectos u operaciones fallidas.
  • El costo mide el uso de recursos, como tokens o tiempo de cómputo.
  • La latencia es el tiempo que tarda un agente de IA en procesar y devolver resultados.

IA ética y responsable

  • La vulnerabilidad de inyección de instrucciones evalúa la tasa de éxito de las instrucciones adversas, alterando el comportamiento previsto del agente.
  • Latasa de cumplimiento de la política es un porcentaje de respuestas que cumplen con políticas organizacionales o éticas predefinidas.
  • La puntuación de sesgo y equidad detecta disparidades en la toma de decisiones de IA entre diferentes grupos de usuarios.

Interacción y experiencia del usuario

Para los agentes de IA que interactúan con los usuarios, como chatbots y los asistentes virtuales, los evaluadores analizan estas métricas.

  • La puntuación de satisfacción del usuario (CSAT) mide qué tan satisfechos están los usuarios con las respuestas de IA.

  • La tasa de interacción rastrea la frecuencia con la que los usuarios interactúan con el sistema de IA.

  • El flujo conversacional evalúa la capacidad de la IA para mantener conversaciones coherentes y significativas.

  • La tasa de finalización de tareas mide la eficacia con la que el agente de IA ayuda a los usuarios a completar una tarea.

Llamada de función

Estas métricas basadas en reglas ayudan a evaluar la eficacia operativa de los sistemas impulsados por IA:

  • Nombre de función incorrecto: el agente intentó llamar a una función que existe, pero usó un nombre o una ortografía incorrectos, lo que provocó una falla en la ejecución.
  • Faltan parámetros requeridos: el agente inició una llamada de función, pero omitió uno o más parámetros que son necesarios para que la función funcione.
  • Tipo de valor de parámetro incorrecto: el agente proporcionó un valor de parámetro, pero su tipo (cadena, número, booleano) no coincidía con lo que esperaba la función.
  • Valores permitidos: el agente utilizó un valor que está fuera del conjunto de valores aceptados o predefinidos para un parámetro específico.
  • Parámetro alucinado: el agente incluyó un parámetro en la llamada a la función que no está definido ni es compatible con la especificación de la función.

Estas son algunas métricas semánticas basadas en LLM como juez.

  • La base de valores de parámetros ayuda a garantizar que cada valor de parámetro se derive directamente del texto del usuario, el historial de contexto (como las salidas anteriores de las llamadas a la API) o los valores predeterminados de la especificación de la API.
  • La transformación de unidades verifica las conversiones de unidades o formatos (más allá de los tipos básicos) entre los valores del contexto y los valores de los parámetros de la llamada a la herramienta.
Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione poderosos asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agentes de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que pueda confiar.

    Explorar las soluciones de agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

    Explorar los servicios de inteligencia artificial
    Dé el siguiente paso

    Ya sea que elija personalizar aplicaciones y habilidades predefinidas o crear y desplegar servicios agénticos personalizados utilizando un estudio de IA, la plataforma IBM watsonx responde a sus necesidades.

    Explore watsonx Orchestrate Explore watsonx.ai