Explore cómo VAKRA puede evaluar el comportamiento de los agentes de principio a fin, donde las tareas de múltiples pasos abarcan diversas fuentes de datos y requieren el cumplimiento de las directrices de uso de herramientas.
VAKRA (evaluación agentes de recuperación de conocimientos y API mediante diálogos de múltiples saltos y múltiples fuentes) es una referencia ejecutable basada en herramientas, diseñada para evaluar lo bien que razonan los agentes de IA de principio a fin en entornos de tipo empresarial.
En lugar de probar habilidades aisladas, VAKRA mide el razonamiento compositivo a través de API y documentos, utilizando trazas de ejecución completas para evaluar si los agentes pueden completar flujos de trabajo de múltiples pasos de manera fiable, y no solo pasos individuales.
VAKRA proporciona un entorno ejecutable en el que los agentes interactúan con más de 8000 API alojadas localmente respaldadas por bases de datos reales que abarcan 62 ámbitos, junto con colecciones de documentos adaptadas a cada ámbito. Las tareas pueden requerir cadenas de razonamiento de 3 a 7 pasos que combinan la interacción estructurada de API con la recuperación no estructurada bajo restricciones de uso de herramientas de lenguaje natural.
Los entornos empresariales no se asemejan a sesiones de preguntas y respuestas de una sola ronda ni a llamadas a funciones puntuales. Los flujos de trabajo en áreas como la atención al cliente, la inteligencia empresarial y el cumplimiento exigen que los agentes encadenen decisiones, concilien esquemas incompatibles y sigan políticas de uso de herramientas expresadas en lenguaje natural. Los fallos surgen no solo durante la invocación de las herramientas, sino también en el razonamiento mediado por el lenguaje entre herramientas, lo que incluye la desambiguación de entidades, la vinculación entre fuentes y la alineación de parámetros o esquemas.
Tomemos como ejemplo una reclamación por un retraso en un pedido en una operación de comercio electrónico. Para resolverla, un agente debe relacionar correctamente la información de distintos sistemas: vincular los registros de los clientes, interpretar la documentación del transportista, coordinar los identificadores entre las API logísticas y aplicar las políticas expresadas en lenguaje natural. Cada decisión depende de la anterior, lo que requiere un razonamiento continuo a través de herramientas, fuentes de datos y restricciones.
VAKRA está diseñado para detectar exactamente en qué momentos ese razonamiento de varios pasos tiene éxito o falla, reflejando así las realidades a las que se enfrentan los agentes en entornos de producción.
Inspirándose en situaciones como el ejemplo anterior de la reclamación por un pedido retrasado, VAKRA organiza las tareas en tres niveles:
VAKRA se ejecuta en un entorno autoalojado: las API, respaldadas por bases de datos persistentes e índices de recuperación, se exponen a través de una interfaz estándar, y los agentes solo pueden interactuar mediante estas herramientas. La evaluación reproduce trayectorias completas para verificar cada paso intermedio (no solo las respuestas finales), lo que permite identificar con precisión dónde se produjo el fallo en el razonamiento: desambiguación de entidades, mapeo entre fuentes o interpretación de políticas.
VAKRA está diseñado para tres tipos de usuarios:
VAKRA ya está disponible públicamente. El código fuente, las especificaciones de las tareas y el marco de evaluación se han publicado en código abierto en GitHub, lo que incluye todo lo necesario para reproducir los resultados y ejecutar nuevos agentes de principio a fin, entre lo que se incluye:
Además, vamos a poner en marcha un Hugging Face Space que albergará la tabla de clasificación pública de VAKRA. Invitamos a investigadores, profesionales y desarrolladores a que envíen sus resultados y aporten comentarios y ampliaciones.
Autores adicionales:
Los autores agradecen a sus colegas de los equipos de investigación e ingeniería sus valiosos comentarios, conversaciones y apoyo en el desarrollo de esta referencia.
Queremos expresar nuestro especial agradecimiento a nuestros becarios, Raavi Gupta y Abhinav Jain, por su labor en la elaboración y el desarrollo de la referencia. Asimismo, agradecemos a Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal y Segev Shlomov por sus contribuciones y perspectivas.