Explore cómo VAKRA puede evaluar el comportamiento integral de los agentes, donde las tareas de varios pasos abarcan diversas fuentes de datos y requieren el cumplimiento de las pautas de uso de herramientas.
VAKRA (evaluación de API y agentes de recuperación de conocimiento mediante diálogos multi-hop y de múltiples fuentes) es un punto de referencia ejecutable basado en herramientas, diseñado para evaluar qué tan bien razonan los agentes de IA de extremo a extremo en entornos de tipo empresarial.
En lugar de probar habilidades aisladas, VAKRA mide el razonamiento composicional en API y documentos utilizando seguimientos de ejecución completos para evaluar si los agentes pueden completar de manera confiable flujos de trabajo de varios pasos, no solo pasos individuales.
VAKRA proporciona un entorno ejecutable donde los agentes interactúan con más de 8000 API alojadas localmente respaldadas por bases de datos reales que abarcan 62 dominios, junto con colecciones de documentos alineadas con el dominio. Las tareas pueden requerir cadenas de razonamiento de entre 3 y 7 pasos que combinen la interacción estructurada con una API y la recuperación de información no estructurada, bajo las restricciones propias del uso de herramientas en lenguaje natural.
Los entornos empresariales no se asemejan a preguntas y respuestas de un solo turno o llamadas de función únicas. Los flujos de trabajo en áreas como atención al cliente, business intelligence y cumplimiento requieren que los agentes encadenen decisiones, concilien esquemas no coincidentes y sigan las políticas de uso de herramientas expresadas en lenguaje natural. Las fallas surgen no solo durante la invocación de herramientas, sino también en el razonamiento mediado por el lenguaje entre herramientas, incluida la desambiguación de entidades, la conexión a tierra entre fuentes y la alineación de parámetros o esquemas.
Considere una queja de pedido retrasado en una operación de comercio electrónico. Para resolverlo, un agente debe conectar correctamente la información entre sistemas: vincular registros de clientes, interpretar la documentación del transportista, alinear identificadores entre API logísticas y aplicar políticas expresadas en lenguaje natural. Cada decisión depende de la anterior, lo que requiere un razonamiento sostenido entre herramientas, fuentes de datos y restricciones.
VAKRA está diseñado para mostrar exactamente donde dicho razonamiento de múltiples pasos tiene éxito o fracasa, reflejando las realidades que enfrentan los agentes en los entornos de producción.
Con base en escenarios como el ejemplo anterior de queja por pedido retrasado, VAKRA organiza las tareas en tres niveles:
VAKRA se ejecuta en un entorno autohospedado: las API respaldadas por bases de datos persistentes e índices de recuperación se exponen a través de una interfaz estándar, y los agentes solo pueden interactuar a través de estas herramientas. La evaluación repite trayectorias completas para verificar cada paso intermedio, no solo las respuestas finales, para que pueda identificar dónde falló el razonamiento: desambiguación de entidades, mapeo de fuentes cruzadas o interpretación de políticas.
VAKRA está diseñado para tres usuarios diferentes:
VAKRA está disponible públicamente hoy. El código fuente, las especificaciones de tareas y el arnés de evaluación son de código abierto en Github, que incluye todo lo necesario para reproducir resultados y ejecutar nuevos agentes de extremo a extremo, incluyendo:
También estamos lanzando un Hugging Face Space que albergará la tabla de clasificación pública de VAKRA. Invitamos a investigadores, profesionales y desarrolladores a enviar resultados y contribuir con feedback y extensiones.
Autores adicionales:
Los autores agradecen a sus colegas de los equipos de investigación e ingeniería por su valioso feedback, debates y apoyo en el desarrollo de este punto de referencia.
Reconocemos especialmente a nuestros becarios, Raavi Gupta y Abhinav Jain, por sus esfuerzos en la generación y el desarrollo de puntos de referencia. También agradecemos a Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal y Segev Shlomov por sus contribuciones e insights.