Ilustración digital de una mujer vista de perfil, sosteniendo un iPad, con iconos de paneles de control delante y detrás de ella

Presentamos VAKRA: una referencia para evaluar las capacidades de invocación de herramientas de múltiples saltos y múltiples fuentes en agentes de IA

Explore cómo VAKRA puede evaluar el comportamiento de los agentes de principio a fin, donde las tareas de múltiples pasos abarcan diversas fuentes de datos y requieren el cumplimiento de las directrices de uso de herramientas.

VAKRA (evaluación agentes de recuperación de conocimientos y API mediante diálogos de múltiples saltos y múltiples fuentes) es una referencia ejecutable basada en herramientas, diseñada para evaluar lo bien que razonan los agentes de IA de principio a fin en entornos de tipo empresarial. 

En lugar de probar habilidades aisladas, VAKRA mide el razonamiento compositivo a través de API y documentos, utilizando trazas de ejecución completas para evaluar si los agentes pueden completar flujos de trabajo de múltiples pasos de manera fiable, y no solo pasos individuales.

VAKRA proporciona un entorno ejecutable en el que los agentes interactúan con más de 8000 API alojadas localmente respaldadas por bases de datos reales que abarcan 62 ámbitos, junto con colecciones de documentos adaptadas a cada ámbito. Las tareas pueden requerir cadenas de razonamiento de 3 a 7 pasos que combinan la interacción estructurada de API con la recuperación no estructurada bajo restricciones de uso de herramientas de lenguaje natural.

  • Las herramientas alojadas localmente y respaldadas por bases de datos garantizan respuestas deterministas y verificables en la evaluación.
  • La recuperación de documentos se lleva a cabo mediante índices específicos de cada ámbito, lo que permite la contextualización y la extracción de información de diversas fuentes.
  • La verificación a nivel de trayectoria reproduce las trazas completas de los agentes en herramientas en tiempo real, admitiendo múltiples rutas de ejecución válidas, lo cual resulta fundamental para los flujos de trabajo empresariales.

La importancia del razonamiento de múltiples saltos y múltiples fuentes

Los entornos empresariales no se asemejan a sesiones de preguntas y respuestas de una sola ronda ni a llamadas a funciones puntuales. Los flujos de trabajo en áreas como la atención al cliente, la inteligencia empresarial y el cumplimiento exigen que los agentes encadenen decisiones, concilien esquemas incompatibles y sigan políticas de uso de herramientas expresadas en lenguaje natural. Los fallos surgen no solo durante la invocación de las herramientas, sino también en el razonamiento mediado por el lenguaje entre herramientas, lo que incluye la desambiguación de entidades, la vinculación entre fuentes y la alineación de parámetros o esquemas.

Tomemos como ejemplo una reclamación por un retraso en un pedido en una operación de comercio electrónico. Para resolverla, un agente debe relacionar correctamente la información de distintos sistemas: vincular los registros de los clientes, interpretar la documentación del transportista, coordinar los identificadores entre las API logísticas y aplicar las políticas expresadas en lenguaje natural. Cada decisión depende de la anterior, lo que requiere un razonamiento continuo a través de herramientas, fuentes de datos y restricciones.

VAKRA está diseñado para detectar exactamente en qué momentos ese razonamiento de varios pasos tiene éxito o falla, reflejando así las realidades a las que se enfrentan los agentes en entornos de producción.

Casos de uso: tres entornos de complejidad progresiva

Inspirándose en situaciones como el ejemplo anterior de la reclamación por un pedido retrasado, VAKRA organiza las tareas en tres niveles:

  1. Diversos estilos de interacción con API: los agentes deben adaptarse a diferentes abstracciones de interfaz, que van desde API de tipo inteligencia empresarial que exponen interfaces de funciones compositivas o ampliadas (lo que requiere planificación y una cuidadosa selección de herramientas) hasta endpoints alineados con consultas que encapsulan el cálculo, pero que aún así requieren una interpretación precisa de la consulta y una parametrización correcta.
  2. Razonamiento de múltiples saltos sobre API estructuradas: las tareas requieren entre 3 y 7 llamadas a API dependientes, en las que el resultado de los pasos anteriores debe interpretarse, transformarse y reutilizarse correctamente para parametrizar las acciones posteriores.
  3. Razonamiento de múltiples saltos y múltiples fuentes con políticas de uso de herramientas: las tareas requieren un razonamiento de múltiples saltos a través de documentos no estructurados y API estructuradas, en el que los agentes deben decidir cuándo recuperar la información, cómo basar la información recuperada en llamadas a herramientas posteriores y cumplir con las políticas de uso de herramientas en lenguaje natural.

Creado para una evaluación ejecutable y verificable

VAKRA se ejecuta en un entorno autoalojado: las API, respaldadas por bases de datos persistentes e índices de recuperación, se exponen a través de una interfaz estándar, y los agentes solo pueden interactuar mediante estas herramientas. La evaluación reproduce trayectorias completas para verificar cada paso intermedio (no solo las respuestas finales), lo que permite identificar con precisión dónde se produjo el fallo en el razonamiento: desambiguación de entidades, mapeo entre fuentes o interpretación de políticas.

VAKRA está diseñado para tres tipos de usuarios:

  • Investigadores que estudian el razonamiento agéntico, la planificación con múltiples herramientas y la contextualización
  • Desarrolladores y equipos de ingeniería que evalúan modelos fundacionales para flujos de trabajo de agentes en producción
  • Líderes que buscan referencias que reflejen la complejidad empresarial, y no tareas simplificadas

Primeros pasos y disponibilidad

VAKRA ya está disponible públicamente. El código fuente, las especificaciones de las tareas y el marco de evaluación se han publicado en código abierto en GitHub, lo que incluye todo lo necesario para reproducir los resultados y ejecutar nuevos agentes de principio a fin, entre lo que se incluye:

  • Entornos API ejecutables alojados localmente y respaldados por bases de datos reales
  • Colecciones de documentos específicos de cada dominio para el razonamiento impulsado por la recuperación
  • Un ejecutor de evaluación autónomo que reproduce y verifica trayectorias completas de los agentes
  • Scripts para evaluar nuevos modelos en entornos de tareas basados únicamente en API, de múltiples saltos y de múltiples fuentes

Además, vamos a poner en marcha un Hugging Face Space que albergará la tabla de clasificación pública de VAKRA. Invitamos a investigadores, profesionales y desarrolladores a que envíen sus resultados y aporten comentarios y ampliaciones.

Explorar en GitHub

Ankita Rajaram Naik

Research Data Scientist

Autores adicionales:

Agradecimientos

Los autores agradecen a sus colegas de los equipos de investigación e ingeniería sus valiosos comentarios, conversaciones y apoyo en el desarrollo de esta referencia.

Queremos expresar nuestro especial agradecimiento a nuestros becarios, Raavi Gupta y Abhinav Jain, por su labor en la elaboración y el desarrollo de la referencia. Asimismo, agradecemos a Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal y Segev Shlomov por sus contribuciones y perspectivas.