Ilustración digital de la vista lateral de una mujer sosteniendo un iPad con iconos de paneles delante y detrás de ella

Presentamos VAKRA: punto de referencia para evaluar las capacidades de llamada a herramientas multi-hop y de múltiples fuentes en agentes de IA

Explore cómo VAKRA puede evaluar el comportamiento integral de los agentes, donde las tareas de varios pasos abarcan diversas fuentes de datos y requieren el cumplimiento de las pautas de uso de herramientas.

VAKRA (evaluación de API y agentes de recuperación de conocimiento mediante diálogos multi-hop y de múltiples fuentes) es un punto de referencia ejecutable basado en herramientas, diseñado para evaluar qué tan bien razonan los agentes de IA de extremo a extremo en entornos de tipo empresarial. 

En lugar de probar habilidades aisladas, VAKRA mide el razonamiento composicional en API y documentos utilizando seguimientos de ejecución completos para evaluar si los agentes pueden completar de manera confiable flujos de trabajo de varios pasos, no solo pasos individuales.

VAKRA proporciona un entorno ejecutable donde los agentes interactúan con más de 8000 API alojadas localmente respaldadas por bases de datos reales que abarcan 62 dominios, junto con colecciones de documentos alineadas con el dominio. Las tareas pueden requerir cadenas de razonamiento de entre 3 y 7 pasos que combinen la interacción estructurada con una API y la recuperación de información no estructurada, bajo las restricciones propias del uso de herramientas en lenguaje natural.

  • Las herramientas alojadas localmente y respaldadas por bases de datos garantizan respuestas deterministas y verificables en la evaluación.
  • La recuperación de documentos se lleva a cabo mediante índices específicos de cada dominio, lo que permite la contextualización y la extracción entre diferentes fuentes.
  • La verificación a nivel de trayectoria repite los rastreos completos de los agentes con herramientas en vivo, lo que admite múltiples rutas de ejecución válidas, algo crucial para los flujos de trabajo empresariales.

El razonamiento multi-hop y de múltiples fuentes es importante

Los entornos empresariales no se asemejan a preguntas y respuestas de un solo turno o llamadas de función únicas. Los flujos de trabajo en áreas como atención al cliente, business intelligence y cumplimiento requieren que los agentes encadenen decisiones, concilien esquemas no coincidentes y sigan las políticas de uso de herramientas expresadas en lenguaje natural. Las fallas surgen no solo durante la invocación de herramientas, sino también en el razonamiento mediado por el lenguaje entre herramientas, incluida la desambiguación de entidades, la conexión a tierra entre fuentes y la alineación de parámetros o esquemas.

Considere una queja de pedido retrasado en una operación de comercio electrónico. Para resolverlo, un agente debe conectar correctamente la información entre sistemas: vincular registros de clientes, interpretar la documentación del transportista, alinear identificadores entre API logísticas y aplicar políticas expresadas en lenguaje natural. Cada decisión depende de la anterior, lo que requiere un razonamiento sostenido entre herramientas, fuentes de datos y restricciones.

VAKRA está diseñado para mostrar exactamente donde dicho razonamiento de múltiples pasos tiene éxito o fracasa, reflejando las realidades que enfrentan los agentes en los entornos de producción.

Casos de uso: tres configuraciones de complejidad progresiva

Con base en escenarios como el ejemplo anterior de queja por pedido retrasado, VAKRA organiza las tareas en tres niveles:

  1. Diversos estilos de interacción con la API: los agentes deben adaptarse a diferentes abstracciones de interfaz, que van desde API de estilo inteligencia empresarial que exponen interfaces de funciones compositivas o expandidas (lo que requiere planificación y una cuidadosa selección de herramientas) hasta endpoints alineados con consultas que encapsulan cálculos, pero que aún requieren una interpretación precisa de las consultas y una parametrización correcta.
  2. Razonamiento multi-hop sobre API estructuradas: las tareas requieren de 3 a 7 llamadas a API dependientes, donde el resultado de los pasos anteriores debe interpretarse, transformarse y reutilizarse correctamente para parametrizar acciones posteriores.
  3. Razonamiento multi-hop y de múltiples fuentes con políticas de uso de herramientas: las tareas requieren razonamiento multi-hop en documentos no estructurados y API estructuradas, donde los agentes deben decidir cuándo recuperar, cómo fundamentar la información recuperada en llamadas de herramientas posteriores y cumplir con políticas de uso de herramientas lingüísticas.

Creado para una evaluación ejecutable y verificable

VAKRA se ejecuta en un entorno autohospedado: las API respaldadas por bases de datos persistentes e índices de recuperación se exponen a través de una interfaz estándar, y los agentes solo pueden interactuar a través de estas herramientas. La evaluación repite trayectorias completas para verificar cada paso intermedio, no solo las respuestas finales, para que pueda identificar dónde falló el razonamiento: desambiguación de entidades, mapeo de fuentes cruzadas o interpretación de políticas.

VAKRA está diseñado para tres usuarios diferentes:

  • Investigadores que estudian el razonamiento agéntico, la planificación con múltiples herramientas y la fundamentación
  • Equipos de desarrolladores e ingeniería que evalúan modelos fundacionales para flujos de trabajo de agentes de producción
  • Los líderes que buscan puntos de referencia que reflejen la complejidad de la empresa, no tareas insignificantes

Primeros pasos y disponibilidad

VAKRA está disponible públicamente hoy. El código fuente, las especificaciones de tareas y el arnés de evaluación son de código abierto en Github, que incluye todo lo necesario para reproducir resultados y ejecutar nuevos agentes de extremo a extremo, incluyendo:

  • Entornos de API ejecutables y alojados localmente y respaldados por bases de datos reales
  • Colecciones de documentos específicos de dominio para el razonamiento aumentado con recuperación
  • Un ejecutor de evaluación autónomo que repite y verifica las trayectorias completas de los agentes
  • Scripts para comparar nuevos modelos en configuraciones de tareas solo de API, multi-hop y de múltiples fuentes

También estamos lanzando un Hugging Face Space que albergará la tabla de clasificación pública de VAKRA. Invitamos a investigadores, profesionales y desarrolladores a enviar resultados y contribuir con feedback y extensiones.

Explorar en GitHub

Ankita Rajaram Naik

Research Data Scientist

Autores adicionales:

Agradecimientos

Los autores agradecen a sus colegas de los equipos de investigación e ingeniería por su valioso feedback, debates y apoyo en el desarrollo de este punto de referencia.

Reconocemos especialmente a nuestros becarios, Raavi Gupta y Abhinav Jain, por sus esfuerzos en la generación y el desarrollo de puntos de referencia. También agradecemos a Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal y Segev Shlomov por sus contribuciones e insights.