Explore como o VAKRA pode avaliar o comportamento de agentes de ponta a ponta, onde tarefas multietapas abrangem diversas fontes de dados e exigem o cumprimento de diretrizes de uso de ferramentas.
O VAKRA (eValuating API and Knowledge Retrieval Agents usando diálogos com multissaltos e multifontes) é um benchmark executável fundamentado em ferramentas, projetado para avaliar a qualidade do raciocínio de ponta a ponta de agentes de IA em ambientes empresariais.
Em vez de testar habilidades isoladas, o VAKRA mede o raciocínio composicional em APIs e documentos, usando rastreamentos de execução completos para avaliar se os agentes conseguem concluir de forma confiável fluxos de trabalho multietapas, não apenas etapas individuais.
O VAKRA fornece um ambiente executável onde os agentes interagem com mais de 8.000 APIs hospedadas localmente, apoiadas por bancos de dados reais que abrangem 62 domínios, juntamente com coleções de documentos alinhadas por domínio. As tarefas podem exigir cadeias de raciocínio de três a sete etapas, que combinam a interação estruturada de APIs com a recuperação não estruturada sob restrições de uso de ferramentas de linguagem natural.
Os ambientes empresariais não se assemelham a perguntas e respostas de uma única rodada ou chamadas de função pontuais. Fluxos de trabalho em áreas como suporte ao cliente, business intelligence e conformidade exigem que os agentes encadeiem decisões, conciliem esquemas incompatíveis e sigam políticas de uso de ferramentas expressas em linguagem natural. As falhas surgem não apenas durante a invocação de ferramentas, mas também no raciocínio mediado pela linguagem entre as ferramentas, incluindo desambiguação de entidades, fundamentação de fontes cruzadas e alinhamento de parâmetros ou esquemas.
Considere uma reclamação de pedido atrasado em uma operação de comércio eletrônico. Para resolvê-la, um agente deve conectar corretamente informações entre sistemas — vinculando registros de clientes, interpretando a documentação da transportadora, alinhando identificadores entre APIs de logística e aplicando políticas expressas em linguagem natural. Cada decisão depende da anterior, exigindo raciocínio sustentado entre ferramentas, fontes de dados e restrições.
O VAKRA foi projetado para revelar exatamente onde esse raciocínio multietapas é bem-sucedido ou falha, refletindo as realidades que os agentes enfrentam em ambientes de produção.
Inspirado em cenários como o exemplo de reclamação de pedido atrasado de antes, o VAKRA organiza as tarefas em três níveis:
O VAKRA é executado em um ambiente auto-hospedado: APIs apoiadas por bancos de dados persistentes e índices de recuperação são expostas por meio de uma interface padrão, e os agentes só podem interagir por meio dessas ferramentas. A avaliação repete trajetórias inteiras para verificar todas as etapas intermediárias (não somente as respostas finais), para que você possa identificar onde o raciocínio foi interrompido: desambiguação de entidades, mapeamento de fontes cruzadas ou interpretação de políticas.
O VAKRA foi projetado para três usuários diferentes:
O VAKRA está disponível publicamente hoje. O código-fonte, as especificações das tarefas e o ambiente de avaliação são de código aberto no Github, que inclui tudo o que é necessário para reproduzir os resultados e executar novos agentes de ponta a ponta, incluindo:
Também estamos lançando um Hugging Face Space que hospedará a tabela de classificação pública do VAKRA. Convidamos pesquisadores, profissionais e desenvolvedores a enviar resultados e contribuir com feedback e extensões.
Autores adicionais:
Os autores agradecem aos colegas de equipes de pesquisa e engenharia pelo valioso feedback, discussões e apoio no desenvolvimento desse benchmark.
Agradecemos especialmente a nossos estagiários, Raavi Gupta e Abhinav Jain, por seus esforços na geração e desenvolvimento do benchmark. Também reconhecemos Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal e Segev Shlomov por suas contribuições e insights.