Ilustração digital de vista lateral de uma mulher segurando um iPad com ícones de dashboards à frente e atrás dela

Apresentando o VAKRA: benchmark para avaliar recursos de chamadas de ferramentas multissaltos e multifontes em agentes de IA

Explore como o VAKRA pode avaliar o comportamento de agentes de ponta a ponta, onde tarefas multietapas abrangem diversas fontes de dados e exigem o cumprimento de diretrizes de uso de ferramentas.

O VAKRA (eValuating API and Knowledge Retrieval Agents usando diálogos com multissaltos e multifontes) é um benchmark executável fundamentado em ferramentas, projetado para avaliar a qualidade do raciocínio de ponta a ponta de agentes de IA em ambientes empresariais. 

Em vez de testar habilidades isoladas, o VAKRA mede o raciocínio composicional em APIs e documentos, usando rastreamentos de execução completos para avaliar se os agentes conseguem concluir de forma confiável fluxos de trabalho multietapas, não apenas etapas individuais.

O VAKRA fornece um ambiente executável onde os agentes interagem com mais de 8.000 APIs hospedadas localmente, apoiadas por bancos de dados reais que abrangem 62 domínios, juntamente com coleções de documentos alinhadas por domínio. As tarefas podem exigir cadeias de raciocínio de três a sete etapas, que combinam a interação estruturada de APIs com a recuperação não estruturada sob restrições de uso de ferramentas de linguagem natural.

  • Ferramentas hospedadas localmente e baseadas em bancos de dados garantem respostas determinísticas e verificáveis na avaliação.
  • A recuperação de documentos é fornecida por meio de índices específicos de domínio, permitindo a fundamentação e a extração entre fontes.
  • A verificação em nível de trajetória repete rastreamentos completos de agentes em relação a ferramentas ativas, sendo compatível com vários caminhos de execução válidos — crucial para fluxo de trabalho empresariais.

O raciocínio multissaltos e multifontes é importante

Os ambientes empresariais não se assemelham a perguntas e respostas de uma única rodada ou chamadas de função pontuais. Fluxos de trabalho em áreas como suporte ao cliente, business intelligence e conformidade exigem que os agentes encadeiem decisões, conciliem esquemas incompatíveis e sigam políticas de uso de ferramentas expressas em linguagem natural. As falhas surgem não apenas durante a invocação de ferramentas, mas também no raciocínio mediado pela linguagem entre as ferramentas, incluindo desambiguação de entidades, fundamentação de fontes cruzadas e alinhamento de parâmetros ou esquemas.

Considere uma reclamação de pedido atrasado em uma operação de comércio eletrônico. Para resolvê-la, um agente deve conectar corretamente informações entre sistemas — vinculando registros de clientes, interpretando a documentação da transportadora, alinhando identificadores entre APIs de logística e aplicando políticas expressas em linguagem natural. Cada decisão depende da anterior, exigindo raciocínio sustentado entre ferramentas, fontes de dados e restrições.

O VAKRA foi projetado para revelar exatamente onde esse raciocínio multietapas é bem-sucedido ou falha, refletindo as realidades que os agentes enfrentam em ambientes de produção.

Casos de uso: três ambientes progressivamente complexos

Inspirado em cenários como o exemplo de reclamação de pedido atrasado de antes, o VAKRA organiza as tarefas em três níveis:

  1. Diversos estilos de interação de APIs: os agentes devem se adaptar a diferentes abstrações de interface, desde APIs no estilo business intelligence que expõem interfaces de composição ou função expandida (exigindo planejamento e seleção cuidadosa de ferramentas) até endpoints alinhados a consultas que encapsulam computação, mas ainda exigem interpretação precisa de consultas e parametrização correta.
  2. Raciocínio multissaltos em APIs estruturadas: as tarefas exigem de três a sete chamadas de APIs dependentes, onde a saída das etapas anteriores deve ser interpretada, transformada e reutilizada corretamente para parametrizar as ações subsequentes.
  3. Raciocínio multissaltos e multifontes com políticas de uso de ferramentas: as tarefas exigem raciocínio multissaltos em documentos não estruturados e APIs estruturadas, nos quais os agentes devem decidir quando recuperar, como fundamentar as informações recuperadas em chamadas de ferramentas posteriores e cumprir as políticas de uso de ferramentas em linguagem natural.

Desenvolvido para avaliação executável e verificável

O VAKRA é executado em um ambiente auto-hospedado: APIs apoiadas por bancos de dados persistentes e índices de recuperação são expostas por meio de uma interface padrão, e os agentes só podem interagir por meio dessas ferramentas. A avaliação repete trajetórias inteiras para verificar todas as etapas intermediárias (não somente as respostas finais), para que você possa identificar onde o raciocínio foi interrompido: desambiguação de entidades, mapeamento de fontes cruzadas ou interpretação de políticas.

O VAKRA foi projetado para três usuários diferentes:

  • Pesquisadores que estudam raciocínio agêntico, planejamento multiferramentas e fundamentação
  • Equipes de desenvolvedores e engenharia que avaliam modelos de base para fluxos de trabalho de agentes de produção
  • Líderes que buscam benchmarks que reflitam a complexidade empresarial, não tarefas de "brinquedo"

Introdução e disponibilidade

O VAKRA está disponível publicamente hoje. O código-fonte, as especificações das tarefas e o ambiente de avaliação são de código aberto no Github, que inclui tudo o que é necessário para reproduzir os resultados e executar novos agentes de ponta a ponta, incluindo:

  • Ambientes de API executáveis e hospedados localmente com base em bancos de dados reais
  • Coleções de documentos específicas do domínio para raciocínio aumentado de recuperação
  • Um agente de avaliação independente que repete e verifica as trajetórias completas dos agentes
  • Scripts para comparar novos modelos em configurações de tarefas multissantos e multifontes somente de APIs

Também estamos lançando um Hugging Face Space que hospedará a tabela de classificação pública do VAKRA. Convidamos pesquisadores, profissionais e desenvolvedores a enviar resultados e contribuir com feedback e extensões.

Explore no GitHub

Ankita Rajaram Naik

Research Data Scientist

Autores adicionais:

Agradecimentos

Os autores agradecem aos colegas de equipes de pesquisa e engenharia pelo valioso feedback, discussões e apoio no desenvolvimento desse benchmark.

Agradecemos especialmente a nossos estagiários, Raavi Gupta e Abhinav Jain, por seus esforços na geração e desenvolvimento do benchmark. Também reconhecemos Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal e Segev Shlomov por suas contribuições e insights.