Esplora come VAKRA può valutare il comportamento degli agenti end-to-end, dove i compiti a più passi comprendono fonti di dati diverse e richiedono l'aderenza alle linee guida sull'uso degli strumenti.
VAKRA (eValuating API and Knowledge Retrieval Agents using multi-hop, multi-source dialogs) è un benchmark eseguibile basato su strumenti, progettato per valutare il modo in cui gli agenti AI ragionano end-to-end in contesti aziendali.
Invece di testare competenze isolate, VAKRA misura il ragionamento composizionale tra API e documenti, utilizzando tracce di esecuzione complete per valutare se gli agenti possono completare in modo affidabile workflow multi-step, non solo singoli passaggi.
VAKRA offre un ambiente eseguibile in cui gli agenti interagiscono con oltre 8.000 API ospitate localmente e supportate da database reali che coprono 62 domini, insieme a raccolte di documenti allineate a ciascun dominio. I compiti possono richiedere catene di ragionamento da 3 a 7 passaggi che combinano l’interazione con API strutturate e il recupero di informazioni non strutturate, nel rispetto dei vincoli di utilizzo degli strumenti in linguaggio naturale.
Gli ambienti aziendali non somigliano a sessioni di Q&A a turno singolo o a chiamate di funzione isolate. I workflow in aree come supporto clienti, business intelligence e conformità richiedono agli agenti di concatenare decisioni, riconciliare schemi non corrispondenti e seguire policy d’uso degli strumenti espresse in linguaggio naturale. I fallimenti non si verificano solo durante l’invocazione degli strumenti, ma anche nel ragionamento mediato dal linguaggio tra gli strumenti stessi, inclusi la disambiguazione delle entità, il collegamento tra fonti e l’allineamento di parametri o schemi.
Consideriamo un reclamo per un ordine in ritardo in un'operazione di e-commerce. Per risolvere il problema, un agente deve collegare correttamente le informazioni tra i diversi sistemi: collegare i record dei clienti, interpretare la documentazione del vettore, allineare gli identificativi tra le API logistiche e applicare le policy espresse in linguaggio naturale. Ogni decisione dipende da quella precedente e richiede un ragionamento continuo tra strumenti, fonti di dati e vincoli.
VAKRA è progettato per emergere esattamente dove questo ragionamento in più fasi ha successo o si interrompe, riflettendo le realtà che gli agenti devono affrontare negli ambienti di produzione.
Ispirato a scenari come l’esempio del reclamo per un ordine ritardato visto in precedenza, VAKRA organizza i compiti in tre livelli:
VAKRA opera in un ambiente auto-ospitato: le API, supportate da database persistenti e indici di recupero, sono esposte tramite un’interfaccia standard e gli agenti possono interagire solo attraverso questi strumenti. La valutazione riproduce intere traiettorie per verificare ogni passaggio intermedio (non solo le risposte finali) permettendo di individuare esattamente dove il ragionamento ha fallito: disambiguazione delle entità, mappatura tra fonti o interpretazione delle politiche.
VAKRA è progettato per tre utenti diversi:
VAKRA è ora disponibile al pubblico. Il codice sorgente, le specifiche dei compiti e l’ambiente di valutazione sono open source su Github e includono tutto il necessario per riprodurre i risultati e fare funzionare nuovi agenti end-to-end, tra cui:
Stiamo anche lanciando un Hugging Face Space che ospiterà la classifica pubblica di VAKRA. Invitiamo ricercatori, professionisti e sviluppatori a inviare risultati e a contribuire con feedback ed estensioni.
Autori aggiuntivi:
Gli autori ringraziano i colleghi di tutti i team di ricerca e ingegneria per i loro preziosi feedback, discussioni e supporto nello sviluppo di questo benchmark.
Ringraziamo in particolare i nostri stagisti, Raavi Gupta e Abhinav Jain, per i loro sforzi nella generazione e nello sviluppo di benchmark. Ringraziamo anche Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal e Segev Shlomov per i loro contributi e insight.