Illustrazione digitale di una donna che tiene in mano un iPad con icone di dashboard davanti e dietro di lei

Presentazione di VAKRA: benchmark per la valutazione delle funzionalità di tool-calling multi-hop e multi-source negli agenti AI

Esplora come VAKRA può valutare il comportamento degli agenti end-to-end, dove i compiti a più passi comprendono fonti di dati diverse e richiedono l'aderenza alle linee guida sull'uso degli strumenti.

VAKRA (eValuating API and Knowledge Retrieval Agents using multi-hop, multi-source dialogs) è un benchmark eseguibile basato su strumenti, progettato per valutare il modo in cui gli agenti AI ragionano end-to-end in contesti aziendali. 

Invece di testare competenze isolate, VAKRA misura il ragionamento composizionale tra API e documenti, utilizzando tracce di esecuzione complete per valutare se gli agenti possono completare in modo affidabile workflow multi-step, non solo singoli passaggi.

VAKRA offre un ambiente eseguibile in cui gli agenti interagiscono con oltre 8.000 API ospitate localmente e supportate da database reali che coprono 62 domini, insieme a raccolte di documenti allineate a ciascun dominio. I compiti possono richiedere catene di ragionamento da 3 a 7 passaggi che combinano l’interazione con API strutturate e il recupero di informazioni non strutturate, nel rispetto dei vincoli di utilizzo degli strumenti in linguaggio naturale.

  • Gli strumenti in hosting locale, basati su database, garantiscono risposte deterministiche e verificabili in fase di valutazione.
  • Il recupero documentale è fornito tramite indici specifici per dominio, permettendo il collegamento e l’estrazione tra più fonti.
  • La verifica a livello di traiettoria riproduce le tracce complete degli agenti rispetto agli strumenti attivi, supportando più percorsi di esecuzione validi, fondamentali per i workflow aziendali.

Il ragionamento multi-hop e multi-source è importante

Gli ambienti aziendali non somigliano a sessioni di Q&A a turno singolo o a chiamate di funzione isolate. I workflow in aree come supporto clienti, business intelligence e conformità richiedono agli agenti di concatenare decisioni, riconciliare schemi non corrispondenti e seguire policy d’uso degli strumenti espresse in linguaggio naturale. I fallimenti non si verificano solo durante l’invocazione degli strumenti, ma anche nel ragionamento mediato dal linguaggio tra gli strumenti stessi, inclusi la disambiguazione delle entità, il collegamento tra fonti e l’allineamento di parametri o schemi.

Consideriamo un reclamo per un ordine in ritardo in un'operazione di e-commerce. Per risolvere il problema, un agente deve collegare correttamente le informazioni tra i diversi sistemi: collegare i record dei clienti, interpretare la documentazione del vettore, allineare gli identificativi tra le API logistiche e applicare le policy espresse in linguaggio naturale. Ogni decisione dipende da quella precedente e richiede un ragionamento continuo tra strumenti, fonti di dati e vincoli.

VAKRA è progettato per emergere esattamente dove questo ragionamento in più fasi ha successo o si interrompe, riflettendo le realtà che gli agenti devono affrontare negli ambienti di produzione.

Casi d'uso: tre impostazioni progressivamente complesse

Ispirato a scenari come l’esempio del reclamo per un ordine ritardato visto in precedenza, VAKRA organizza i compiti in tre livelli:

  1. Stili di interazione API diversificati: gli agenti devono adattarsi a diverse astrazioni delle interfacce, che vanno dalle API in stile business intelligence, che espongono interfacce funzionali compositive o estese richiedendo pianificazione e scelta accurata degli strumenti, fino a endpoint allineati alle query che racchiudono calcoli ma richiedono comunque un’interpretazione precisa delle query e una corretta parametrizzazione.
  2. Ragionamento multi-hop su API strutturate: i compiti richiedono da 3 a 7 chiamate API dipendenti, in cui l’output dei passaggi precedenti deve essere interpretato, trasformato e riutilizzato correttamente per parametrizzare le azioni successive.
  3. Ragionamento multi-hop e multi-origine con policy di utilizzo degli strumenti: le attività richiedono ragionamento multi-hop su documenti non strutturati e API strutturate, in cui gli agenti devono decidere quando recuperare informazioni, come collegare le informazioni recuperate alle chiamate successive degli strumenti e rispettare le politiche d’uso degli strumenti espresse in linguaggio naturale.

Progettato per una valutazione eseguibile e verificabile

VAKRA opera in un ambiente auto-ospitato: le API, supportate da database persistenti e indici di recupero, sono esposte tramite un’interfaccia standard e gli agenti possono interagire solo attraverso questi strumenti. La valutazione riproduce intere traiettorie per verificare ogni passaggio intermedio (non solo le risposte finali) permettendo di individuare esattamente dove il ragionamento ha fallito: disambiguazione delle entità, mappatura tra fonti o interpretazione delle politiche.

VAKRA è progettato per tre utenti diversi:

  • Ricercatori che studiano il ragionamento agentico, la pianificazione multi-strumento e il grounding
  • Team di sviluppatori e ingegneri che valutano i foundation model per i workflow degli agenti di produzione
  • Leader che cercano benchmark che riflettano la complessità aziendale, non compiti semplificati

Come iniziare e disponibilità

VAKRA è ora disponibile al pubblico. Il codice sorgente, le specifiche dei compiti e l’ambiente di valutazione sono open source su Github e includono tutto il necessario per riprodurre i risultati e fare funzionare nuovi agenti end-to-end, tra cui:

  • Ambienti API eseguibili e ospitati localmente supportati da database reali
  • Raccolte di documenti specifiche del dominio per il ragionamento potenziato dal recupero
  • Un runner di valutazione autonomo che riproduce e verifica l’intero percorso degli agenti
  • Script per il benchmarking di nuovi modelli nelle impostazioni delle attività solo API, multi-hop e multi-source

Stiamo anche lanciando un Hugging Face Space che ospiterà la classifica pubblica di VAKRA. Invitiamo ricercatori, professionisti e sviluppatori a inviare risultati e a contribuire con feedback ed estensioni.

Esplora su GitHub

Ankita Rajaram Naik

Research Data Scientist

Autori aggiuntivi:

Ringraziamenti

Gli autori ringraziano i colleghi di tutti i team di ricerca e ingegneria per i loro preziosi feedback, discussioni e supporto nello sviluppo di questo benchmark.

Ringraziamo in particolare i nostri stagisti, Raavi Gupta e Abhinav Jain, per i loro sforzi nella generazione e nello sviluppo di benchmark. Ringraziamo anche Chulaka Gunasekara, Hamid Adebayo, Harold Ship, Himanshu Gupta, Huaiyu Zhu, Jaydeep Sen, Renuka Sindhgatta, Sameep Mehta, Sara Rosenthal e Segev Shlomov per i loro contributi e insight.