Cos'è la valutazione degli agenti AI?

Autori

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

La valutazione degli agenti AI è il processo di misurazione e comprensione delle prestazioni di un agente AI nell'eseguire compiti, nel prendere decisioni e nell'interagire con gli utenti. Data la loro autonomia intrinseca, la valutazione degli agenti è essenziale per promuoverne un corretto funzionamento. Gli agenti AI devono comportarsi secondo le intenzioni dei loro progettisti, essere efficienti e aderire a determinati principi etici di intelligenza artificiale per soddisfare le esigenze dell'organizzazione. La valutazione aiuta a verificare che gli agenti soddisfino tali requisiti e aiuta anche a migliorare la qualità dell'agente identificando le aree di perfezionamento e ottimizzazione.

Gli agenti di AI generativa (gen AI) vengono spesso valutati in base alle tradizionali attività da testo a testo, simili ai benchmark standard dei modelli linguistici di grandi dimensioni (LLM), in cui vengono comunemente utilizzate metriche come la coerenza, la pertinenza e la fedeltà del testo generato. Tuttavia, gli agenti GenAI in genere eseguono operazioni più ampie e complesse, tra cui ragionamento multi-fasi, chiamata di strumenti e interazione con sistemi esterni, che richiedono una valutazione più completa. Anche quando l'output finale è testo, può essere il risultato di azioni intermedie come interrogare un database o richiamare un'API, ognuna delle quali deve essere valutata separatamente.

In altri casi, l'agente potrebbe non produrre affatto un output testuale, ma completare un'attività come l'aggiornamento di un record o l'invio di un messaggio, in cui il successo è misurato dalla corretta esecuzione. Pertanto, la valutazione deve andare oltre la qualità del testo a livello superficiale e valutare il comportamento complessivo dell'agente, il successo dell'attività e l'allineamento con l'intento dell'utente. Inoltre, per evitare lo sviluppo di agenti altamente capaci ma ad alta intensità di risorse, che limitano la loro distribuzione pratica, le misurazioni dei costi e dell'efficienza devono essere incluse come parte della valutazione.

Oltre a misurare le prestazioni delle attività, la valutazione degli agenti AI deve dare priorità a dimensioni critiche come sicurezza, affidabilità, conformità alle politiche e mitigazione dei pregiudizi. Questi fattori sono essenziali per distribuire agenti in ambienti reali e ad alto rischio. La valutazione aiuta a garantire che gli agenti evitino comportamenti dannosi o non sicuri, mantengano la fiducia degli utenti attraverso output prevedibili e verificabili e resistano a manipolazioni o usi impropri.

Per raggiungere questi obiettivi funzionali (qualità, costi) e non funzionali (sicurezza), i metodi di valutazione possono includere test di benchmark, valutazioni umane, test A/B e simulazioni nel mondo reale. Valutando sistematicamente gli agenti AI, le organizzazioni possono migliorare le proprie funzionalità AI, ottimizzare gli sforzi di automazione e migliorare le funzioni aziendali riducendo al minimo i rischi associati a un'agentic AI non sicura, inaffidabile o distorta.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funziona la valutazione degli agenti AI

La valutazione di un agente AI richiede un approccio strutturato all'interno di un quadro di osservabilità formale più ampio. I metodi di valutazione (o eval) variano notevolmente, ma il processo in genere prevede i seguenti passaggi:

1. Definire gli obiettivi e le metriche di valutazione

Qual è lo scopo dell'agente? Quali sono i risultati attesi? Come viene utilizzata l'AI in scenari reali?

Vedi "Metriche comuni di valutazione degli agenti AI" per alcune delle metriche più diffuse, che rientrano nelle seguenti categorie: prestazioni, interazione ed esperienza utente, AI etica e responsabile, sistema ed efficienza e metriche per attività specifiche.

2. Raccogliere i dati e prepararsi per i test

Per valutare efficacemente un agente AI, utilizza set di dati rappresentativi, inclusi diversi input che riflettono scenari reali e scenari di test che simulano condizioni in tempo reale. I dati annotati rappresentano una verità fondamentale contro cui i modelli AI possono essere testati.

Pianifica ogni possibile passaggio del workflow di un agente, che si tratti di chiamare un'API, di passare informazioni a un secondo agente o di prendere una decisione. Suddividendo il workflow AI in singoli pezzi, è più facile valutare come l'agente gestisce ogni fase. Considera anche l'intero approccio dell'agente in tutto il workflow, o in altre parole, il percorso di esecuzione che l'agente intraprende per risolvere un problema in più fasi.

3. Condurre i test

Esegui l'agente AI in ambienti diversi, potenzialmente con diversi LLM come base, e monitora le prestazioni. Suddividi i singoli passaggi dell'agente e valutane ciascuno. Ad esempio, monitora l'uso da parte dell'agente della retrieval-augmented generation (RAG) per recuperare informazioni da un database esterno o la risposta di una chiamata API.

4. Analizzare i risultati

Confronta i risultati con criteri di successo predefiniti, se esistono e, in caso contrario, usa un LLM-as-a-judge (vedi sotto). Valuta i compromessi bilanciando le prestazioni con considerazioni etiche.

L'agente ha scelto lo strumento giusto? Ha chiamato la funzione corretta? Ha trasmesso le informazioni giuste nel contesto giusto? Ha prodotto una risposta effettivamente corretta?

La chiamata di funzione/l'uso di strumenti è un'abilità fondamentale per la creazione di agenti intelligenti in grado di fornire risposte contestualmente accurate in tempo reale. Si consiglia di prendere in considerazione una valutazione dedicata e un'analisi utilizzando un approccio basato su regole insieme a una valutazione semantica che utilizza un LLM-as-a-judge.

LLM-as-a-judge è un sistema di valutazione automatizzato che valuta le prestazioni degli agenti AI utilizzando criteri e metriche predefiniti. Anziché affidarsi esclusivamente a revisori umani, un LLM-as-a-judge applica algoritmi, euristiche o modelli di punteggio basati sull'AI per valutare le risposte, le decisioni o le azioni di un agente AI.

Vedere "Metriche di valutazione delle chiamate di funzione" di seguito.

5. Ottimizza e itera

Gli sviluppatori possono ora modificare i prompt, eseguire il debug degli algoritmi, semplificare la logica o configurare architetture agentiche in base ai risultati della valutazione. Ad esempio, i casi d'uso del supporto clienti possono essere migliorati accelerando la generazione delle risposte e i tempi di completamento delle attività. L'efficienza del sistema può essere ottimizzata per la scalabilità e l'utilizzo delle risorse.

Agenti AI

5 tipi di agenti AI: funzioni autonome e applicazioni nel mondo reale

Scopri come l'AI basata sugli obiettivi e sulle utilità si adatta ai workflow e agli ambienti complessi.

Metriche comuni di valutazione degli agenti AI

Gli sviluppatori vogliono che gli agenti funzionino come previsto. Considerata l'autonomia degli agenti AI, è importante comprendere il "perché" delle decisioni prese dall'AI. Esamina alcune delle metriche più comuni che gli sviluppatori possono utilizzare per valutare con successo i propri agenti.

Efficacia rispetto a un compito specifico

A seconda dell'applicazione AI, possono essere applicate metriche specifiche di valutazione per la qualità:

  • LLM-as-a-judge valuta la qualità della generazione di testi da parte dell'AI indipendentemente dalla disponibilità di dati di riferimento.
  • BLEU e ROUGE sono alternative a costo inferiore che valutano la qualità dei testi generati dall'AI confrontandoli con testi scritti dall'uomo.

Altre metriche funzionali per valutare le prestazioni degli agenti AI includono:

  • La percentuale di successo/completamento delle attività misura la percentuale di attività o obiettivi che l'agente completa correttamente o in modo soddisfacente rispetto al numero totale
    tentato.
  • Tasso di errore è la percentuale di output errati o operazioni non riuscite.
  • Il costo misura l'utilizzo delle risorse, come i token o il tempo di calcolo.
  • Latenza è il tempo impiegato da un agente AI per elaborare e restituire risultati.

AI etica e responsabile

  • La vulnerabilità dell'iniezione di prompt valuta il tasso di successo dei prompt avversari, alterando il comportamento previsto dell'agente.
  • Il tasso di conformità alle politiche è la percentuale di risposte conformi alle politiche organizzative o etiche predefinite.
  • Il punteggio di distorsione ed equità rileva le disparità nel processo decisionale dell'AI tra diversi gruppi di utenti.

Interazione ed esperienza utente

Per gli agenti AI che interagiscono con gli utenti, come chatbot e assistenti virtuali, i valutatori esamineranno queste metriche.

  • Lo user satisfaction score (CSAT) misura il grado di soddisfazione degli utenti verso le risposte date dall'AI.

  • Il tasso di interazione tiene traccia della frequenza con cui gli utenti interagiscono con il sistema di AI.

  • Il flusso conversazionale valuta la capacità dell'AI di portare avanti conversazioni coerenti e significative.

  • Il tasso di completamento delle attività misura l'efficacia con cui l'agente AI aiuta gli utenti a completare un'attività.

Chiamata di funzione

Questi metriche basate su regole aiutano a valutare l'efficacia operativa dei sistemi basati sull'AI:

  • Nome della funzione errato: l'agente ha tentato di chiamare una funzione esistente ma ha utilizzato un nome o un'ortografia errati, con conseguente errore nell'esecuzione.
  • Parametri obbligatori mancanti: l'agente ha avviato una chiamata di funzione ma ha omesso uno o più parametri necessari per il funzionamento della funzione.
  • Tipo di valore del parametro errato: l'agente ha fornito un valore di parametro, ma il suo tipo (stringa, numero, booleano) non corrispondeva a quello previsto dalla funzione.
  • Valori consentiti: l'agente ha utilizzato un valore non compreso nell'insieme dei valori accettati o predefiniti per un parametro specifico.
  • Parametro allucinato: l'agente ha incluso un parametro nella chiamata di funzione che non è definito o supportato dalle specifiche della funzione.

Ecco alcune metriche semantiche basate su LLM-as-a-judge.

  • La base dei valori dei parametri aiuta a garantire che ogni valore di parametro sia derivato direttamente dal testo dell'utente, dalla cronologia del contesto (come i precedenti output delle chiamate API) o dai valori predefiniti delle specifiche API.
  • La trasformazione delle unità verifica le conversioni di unità o formato (oltre ai tipi di base) tra i valori nel contesto e i valori dei parametri nella chiamata dello strumento.
Soluzioni correlate
Agenti AI per il Business

Crea, implementa e gestisci assistenti e agenti AI potenti che automatizzano workflow e processi con l'AI generativa.

    Scopri watsonx Orchestrate
    Soluzioni per agenti AI IBM

    Costruisci il futuro della tua azienda con soluzioni AI di cui puoi fidarti.

    Esplora le soluzioni basate su agenti AI
    Servizi AI di IBM Consulting

    I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

    Esplora i servizi di intelligenza artificiale
    Prossimi passi

    Sia che tu scelga di personalizzare app e competenze precostituite o di creare e implementare servizi di agenti personalizzati utilizzando uno studio di AI, la piattaforma IBM watsonx è la soluzione che fa per te.

    Scopri watsonx Orchestrate Esplora watsonx.ai