La valutazione di un agente AI richiede un approccio strutturato all'interno di un quadro di osservabilità formale più ampio. I metodi di valutazione (o eval) variano notevolmente, ma il processo in genere prevede i seguenti passaggi:
1. Definire gli obiettivi e le metriche di valutazione
Qual è lo scopo dell'agente? Quali sono i risultati attesi? Come viene utilizzata l'AI in scenari reali?
Vedi "Metriche comuni di valutazione degli agenti AI" per alcune delle metriche più diffuse, che rientrano nelle seguenti categorie: prestazioni, interazione ed esperienza utente, AI etica e responsabile, sistema ed efficienza e metriche per attività specifiche.
2. Raccogliere i dati e prepararsi per i test
Per valutare efficacemente un agente AI, utilizza set di dati rappresentativi, inclusi diversi input che riflettono scenari reali e scenari di test che simulano condizioni in tempo reale. I dati annotati rappresentano una verità fondamentale contro cui i modelli AI possono essere testati.
Pianifica ogni possibile passaggio del workflow di un agente, che si tratti di chiamare un'API, di passare informazioni a un secondo agente o di prendere una decisione. Suddividendo il workflow AI in singoli pezzi, è più facile valutare come l'agente gestisce ogni fase. Considera anche l'intero approccio dell'agente in tutto il workflow, o in altre parole, il percorso di esecuzione che l'agente intraprende per risolvere un problema in più fasi.
3. Condurre i test
Esegui l'agente AI in ambienti diversi, potenzialmente con diversi LLM come base, e monitora le prestazioni. Suddividi i singoli passaggi dell'agente e valutane ciascuno. Ad esempio, monitora l'uso da parte dell'agente della retrieval-augmented generation (RAG) per recuperare informazioni da un database esterno o la risposta di una chiamata API.
4. Analizzare i risultati
Confronta i risultati con criteri di successo predefiniti, se esistono e, in caso contrario, usa un LLM-as-a-judge (vedi sotto). Valuta i compromessi bilanciando le prestazioni con considerazioni etiche.
L'agente ha scelto lo strumento giusto? Ha chiamato la funzione corretta? Ha trasmesso le informazioni giuste nel contesto giusto? Ha prodotto una risposta effettivamente corretta?
La chiamata di funzione/l'uso di strumenti è un'abilità fondamentale per la creazione di agenti intelligenti in grado di fornire risposte contestualmente accurate in tempo reale. Si consiglia di prendere in considerazione una valutazione dedicata e un'analisi utilizzando un approccio basato su regole insieme a una valutazione semantica che utilizza un LLM-as-a-judge.
LLM-as-a-judge è un sistema di valutazione automatizzato che valuta le prestazioni degli agenti AI utilizzando criteri e metriche predefiniti. Anziché affidarsi esclusivamente a revisori umani, un LLM-as-a-judge applica algoritmi, euristiche o modelli di punteggio basati sull'AI per valutare le risposte, le decisioni o le azioni di un agente AI.
Vedere "Metriche di valutazione delle chiamate di funzione" di seguito.
5. Ottimizza e itera
Gli sviluppatori possono ora modificare i prompt, eseguire il debug degli algoritmi, semplificare la logica o configurare architetture agentiche in base ai risultati della valutazione. Ad esempio, i casi d'uso del supporto clienti possono essere migliorati accelerando la generazione delle risposte e i tempi di completamento delle attività. L'efficienza del sistema può essere ottimizzata per la scalabilità e l'utilizzo delle risorse.