I modelli AI vengono sempre più chiamati a valutarsi da soli, sollevando una domanda critica: chi osserva gli osservatori?
Le aziende di AI stanno sviluppando modelli per valutare altri sistemi di AI, segnando un cambiamento rispetto ai metodi tradizionali di valutazione guidati dall'uomo. Il nuovo modello di Meta, ad esempio, può valutare le prestazioni dell'AI senza input umano. E sta alimentando discussioni tra i ricercatori sulla precisione e i limiti dei test automatizzati.
Il Valutatore Autodidatta utilizza i dati di formazione generati dall'AI e la tecnica della catena di pensiero per valutare le risposte di scienza, codifica e matematica. L'obiettivo è la trasparenza, ma comporta dei rischi. "Questo è un grosso problema: convalidare i validatori", afferma Kush Varshney, IBM Fellow. L'autovalutazione dell'AI promette una maggiore efficienza, ma comporta anche rischi seri. Varshney e il suo team in IBM stanno sviluppando metriche per modelli LLM-as-a-judge, cioè LLM che possono valutare altri output dell'AI. Tuttavia, come dice Varshney, "Questo è un problema di ricerca molto aperto."
La preoccupazione principale è se ci si possa fidare dei modelli AI affinché migliorino se stessi o se rischino di amplificare i propri errori.
"Pensiamo a cosa succede quando avviciniamo un microfono a un altoparlante", dice Varshney. "In qualsiasi sistema di feedback, gli errori o il rumore vengono amplificati."
Il valutatore autodidatta di Meta cerca di mitigare questi rischi fornendo una traccia di ragionamento, in modo simile a come un essere umano spiega il proprio processo di pensiero. Tuttavia, affidarsi a dati sintetici e all'auto-miglioramento solleva una domanda: i giudizi del modello sono imparziali? Il bias si verifica quando l'output di un sistema AI riflettono assunzioni ingiuste o distorte, tipicamente a causa di dati o algoritmi distorti.
"L'obiettivo deve essere rendere i giudici LLM imparziali, quindi dobbiamo valutare il loro pregiudizio," afferma Varshney. Un metodo prevede il mescolare delle risposte a scelta multipla per determinare se un modello mostra un bias posizionale, cioè favorisce una risposta rispetto ad altre. Insieme al bias di verbosità e al bias di auto-miglioramento, i bias posizionali possono tutti distorcere le valutazioni. "Gestire questi rischi fa parte dello sviluppo dell'AI", afferma Varshney. Il progresso dell'AI responsabile richiede di identificare e mitigare i bias.
Garantire un'autovalutazione affidabile dell'AI è ancora più impegnativo nei campi specializzati come la matematica avanzata e la ricerca scientifica. Ciò significa che spesso sono necessari esperto umani per convalidare i risultati e mantenere i sistemi di AI affidabili e in linea con le aspettative.
"Ci sono molti trucchi per riuscirci, come ad esempio mischiare le risposte a scelta multipla", afferma Varshney.
Secondo Dev Nag, Fondatore e CEO di QueryPal, il valutatore autodidatta di Meta si occupa di amplificare e scalare il giudizio umano, non di eliminare l'uomo dal ciclo.
"Pensiamolo come un insegnante potrebbe che inventa problemi di esercitazione basati sulla sua comprensione di ciò che rende una risposta buona o cattiva," dice Nag. "Proprio come AlphaGo ha utilizzato le regole del Go come base prima di impegnarsi nel gioco autonomo, il valutatore autodidatta si basa su criteri di qualità stabiliti dall'uomo prima di generare esempi di addestramento sintetici che incorporano implicitamente il giudizio umano."
Anche con l'AI auto-monitorante, audit periodici possono individuare bias o problemi nascosti, afferma Dan O'Toole, Presidente e CEO di Arrive AI.
"Utilizzare più modelli AI per eseguire la stessa valutazione in modo indipendente, o concatenarli in sequenza, riduce gli errori e mette in evidenza potenziali problemi", afferma. Anche la spiegabilità è essenziale. "La chain of thought è un passo importante verso la trasparenza e l'aumento dell'affidabilità."
O'Toole sottolinea che le metriche specializzate sono fondamentali per campi come la matematica avanzata e la ricerca scientifica. Meta, ad esempio, ha utilizzato MT-Bench e RewardBench per valutazioni di carattere generale, afferma, ma benchmark come GSM8K sono adatti per la risoluzione di problemi matematici. CRUXEval può aiutare nel ragionamento del codice, mentre i benchmark specifici per dominio come FactKB, PubMed e SciBench aiutano a garantire che i modelli soddisfino esigenze specifiche.
Nag sottolinea che misurare le prestazioni e garantire l'affidabilità è fondamentale, soprattutto nei settori specializzati. Ritiene che il benchmark definitivo dovrebbe essere la corrispondenza dei risultati con le valutazioni effettuate dagli esperti umani del settore.
"L'accordo dell'88,7% del valutatore autodidatta con i giudizi umani su RewardBench è una base solida, ma monitorare altri fattori, come la coerenza, la spiegabilità e la capacità del sistema di identificare i casi limite, è altrettanto importante," afferma. "Proprio come la riproduzione autonoma di AlphaGo è stata convalidata dalle sue prestazioni contro campioni umani, i sistemi di valutazione devono essere regolarmente testati contro gruppi di esperti del settore."
Jen Clark, che dirige i servizi di consulenza e tecnologia presso EisnerAmper, sottolinea che lo sviluppo dell'AI richiede framework per garantire sia la sicurezza che il progresso efficace.
"Poiché l'AI continua ad avanzare, è fondamentale affidarsi a metodologie che hanno supportato la ricerca umana, come il metodo scientifico, comunità forti e reti di collaborazione", afferma. "Concentrare gli sforzi in questo ambito è essenziale per il crowdsourcing della sicurezza dell'AI e per gestire la velocità e la scala del suo sviluppo."