Valutazione LLM: perché è importante testare i modelli AI

Due persone guardano pensose lo schermo di un computer

Autori

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Immagina che un'azienda assuma un nuovo dipendente. Il suo curriculum è eccellente e svolge tutte le sue mansioni in modo rapido ed efficiente. Tecnicamente il suo lavoro è svolto correttamente, ma viene svolto bene? È di alta qualità, preciso e affidabile?

Come per ogni nuova assunzione, i manager dedicano del tempo a controllare il lavoro svolto, per assicurarsi che rispetti gli standard aziendali e che sia corretto. Via via che l'intelligenza artificiale (AI) riveste un ruolo più importante negli output e nelle decisioni aziendali, le aziende devono fare lo stesso per gli LLM.

I modelli linguistici di grandi dimensioni (LLM) sono foundation model che vengono addestrati su immense quantità di dati e utilizzati per attività correlate alla comprensione e alla generazione di testi. Ad esempio, questo tipo di sistema di AI è particolarmente utile in lavori quali la creazione di contenuti, la sintesi e l'analisi del sentiment.

Gli LLM hanno rivoluzionato il campo dell'elaborazione del linguaggio naturale (PNL) e hanno portato l'AI generativa agli occhi del pubblico in nuovi modi. Chat GPT-3 e GPT-4 di OpenAI, insieme a Llama di Meta, sono gli esempi più noti, tuttavia un'ampia gamma di LLM viene utilizzata in vari domini. Gli LLM potenziano strumenti di AI come chatbot, assistenti virtuali, strumenti di traduzione linguistica e sistemi di generazione di codice.

Poiché le applicazioni LLM vengono adottate sempre più ampiamente, soprattutto in settori ad alto rischio come la sanità e la finanza, testarne l'output diventa sempre più importante. È qui che entra in gioco la valutazione LLM.

Che cos'è la valutazione LLM?

La valutazione LLM è il processo di valutazione delle prestazioni e delle funzionalità dei modelli linguistici di grandi dimensioni. La valutazione LLM prevede l'esecuzione di test su questi modelli in varie attività, set di dati e metriche per valutarne l'efficacia.

I metodi di valutazione possono utilizzare benchmark automatizzati e valutazioni condotte da esseri umani per individuare i punti di forza e i punti deboli di un LLM. Il processo prevede il confronto degli output del modello con i dati ground truth (informazioni che si presume siano vere) o con le risposte generate dall'uomo per determinare l'accuratezza, la coerenza e l'affidabilità del modello. I risultati della valutazione LLM aiutano i ricercatori e gli sviluppatori a identificare le aree di miglioramento. I processi di valutazione sono anche una componente centrale delle operazioni dei modelli linguistici di grandi dimensioni, o LLMOps, che prevedono la gestione operativa degli LLM.

Perché la valutazione LLM è importante?

Via via che gli LLM rivestono un ruolo più importante nella vita quotidiana, la loro valutazione aiuta a garantire che funzionino come previsto. Oltre alle esigenze tecniche, la valutazione LLM aiuta anche a creare fiducia tra gli utenti e gli stakeholder.

La valutazione LLM può aiutare con:

  • Prestazioni del modello
  • Considerazioni etiche
  • Benchmarking comparativo
  • Sviluppo di un nuovo modello
  • Fiducia da parte di utenti e stakeholder

Prestazioni del modello

La valutazione LLM mostra se il modello funziona come previsto e genera output di alta qualità in tutti i suoi compiti e domini. Oltre alla funzionalità di base, la valutazione può rivelare le sfumature della comprensione del linguaggio, la qualità della generazione e la competenza in un'attività specifica. Può anche individuare i potenziali punti deboli, come le lacune di conoscenza o le incongruenze nel ragionamento, consentendo ai ricercatori e agli sviluppatori di indirizzare meglio i miglioramenti.

Considerazioni etiche

Via via che vengono sviluppati, gli LLM sono influenzati dai bias umani, soprattutto attraverso i dati di addestramento. La valutazione è un modo per identificare e mitigare potenziali pregiudizi o imprecisioni nelle risposte del modello. L'attenzione all'etica dell'AI supporta risultati concreti e aiuta a proteggersi dalla tecnologia che perpetua le disuguaglianze.

Benchmarking comparativo

La valutazione LLM consente alle persone di confrontare le prestazioni di diversi modelli e di scegliere quello migliore per il caso d'uso specifico. Offre un metodo standardizzato per confrontare i risultati delle metriche delle prestazioni grezze con fattori quali l'efficienza computazionale e la scalabilità.

Sviluppo di un nuovo modello

Gli insight acquisiti dalla valutazione LLM possono guidare lo sviluppo di nuovi modelli. La valutazione LLM aiuta i ricercatori a trovare modi per creare nuove tecniche di addestramento, progetti di modelli o funzionalità specifiche.

Fiducia da parte di utenti e stakeholder

La valutazione LLM supporta la trasparenza nello sviluppo e aumenta la fiducia nell'output. Di conseguenza, aiuta le organizzazioni a stabilire aspettative realistiche e a promuovere la fiducia negli strumenti AI.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Notizie e insight a cura di esperti di AI, cloud e molto altro nella newsletter settimanale Think. 

Valutazione del modello LLM e valutazione del sistema LLM

Sebbene strettamente correlate, la valutazione LLM e la valutazione del sistema LLM hanno obiettivi distinti.

La valutazione LLM (chiamata anche "valutazione del modello LLM") valuta le prestazioni di un modello. Esamina il modello linguistico di base, concentrandosi sulla sua capacità di comprendere e generare testo in diverse attività e domini. La valutazione del modello solitamente comporta il test delle sue funzionalità. Queste funzionalità includono la comprensione del linguaggio, la qualità dei risultati che genera e le prestazioni di attività specifiche.

La valutazione del sistema LLM è più completa e fornisce insight sulle prestazioni end-to-end dell'applicazione basata su LLM. La valutazione del sistema esamina l'intero ecosistema costruito attorno a un LLM e include scalabilità, sicurezza e integrazione con altri componenti, come API o database.

In breve, la valutazione del modello è finalizzata ad assicurarsi che il modello LLM funzioni per compiti specifici, mentre la valutazione del sistema è uno sguardo più olistico al suo uso e alla sua efficacia nel complesso. Entrambi sono essenziali per lo sviluppo di applicazioni LLM robuste ed efficaci.

Metriche della valutazione LLM

Il primo passo nella valutazione LLM consiste nel definire i criteri di valutazione generale in base all'uso previsto del modello. Esistono numerose metriche utilizzate per la valutazione e le più comuni includono:

  • di accuratezza
  • Richiamo
  • Punteggio F1
  • Coerenza
  • Perplessità
  • BLEU
  • ROUGE
  • Latenza
  • Tossicità

di accuratezza

Calcola la percentuale di risposte corrette in attività come la classificazione o la risposta alle domande.

Richiamo

Misura il numero effettivo di veri positivi, o previsioni corrette, rispetto a quelle false nelle risposte LLM.

Punteggio F1

Unisce precisione e richiamo in una metrica. I punteggi F1 variano da 0 a 1, dove 1 indica richiamo e precisione eccellenti.

Coerenza

Valuta il flusso logico e la coerenza del testo generato.

Perplessità

Misura quanto bene il modello prevede una sequenza di parole o un campione di testo. Più il modello prevede il risultato corretto in modo coerente, più basso è il suo punteggio di perplessità.

BLEU (Bilingual Evaluation Understudy)

Valuta la qualità del testo generato dalla macchina, in particolare nelle attività di traduzione.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Valuta la qualità dei riassunti di testo confrontandoli con quelli creati dagli esseri umani.

Latenza

Misura l'efficienza e la velocità complessiva del modello.

Tossicità

Misura la presenza di contenuti dannosi o offensivi negli output del modello.

Applicazione dei framework di valutazione e dei benchmark LLM

I valutatori LLM stabiliscono criteri di valutazione chiari e quindi scelgono un framework che offre una metodologia completa per valutare le prestazioni di un modello. Ad esempio, il framework Foundation Model Evaluation (FM-eval) di IBM viene utilizzato per convalidare e valutare nuovi LLM in modo sistematico, riproducibile e coerente.

All'interno dei framework di valutazione ci sono i benchmark LLM, ovvero attività o set di dati standardizzati utilizzati per analizzare i risultati e guidare il processo di valutazione. Mentre i framework definiscono come valutare un LLM, i benchmark definiscono cosa valutare, ovvero le attività e i dati specifici.

I benchmark LLM sono costituiti da set di dati campione, attività e modelli di prompt per testare gli LLM su competenze specifiche, come la risposta alle domande, la traduzione automatica, il riassunto e l'analisi del sentiment. Includono anche metriche per la valutazione delle prestazioni e un meccanismo di punteggio. I loro criteri di valutazione possono basarsi sul ground truth o sulle preferenze umane.

Valutando gli LLM in base a questi benchmark, gli sviluppatori possono confrontare le prestazioni di diversi modelli e monitorare i progressi nel tempo. Alcuni esempi di benchmark LLM ampiamente utilizzati includono:

  • Set di dati Massive Multitask Language Understanding (MMLU), ovvero un insieme di domande a scelta multipla che riguardano vari domini.
  • HumanEval, che valuta le prestazioni di un LLM in termini di generazione di codice, in particolare di correttezza funzionale.
  • TruthfulQA, che affronta i problemi di allucinazione misurando la capacità di un LLM di generare risposte veritiere alle domande.
  • General Language Understanding Evaluation (GLUE) e SuperGLUE, che verifica le prestazioni dei modelli di elaborazione del linguaggio naturale (NLP), in particolare quelli progettati per attività di comprensione del linguaggio.
  • La libreria di set di dati Hugging Face, che fornisce l'accesso open source a numerosi set di dati di valutazione.

I benchmark selezionati vengono introdotti nell'LLM tramite test zero-shot, few-shot e di messa a punto per vedere come funziona il modello. Con pochi test, si esegue la valutazione LLM in base alla capacità di funzionare con dati limitati dopo aver ricevuto un numero limitato di esempi etichettati che mostrano come svolgere il compito. I test zero-shot chiedono all'LLM di completare un'attività senza esempi, testando come si adatta alle nuove circostanze. La messa a punto addestra il modello su un set di dati simile a quello utilizzato dal benchmark per migliorare la padronanza di un compito specifico da parte dell'LLM.

I risultati della valutazione LLM possono essere utilizzati per perfezionare e iterare il modello regolando i parametri, ottimizzando o persino riaddestrando attraverso nuovi dati.

LLM-as-a-judge o Human-in-the-loop

Nella valutazione degli output del modello, sviluppatori e ricercatori utilizzano due approcci: LLM-as-a-judge e human-in-the-loop.

Nella valutazione LLM-as-a-judge, l'LLM stesso viene utilizzato per valutare la qualità dei propri output. Ad esempio, ciò potrebbe includere il confronto del testo generato da un modello con un set di dati fondati o l'utilizzo di metriche come perplessità o F1 per misurare i risultati.

Con l'approccio human-in-the-loop, sono degli umani a valutare la qualità degli output dell'LLM. Questo tipo di valutazione può essere utile per valutazioni più precise, come la coerenza, la pertinenza e l'esperienza dell'utente, che sono difficili da acquisire solo attraverso metriche automatiche.

Casi d'uso della valutazione LLM

La valutazione LLM ha molti casi d'uso pratici. Ecco alcuni esempi:

Valutazione dell'accuratezza di un sistema di risposta alle domande

Nella retrieval-augmented generation (RAG), la valutazione LLM può aiutare a testare la qualità delle risposte generate dal modello. I ricercatori possono utilizzare set di dati come SQuAD (Stanford Question Answering Dataset) o TruthfulQA per verificare l'accuratezza di un sistema di domande e risposte basato su LLM, confrontando le risposte del modello con le risposte ground truth.

Valutazione della fluidità e della coerenza del testo generato

Utilizzando metriche come BLEU e la valutazione umana, i ricercatori possono testare la qualità delle risposte testuali offerte dai chatbot o dai sistemi di traduzione automatica. Questo aiuta a garantire che il testo generato sia scorrevole, coerente e appropriato per il contesto.

Rilevamento di bias e tossicità

Utilizzando set di dati e metriche specializzati, i ricercatori possono valutare la presenza di pregiudizi e contenuti tossici nel testo generato da un LLM. Ad esempio, il set di dati ToxiGen può essere utilizzato per valutare la tossicità degli output del modello, il che potrebbe portare ad applicazioni più sicure e inclusive.

Confronto delle prestazioni di diversi LLM

I ricercatori possono utilizzare set di dati benchmark come GLUE o SuperGLUE per confrontare le prestazioni di diversi LLM in varie attività di NLP, come l'analisi del sentiment o la named entity recognition.

In questi e in altri casi d'uso, la valutazione LLM può offrire importanti benefici per le aziende. Identificando le aree di miglioramento e le opportunità per affrontare i punti deboli, la valutazione LLM può portare a una migliore esperienza utente, a minori rischi e a un potenziale vantaggio competitivo.

Problematiche della valutazione LLM

Nonostante tutti i benefici, la valutazione LLM presenta anche alcune problematiche e limitazioni. Il ritmo veloce dello sviluppo degli LLM rende difficile stabilire benchmark standardizzati e duraturi. Valutare la comprensione contestuale è impegnativo, così come rilevare le sfumature più sottili dei bias.

Anche la spiegabilità è un problema: gli LLM sono spesso visti come "black box,", il che rende difficile interpretare il loro processo decisionale ai fini della valutazione e identificare i fattori che contribuiscono ai loro output.

Inoltre, molti set di dati di valutazione non sono rappresentativi di varie lingue o culture. Di conseguenza, i modelli testati con questi set di dati potrebbero funzionare bene su benchmark specifici, ma comunque vacillare in scenari reali.

Poiché gli LLM e altre applicazioni complesse di machine learning continuano a essere sviluppati e applicati in nuovi modi, superare tali sfide per garantire una valutazione efficace giocherà un ruolo importante nell'aiutare i valutatori e gli sviluppatori a migliorare l'efficacia, la sicurezza e l'uso etico degli LLM.

Risorse

Cos'è la governance dell'AI?
Argomento correlato
Cos'è la gestione del rischio AI?
Blog
Che cos'è l'etica dell'AI?
Argomento correlato
Che cos'è LLMOps?
Argomento correlato

Fai il passo successivo

Accelera workflow di AI responsabili, trasparenti e spiegabili attraverso il ciclo di vita dei modelli generativi e di machine learning. Dirigi, gestisci e monitora le attività di AI della tua organizzazione per gestire meglio le crescenti normative in materia di AI e rilevare e ridurre i rischi.

Esplora watsonx.governance Prenota una demo live