Cosa sono i benchmark LLM?

Autori

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Cosa sono i benchmark LLM?

I benchmark LLM sono framework standardizzati per valutare le prestazioni dei modelli linguistici di grandi dimensioni (LLM). Questi benchmark consistono in dati campione, una serie di domande o attività per testare gli LLM su competenze specifiche, metriche per valutare le prestazioni e un meccanismo di punteggio.

I modelli vengono valutati in base alle loro funzionalità, come la codifica, il senso compiuto e il ragionamento. Altre funzionalità comprendono l'elaborazione del linguaggio naturale, tra cui la traduzione automatica, la risposta alle domande e la sintesi del testo.

I benchmark LLM svolgono un ruolo cruciale nello sviluppo e nel miglioramento dei modelli. I benchmark mostrano i progressi di un LLM man mano che apprende, con misure quantitative che evidenziano i punti in cui il modello eccelle e le sue aree di miglioramento.

Questo, a sua volta, guida il processo di fine-tuning, che aiuta i ricercatori e gli sviluppatori LLM a far progredire il settore. I benchmark LLM forniscono anche un confronto oggettivo tra diversi modelli, aiutando gli sviluppatori di software e le organizzazioni a scegliere i modelli più adatti alle loro esigenze.

Come funzionano i benchmark LLM

I benchmark LLM funzionano in modo semplice. Forniscono un compito che un LLM deve svolgere, valutano le prestazioni del modello in base a una determinata metrica e producono un punteggio basato su tale metrica. Ecco come funziona in dettaglio ogni passaggio:

Impostazione

I benchmark LLM hanno già dei dati campione pronti: sfide di codifica, documenti di grandi dimensioni, problemi di matematica, conversazioni nel mondo reale, domande scientifiche. Sono, inoltre, disponibili anche una serie di compiti, tra cui il ragionamento di senso compiuto, la risoluzione di problemi, la risposta a domande, la generazione di sintesi e la traduzione. Tutti questi compiti vengono forniti al modello all'inizio del test.

Test

Quando si esegue il benchmark, il modello viene introdotto in uno di questi tre approcci:

Few-shot: prima di chiedere a un LLM di eseguire un'attività, gli viene fornito un piccolo numero di esempi che mostrano come adempiere a tale compito. In questo modo si dimostra la capacità del modello di apprendere in presenza di pochi dati.
Zero-shot: un LLM viene invitato a completare un compito senza aver visto alcun esempio in precedenza. Questo dimostra la capacità di un modello di comprendere nuovi concetti e di adattarsi a nuovi scenari.
Fine-tuning: un modello viene addestrato su un set di dati simile a quello utilizzato dal benchmark. L'obiettivo è aumentare il controllo dell'LLM sull'attività associata al benchmark e ottimizzarne le prestazioni in quel compito specifico.

Punteggio

Una volta terminati i test, il benchmark di un LLM calcola quanto l'output di un modello si avvicini alla soluzione prevista o alla risposta standard, generando quindi un punteggio compreso tra 0 e 100.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Metriche chiave per il benchmarking degli LLM

I benchmark applicano metriche diverse per valutare le prestazioni degli LLM. Ecco alcune di quelle più comuni:

L'accuratezza, o precisione, calcola la percentuale di previsioni corrette.
Il richiamo, chiamato anche tasso di sensibilità, quantifica il numero di veri positivi (le previsioni effettivamente corrette).
Il punteggio F1 unisce precisione e richiamo in una metrica. Ritiene che le due misure abbiano lo stesso peso per bilanciare eventuali falsi positivi o falsi negativi. I punteggi F1 vanno da 0 a 1, dove 1 indica un richiamo e una precisione eccellenti.
La corrispondenza esatta è la percentuale di predizioni a cui un LLM corrisponde esattamente ed è un criterio importante per la traduzione e la risposta alle domande.
La perplessità misura la capacità di previsione di un modello. Più basso è il punteggio di perplessità di un LLM, migliore è la sua capacità di comprendere un compito.
Il bilingual evaluation understudy (BLEU) valuta la traduzione automatica calcolando gli n-grammi corrispondenti (una sequenza di n simboli di testo adiacenti) tra la traduzione prevista da un LLM e una traduzione prodotta dall'uomo.
Il recall-oriented understudy for gisting evaluation (ROUGE) valuta la sintesi del testo e ne esistono diversi tipi. ROUGE-N, ad esempio, esegue calcoli simili a quelli del BLEU per i riassunti, mentre ROUGE-L calcola la sottosequenza comune più lunga tra il riepilogo previsto e quello prodotto dall'uomo.

Una o più di queste metriche quantitative vengono generalmente combinate per una valutazione più completa e solida.

Nel frattempo, la valutazione umana implica metriche qualitative come coerenza, pertinenza e significato semantico. I valutatori umani che esaminano e assegnano un punteggio a un LLM possono fornire una valutazione più sfumata, ma può essere un'operazione laboriosa, soggettiva e dispendiosa in termini di tempo. Pertanto, è necessario un equilibrio tra metriche quantitative e qualitative.

AI Academy

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Scopri una nuova classe di modelli AI flessibili e riutilizzabili che possono sbloccare nuove entrate, ridurre i costi e aumentare la produttività, consulta quindi la nostra guida per approfondire.

Vai all'episodio

Limiti dei benchmark LLM

Sebbene i benchmark siano solidi indicatori delle prestazioni di un LLM, non possono prevedere quanto bene funzionerà un modello nel mondo reale. Ecco alcuni dei limiti dei benchmark LLM:

Punteggio limitato

Una volta che un modello raggiunge il punteggio più alto possibile per un determinato benchmark, quest'ultimo dovrà essere aggiornato con compiti più difficili per renderlo una misura utile.

Ampio set di dati

Poiché i benchmark LLM utilizzano dati campione derivati per lo più da un'ampia gamma di soggetti e da una vasta gamma di compiti, potrebbero non essere una metrica adatta a scenari marginali, aree specializzate o casi d'uso specifici.

Valutazioni circoscritte

I benchmark LLM possono testare solo le capacità attuali di un modello. Ma man mano che gli LLM avanzano ed emergono nuove capacità, dovranno essere creati nuovi benchmark.

Overfitting

Se un LLM viene addestrato sullo stesso set di dati del benchmark, potrebbe portare a un overfitting, ovvero il modello potrebbe funzionare bene sui dati del test ma non sui dati del mondo reale. Il risultato è un punteggio che non riflette le reali capacità di un LLM.

Cosa sono le classifiche LLM?

Le leaderboard dei LLM pubblicano una classifica degli LLM basata su una serie di benchmark. Le classifiche offrono un modo per tenere traccia della miriade di LLM e confrontare le loro prestazioni. Le classifiche LLM sono particolarmente utili per decidere quali modelli utilizzare.

In genere, ogni benchmark ha la sua classifica, ma esistono anche classifiche LLM indipendenti. Ad esempio, Hugging Face ha una raccolta di classifiche, una delle quali è una classifica LLM aperta che classifica diversi modelli open source basati sui benchmark ARC, HellaSwag, MMLU, GSM8K, TruthfulQA e Winogrande.

Benchmark comuni per gli LLM

I ricercatori classificano i benchmark LLM in base a questi due aspetti: ¹

Criteri di valutazione: le metriche di valutazione dell'LLM possono essere la verità di base o le preferenze umane. La verità di base si riferisce a informazioni che si presume siano vere, mentre le preferenze umane sono scelte che riflettono l'uso nel mondo reale.
Fonte delle domande: i prompt possono provenire da fonti statiche o attive. I prompt statici contengono domande predefinite, mentre i prompt in tempo reale sono domande poste in un ambiente interattivo.

I benchmark possono rientrare in una o più di queste categories. Ecco come funzionano alcuni dei benchmark più comuni:

AI2 Reasoning Challenge (ARC)

L'ARC misura le capacità di risposta e ragionamento di un LLM attraverso una serie di oltre 7.000 domande di scienze naturali delle scuole elementari. Queste domande sono divise in una serie facile e una serie impegnativa. Il punteggio è semplice, con un modello che ottiene un punto per ogni risposta corretta e 1/N punti se fornisce più risposte e una di queste è corretta.²

Chatbot Arena

Chatbot Arena è una piattaforma di benchmark aperta che mette due chatbot anonimi l'uno contro l'altro. Gli utenti hanno conversazioni casuali nel mondo reale con entrambi i chatbot in un'"arena", poi votano quale preferiscono, dopodiché vengono rivelate le identità delle modelle. Questi dati di confronto a coppie raccolti in crowdsourcing vengono inseriti in metodi statistici che stimano i punteggi e creano classifiche approssimative per i vari LLM. Vengono utilizzati anche algoritmi di campionamento per accoppiare i modelli.¹

Grade School Math 8K (GSM8K)

GSM8K mette alla prova le capacità di ragionamento matematico di un LLM. Contiene un corpus di 8.500 problemi matematici adatti alle scuole elementari. Le soluzioni sono raccolte sotto forma di linguaggio naturale invece che di espressioni matematiche. I verificatori dell'AI sono addestrati per valutare le soluzioni dei modelli.³

HellaSwag

HellaSwag è l'acronimo di “Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations", ovvero "Finali più difficili, contesti più lunghi e attività a basso impatto per situazioni con generazioni avverse". Questo benchmark è incentrato sul ragionamento di senso comune e sull'inferenza del linguaggio naturale. Ai modelli viene chiesto di completare le frasi scegliendo tra un certo numero di possibili finali. Questi finali includono risposte sbagliate create tramite l'adversial filtering, un algoritmo che genera risposte realistiche, ma ingannevolmente errate. HellaSwag valuta la precisione sia per le categorie few-shot che per quelle zero-shot.⁴

HumanEval

HumanEval valuta le prestazioni di un LLM in termini di generazione di codice, in particolare di correttezza funzionale. Ai modelli vengono assegnati problemi di programmazione da risolvere e vengono valutati in base al superamento dei test unitari corrispondenti. È simile agli sviluppatori di software umani che verificano se il loro codice è corretto in base al superamento di particolari test unitari. Il benchmark HumanEval utilizza una propria metrica di valutazione chiamata pass@k, che è la probabilità che almeno una delle k soluzioni di codice generate per un problema di codifica superi i test unitari di quel problema.⁵

Massive Multitask Language Understanding (MMLU)

MMLU è un benchmark che valuta l'ampiezza delle conoscenze di un LLM, la profondità della sua comprensione del linguaggio naturale e la sua capacità di risolvere i problemi sulla base delle conoscenze acquisite. Il set di dati di MMLU comprende più di 15.000 domande di cultura generale a scelta multipla su 57 materie. La valutazione avviene esclusivamente in impostazioni few-shot e zero-shot. Il benchmark MMLU valuta la precisione di un modello in ogni materia, quindi calcola la media di questi numeri per ottenere un punteggio finale.⁶

Mostly Basic Programming Problems (MBPP)

MBPP, noto anche come Mostly Basic Python Problems, è un altro benchmark per la generazione di codice. Ha un corpus di oltre 900 attività di codifica. Simile a HumanEval, valuta la correttezza funzionale in base al superamento di una serie di casi di test. La valutazione avviene con impostazioni few-shot e fine-tuned. MBPP utilizza due metriche: la percentuale di problemi risolti da qualsiasi campione del modello e la percentuale di campioni che risolvono i rispettivi compiti.⁷

MT-Bench

I ricercatori che hanno creato Chatbot Arena hanno anche creato MT-Bench, progettato per testare la capacità di un LLM di dialogare e seguire le istruzioni. Il suo set di dati consiste in domande aperte a più turni, con 10 domande ciascuna in queste otto aree: codifica, estrazione, conoscenza I (STEM), conoscenza II (scienze umane e sociali), matematica, ragionamento, gioco di ruolo e scrittura. MT-Bench utilizza l'LLM GPT-4 per valutare le risposte di altri LLM.⁸

SWE-bench

Come HumanEval, SWE-bench verifica le capacità di generazione di codice di un LLM, con particolare attenzione alla risoluzione dei problemi. I modelli sono incaricati di risolvere un bug o di rispondere a una richiesta di funzionalità in una specifica base di codice. La metrica di valutazione del benchmark è la percentuale di istanze di task risolte.⁹

TruthfulQA

I modelli linguistici di grandi dimensioni hanno la tendenza ad avere allucinazioni, dando luogo a risultati imprecisi. Il benchmark TruthfulQA mira ad affrontare questo problema misurando la capacità di un LLM di generare risposte veritiere alle domande. Il suo set di dati contiene più di 800 domande su 38 argomenti. TruthfulQA combina la valutazione umana con l'LLM GPT-3 regolato sulle metriche BLEU e ROUGE per prevedere le valutazioni umane di informatività e veridicità.¹⁰

Winogrande

Winogrande valuta le capacità di ragionamento di senso compiuto di un LLM. Si basa sul benchmark originale Winograd Schema Challenge (WSC), con un enorme set di dati di 44.000 problemi raccolti in crowdsourcing che utilizza anche l'adversial filtering. Il punteggio si basa sull'accuratezza^.11

Come scegliere il giusto foundation model

Impara a scegliere l'approccio giusto nella preparazione dei set di dati e nell'impiego dei foundation model.

Cosa sono i benchmark LLM?

Autori

Cosa sono i benchmark LLM?

Come funzionano i benchmark LLM

Impostazione

Test

Punteggio

Le ultime tendenze in materia di AI, proposte da esperti

Grazie per aver effettuato l'iscrizione!

Metriche chiave per il benchmarking degli LLM

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Limiti dei benchmark LLM

Cosa sono le classifiche LLM?

Benchmark comuni per gli LLM

AI2 Reasoning Challenge (ARC)

Chatbot Arena

Grade School Math 8K (GSM8K)

HellaSwag

HumanEval

Massive Multitask Language Understanding (MMLU)

Mostly Basic Programming Problems (MBPP)

MT-Bench

SWE-bench

TruthfulQA

Winogrande

Risorse