I benchmark LLM sono framework standardizzati per valutare le prestazioni dei modelli linguistici di grandi dimensioni(LLM). Questi benchmark consistono in dati campione, una serie di domande o attività per testare gli LLM su competenze specifiche, metriche per valutare le prestazioni e un meccanismo di punteggio.
I modelli vengono confrontati in base alle loro funzionalità, come la codifica, il senso compiuto e il ragionamento. Altre funzionalità comprendono l'elaborazione del linguaggio naturale, tra cui la traduzione automatica, la risposta alle domande e la sintesi del testo.
I benchmark LLM svolgono un ruolo cruciale nello sviluppo e nel miglioramento dei modelli. I benchmark mostrano i progressi di un LLM man mano che apprende, con misure quantitative che evidenziano in cosa il modello eccelle e le sue aree di miglioramento.
Questo, a sua volta, guida il processo di fine-tuning, che aiuta i ricercatori e gli sviluppatori LLM a far progredire il settore. I benchmark LLM forniscono anche un confronto oggettivo tra diversi modelli, aiutando gli sviluppatori di software e le organizzazioni a scegliere i modelli più adatti alle loro esigenze.
I benchmark LLM funzionano in modo semplice. Forniscono un compito che un LLM deve svolgere, valutano le prestazioni del modello in base a una determinata metrica e producono un punteggio basato su tale metrica. Ecco come funziona ogni fase nel dettaglio:
I benchmark LLM hanno già dei dati campione pronti: sfide di codifica, documenti di grandi dimensioni, problemi di matematica, conversazioni nel mondo reale, domande scientifiche. Sono, inoltre, disponibili anche una serie di compiti, tra cui il ragionamento sensato, la risoluzione di problemi, la risposta a domande, la generazione di sintesi e la traduzione. Tutti questi compiti vengono forniti al modello all'inizio del test.
Quando si esegue il benchmark, il modello viene introdotto in uno di questi tre approcci:
Few-shot: prima di chiedere a un LLM di eseguire un'attività, gli viene fornito un piccolo numero di esempi che mostrano come adempiere a tale compito. In questo modo si dimostra la capacità del modello di apprendere in presenza di pochi dati.
Zero-shot: un LLM viene invitato a completare un compito senza aver visto alcun esempio in precedenza. Questo dimostra la capacità di un modello di comprendere nuovi concetti e di adattarsi a nuovi scenari.
Fine-tuning: un modello viene addestrato su un set di dati simile a quello utilizzato dal benchmark. L'obiettivo è aumentare il controllo dell'LLM sull'attività associata al benchmark e ottimizzarne le prestazioni in quel compito specifico.
Una volta terminati i test, il benchmark di un LLM calcola quanto l'output di un modello si avvicini alla soluzione prevista o alla risposta standard, generando quindi un punteggio compreso tra 0 e 100.
I benchmark applicano metriche diverse per valutare le prestazioni degli LLM. Ecco alcune di quelle più comuni:
L'accuratezza o la precisione calcola la percentuale di previsioni corrette.
Il richiamo, anche noto come tasso di sensibilità, quantifica il numero di veri positivi (le previsioni effettivamente corrette).
Il punteggio F1 unisce precisione e richiamo in una metrica. Ritiene che le due misure abbiano lo stesso peso per bilanciare eventuali falsi positivi o falsi negativi. I punteggi F1 vanno da 0 a 1, dove 1 indica un richiamo e una precisione eccellenti.
La corrispondenza esatta è la percentuale di predizioni a cui un LLM corrisponde esattamente ed è un criterio importante per la traduzione e la risposta alle domande.
La perplessità misura la capacità di previsione di un modello. Più basso è il punteggio di perplessità di un LLM, migliore è la sua capacità di comprendere un compito.
Il bilingual evaluation understudy (BLEU) valuta la traduzione automatica calcolando gli n-grammi corrispondenti (una sequenza di n simboli di testo adiacenti) tra la traduzione prevista da un LLM e quella prodotta dall'uomo.
Il recall-oriented understudy for gisting evaluation (ROUGE) valuta la sintesi del testo e ne prevede di diversi tipi. ROUGE-N, ad esempio, esegue calcoli simili a quelli del BLEU per i riassunti, mentre ROUGE-L calcola la sottosequenza comune più lunga tra il riepilogo previsto e quello prodotto dall'uomo.
Una o più di queste metriche quantitative vengono generalmente combinate per una valutazione più completa e solida.
Nel frattempo, la valutazione umana implica metriche qualitative come coerenza, pertinenza e significato semantico. I valutatori umani che esaminano e assegnano un punteggio a un LLM possono fornire una valutazione più sfumata, ma può essere un'operazione laboriosa, soggettiva e dispendiosa in termini di tempo. Pertanto, è necessario un equilibrio tra metriche quantitative e qualitative.
Sebbene i benchmark siano solidi indicatori delle prestazioni di un LLM, non possono prevedere quanto bene funzionerà un modello nel mondo reale. Ecco alcuni dei limiti dei benchmark LLM:
Una volta che un modello raggiunge il punteggio più alto possibile per un determinato benchmark, quest'ultimo dovrà essere aggiornato con compiti più difficili per renderlo una misura utile.
Poiché i benchmark LLM utilizzano dati campione derivati per lo più da una vasta gamma di soggetti e un'ampia varietà di compiti, potrebbero non essere una metrica adatta a scenari marginali, aree specializzate o casi d'uso specifici.
I benchmark LLM possono testare solo le capacità attuali di un modello, ma man mano che gli LLM avanzano ed emergono nuove funzionalità, dovranno essere creati nuovi benchmark.
Se un LLM viene addestrato sullo stesso set di dati del benchmark, potrebbe portare a un overfitting, ovvero il modello potrebbe funzionare bene sui dati del test ma non sui dati del mondo reale. Il risultato è un punteggio che non riflette le reali capacità di un LLM.
Le classifiche dei LLM pubblicano un ordinamento degli LLM basata su una serie di benchmark. Le classifiche offrono un modo per tenere traccia della miriade di LLM e confrontare le loro prestazioni. Le classifiche LLM sono particolarmente utili per decidere quali modelli utilizzare.
In genere, ogni benchmark ha la sua classifica, ma esistono anche classifiche LLM indipendenti. Ad esempio, Hugging Face ha una raccolta di classifiche, una delle quali è una classifica LLM aperta che ordina diversi modelli open source basati sui benchmark ARC, HellaSwag, MMLU, GSM8K, TruthfulQA e Winogrande.
I ricercatori classificano i benchmark LLM in base a questi due aspetti:1
Criteri di valutazione: le metriche di valutazione LLM possono essere basate sulla verità di base o sulle preferenze umane. La verità di base si riferisce alle informazioni che si presume siano vere, mentre le preferenze umane sono scelte che riflettono l'uso nel mondo reale.
Fonte delle domande: i prompt possono provenire da fonti statiche o dinamiche. I prompt statici contengono domande predefinite, mentre i prompt dinamici sono domande fatte in un ambiente interattivo.
I benchmark possono rientrare in una o più di queste categorie. Ecco come funzionano alcuni dei benchmark più comuni:
L'ARC misura le capacità di risposta e ragionamento di un LLM attraverso una serie di oltre 7.000 domande di scienze naturali delle scuole elementari. Queste domande sono divise in una serie facile e una serie impegnativa. Il punteggio è semplice, con un modello che ottiene un punto per ogni risposta corretta e 1/N punti se fornisce più risposte e una di queste è corretta.2
Chatbot Arena è una piattaforma di benchmark aperta che mette due chatbot anonimi l'uno contro l'altro. Gli utenti hanno conversazioni casuali nel mondo reale con entrambi i chatbot in un'"arena", poi votano quale preferiscono, dopodiché vengono rivelate le identità dei modelli. Questi dati di confronto a coppie raccolti in crowdsourcing vengono inseriti in metodi statistici che stimano i punteggi e creano classifiche approssimative per i vari LLM. Vengono utilizzati anche algoritmi di campionamento per accoppiare i modelli.1
GSM8K testa le capacità di ragionamento matematico di un LLM. Contiene un corpus di 8.500 problemi matematici adatti alle scuole elementari. Le soluzioni sono raccolte sotto forma di linguaggio naturale invece che di espressioni matematiche. I verificatori dell'AI sono addestrati per valutare le soluzioni dei modelli.3
HellaSwag è l'acronimo di “Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations", ovvero "Finali più difficili, contesti più lunghi e attività a basso impatto per situazioni con generazioni avverse". Questo benchmark è incentrato sul ragionamento sensato e sull'inferenza del linguaggio naturale. Ai modelli viene chiesto di completare le frasi scegliendo tra un certo numero di possibili finali. Questi finali includono risposte sbagliate create tramite l'adversial filtering, un algoritmo che genera risposte realistiche, ma ingannevolmente errate. HellaSwag valuta la precisione sia per le categorie few-shot che per quelle zero-shot.4
HumanEval valuta le prestazioni di un LLM in termini di generazione di codice, in particolare di correttezza funzionale. Ai modelli vengono assegnati problemi di programmazione da risolvere e vengono valutati in base al superamento dei test unitari corrispondenti. È simile agli sviluppatori di software umani che verificano se il loro codice è corretto in base al superamento di particolari test unitari. Il benchmark HumanEval utilizza una propria metrica di valutazione chiamata pass@k, che è la probabilità che almeno una delle k soluzioni di codice generate per un problema di codifica superi i test unitari di quel problema.5
MMLU è un benchmark che valuta la portata delle conoscenze di un LLM, la profondità della sua comprensione del linguaggio naturale e la capacità di risolvere i problemi sulla base delle conoscenze acquisite. Il set di dati di MMLU comprende più di 15.000 domande di cultura generale a scelta multipla su 57 materie. La valutazione avviene esclusivamente in impostazioni few-shot e zero-shot. Il benchmark MMLU valuta la precisione di un modello in ogni materia, quindi calcola la media di questi numeri per ottenere un punteggio finale.6
MBPP, noto anche come Mostly Basic Python Problems, è un altro benchmark per la generazione di codice. Ha un corpus di oltre 900 attività di codifica. Simile a HumanEval, valuta la correttezza funzionale in base al superamento di una serie di casi di test. La valutazione avviene con impostazioni few-shot e fine-tuned. MBPP utilizza due metriche: la percentuale di problemi risolti da qualsiasi campione del modello e la percentuale di campioni che risolvono i rispettivi compiti.7
I ricercatori che hanno creato Chatbot Arena hanno anche creato MT-Bench, progettato per testare la capacità di un LLM di dialogare e seguire le istruzioni. Il suo set di dati consiste in domande aperte a più turni, con 10 domande ciascuna in queste otto aree: codifica, estrazione, conoscenza I (STEM), conoscenza II (scienze umane e sociali), matematica, ragionamento, gioco di ruolo e scrittura. MT-Bench utilizza l'LLM GPT-4 per valutare le risposte di altri LLM.8
Come HumanEval, SWE-bench verifica le capacità di generazione di codice di un LLM, con particolare attenzione alla risoluzione dei problemi. I modelli sono incaricati di risolvere un bug o di rispondere a una richiesta di funzionalità in una specifica base di codice. La metrica di valutazione del benchmark è la percentuale di istanze di task risolte.9
I modelli linguistici di grandi dimensioni hanno la tendenza ad avere allucinazioni, dando luogo a risultati imprecisi. Il benchmark TruthfulQA mira ad affrontare questo problema misurando la capacità di un LLM di generare risposte veritiere alle domande. Il suo set di dati contiene più di 800 domande su 38 argomenti. TruthfulQA combina la valutazione umana con l'LLM GPT-3 regolato sulle metriche BLEU e ROUGE per prevedere le valutazioni umane di informatività e veridicità10
Winogrande valuta le capacità di ragionamento sensato di un LLM. Si basa sul benchmark originale Winograd Schema Challenge (WSC), con un enorme set di dati di 44.000 problemi raccolti in crowdsourcing che utilizza anche l'adversial filtering. Il punteggio si basa sull'accuratezza.11
Scopri IBM® Granite, la nostra famiglia di modelli AI aperti, performanti e affidabili, personalizzati per le aziende e ottimizzati per scalare le applicazioni AI. Esplora le opzioni relative a lingua, codice, serie temporali e guardrail.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.
Consulta gli articoli, i blog e i tutorial di IBM Developer per approfondire la tua conoscenza degli LLM.
Scopri come incoraggiare i team a migliorare sempre di più le prestazioni dei modelli e a superare la concorrenza utilizzando le tecniche e le infrastrutture AI più recenti.
Esplora il valore dei foundation model di livello aziendale che forniscono fiducia, prestazioni e benefici convenienti per tutti i settori.
Scopri come incorporare l'AI generativa, il machine learning e i foundation model nelle operazioni di business per migliorare le prestazioni.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative AI per scoprire cosa funziona, cosa non funziona e come puoi rimanere sempre aggiornato.
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1 "Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference", arXiv, 7 marzo 2024.
2 "Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge", arXiv, 14 marzo 2018.
3 "Training Verifiers to Solve Math Word Problems", arXiv, 18 novembre 2021.
4 "HellaSwag: Can a Machine Really Finish Your Sentence?", arXiv, 19 maggio 2019.
5 "Evaluating Large Language Models Trained on Code", arXiv, 14 luglio 2021.
6 "Valutazione dell'Understanding del Linguaggio Multitask Massivo", arXiv, 7 settembre 2020.
7 "Program Synthesis with Large Language Models", arXiv, 16 agosto 2021.
8 "Giudicare LLM-as-a-Judge con MT-Bench e Chatbot Arena", arXiv, 9 giugno 2023.
9 "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?", arXiv, 5 aprile 2024.
10 "TruthfulQA: Measuring How Models Mimic Human Falsehoods", arXiv, 8 maggio 2022.
11 "WinoGrande: An Adversarial Winograd Schema Challenge at Scale", arXiv, 21 novembre 2019.