I modelli linguistici di grandi dimensioni (LLM) sono una categoria di modelli di deep learning addestrati su immense quantità di dati che li rendono in grado di comprendere e generare linguaggio naturale e altri tipi di contenuti per eseguire un'ampia gamma di attività. Gli LLM sono basati su un tipo di architettura di reti neurali chiamata trasformatore che eccelle nella gestione di sequenze di parole e nell'acquisizione di schemi nel testo.
Gli LLM funzionano come gigantesche macchine di previsione su base statistica che prevedono ripetutamente la parola successiva in una sequenza. Imparano gli schemi del testo e generano un linguaggio basato su di essi.
Gli LLM rappresentano un grande passo avanti nel modo in cui gli umani interagiscono con la tecnologia perché sono il primo sistema AI che può gestire il linguaggio umano non strutturato su larga scala, consentendo una comunicazione naturale con le macchine. Laddove i motori di ricerca tradizionali e altri sistemi programmati utilizzavano algoritmi per abbinare le parole chiave, gli LLM acquisiscono contesto, sfumature e ragionamenti più profondi. Gli LLM, una volta addestrati, possono adattarsi a molte applicazioni che implicano l'interpretazione del testo, come il riepilogo di un articolo, il debug del codice o la stesura di una clausola legale. Una volta attribuite funzionalità di agente agli LLM, questi possono svolgere, con diversi gradi di autonomia, varie attività che altrimenti verrebbero eseguite dagli esseri umani.
Gli LLM sono il culmine di decenni di progressi nell'elaborazione del linguaggio naturale (NLP) e nella ricerca sull'apprendimento automatico e il loro sviluppo è in gran parte responsabile dell'esplosione dei progressi dell'intelligenza artificiale tra la fine degli anni 2010 e il 2020. Gli LLM più diffusi sono diventati nomi familiari, portando l'AI generativa al centro dell'interesse pubblico. Gli LLM sono anche ampiamente utilizzati nelle aziende, con organizzazioni che investono molto in numerose funzioni aziendali e casi d'uso.
Gli LLM sono facilmente accessibili al pubblico tramite interfacce come Claude di Anthropic, ChatGPT di Open AI, Copilot di Microsoft, i modelli Llama di Meta e l'assistente Gemini di Google, insieme ai suoi modelli BERT e PalM. IBM mantiene una serie di modelli Granite su watsonx.ai, divenuto il pilastro dell'AI generativa per altri prodotti IBM come watsonx Assistant e watsonx Orchestrate.
L'addestramento inizia con un'enorme quantità di dati: miliardi o trilioni di parole provenienti da libri, articoli, siti web, codice e altre fonti di testo. I data scientist supervisionano la pulizia e la pre-elaborazione per rimuovere errori, duplicazioni e contenuti indesiderati.
Questo testo viene suddiviso in unità più piccole, leggibili dalle macchine, chiamate “token” durante un processo di "tokenizzazione." I token rappresentano unità piccole come parole, sottoparole o caratteri. In questo modo si standardizza il linguaggio, consentendo di gestire in modo coerente anche parole rare e nuove.
Gli LLM vengono inizialmente addestrati con l'apprendimento auto-supervisionato, una tecnica di apprendimento automatico che utilizza dati non etichettati per l'apprendimento supervisionato. L'apprendimento auto-supervisionato non richiede set di dati etichettati, ma è strettamente correlato all'apprendimento supervisionato in quanto ottimizza le prestazioni rispetto a un "ground truth." Nell’apprendimento auto-supervisionato, i compiti sono progettati in modo tale che il "ground truth" possa essere dedotto da dati non etichettati . Il modello cerca di trovare da solo modelli, strutture o relazioni nei dati, senza la necessità di conoscere l'"output corretto" per ogni input, come nell'apprendimento supervisionato.
Il modello fa passare i token attraverso una rete di trasformatori. I modelli di trasformatori, introdotti nel 2017, sono utili grazie al loro meccanismo di auto-attenzione, che consente loro di "prestare attenzione" a svariati token in momenti diversi. Questa tecnica è il fulcro del trasformatore e la sua principale innovazione. L'auto-attenzione è utile in parte perché consente al modello AI di calcolare le relazioni e le dipendenze tra i token, specialmente quelli distanti l'uno dall'altro nel testo. Le architetture trasformative consentono anche la parallelizzazione, rendendo il processo molto più efficiente rispetto ai metodi precedenti. Queste qualità hanno permesso agli LLM di gestire set di dati di dimensioni senza precedenti.
Una volta suddiviso il testo in token, ogni token viene mappato su un vettore di numeri chiamato embedding. Le reti neurali sono costituite da strati di neuroni artificiali, in cui ogni neurone esegue un'operazione matematica. I trasformatori sono costituiti da molti di questi livelli e in ciascuno di essi gli embedding vengono leggermente modificati, diventando rappresentazioni contestuali più ricche da un livello all'altro.
L'obiettivo di questo processo è che il modello impari le associazioni semantiche tra le parole, in modo che parole come "abbaiare" e "cane" compaiano più vicine nello spazio vettoriale di un saggio sui cani, rispetto a "abbaiare" e "albero", sulla base delle parole circostanti relative ai cani presenti nel saggio. I trasformatori aggiungono anche codifiche posizionali, che forniscono a ciascun token informazioni sulla sua posizione nella sequenza.
Per calcolare l'attenzione, ogni embedding viene proiettato in tre vettori distinti utilizzando matrici di peso appreso: una query, una chiave e un valore. La query rappresenta ciò che un determinato token sta "cercando", la chiave rappresenta le informazioni contenute in ogni token e il valore "restituisce" le informazioni di ciascun vettore chiave, scalate in base al rispettivo peso di attenzione.
I punteggi di allineamento vengono quindi calcolati come la somiglianza tra query e chiavi. Questi punteggi, una volta normalizzati in pesi di attenzione, determinano la quantità di ciascun vettore di valori che fluisce nella rappresentazione del token corrente. Questo processo consente al modello di concentrarsi in modo flessibile sul contesto rilevante, ignorando i token meno importanti (come "albero").
L'auto-attenzione crea quindi connessioni "ponderate" tra tutti i token in modo più efficiente rispetto alle architetture precedenti. Il modello assegna pesi a ciascuna relazione tra i token. Gli LLM possono avere miliardi o trilioni di questi pesi, che sono un tipo di parametro LLM, le variabili di configurazione interne di un modello di machine learning che controllano il modo in cui elabora i dati e fa previsioni. Il numero di parametri si riferisce al numero di queste variabili presenti in un modello, con alcuni LLM contenenti miliardi di parametri. I cosiddetti modelli linguistici di piccole dimensioni sono più piccoli per scala e portata con relativamente pochi parametri, il che li rende adatti per la distribuzione su dispositivi più piccoli o in ambienti con risorse limitate.
Durante l'addestramento, il modello esegue stime su milioni di esempi tratti dai dati di addestramento e una funzione di perdita quantifica l'errore di ogni previsione. Attraverso un ciclo iterativo di formulazione di previsioni e quindi aggiornamento dei pesi del modello tramite retropropagazione e calo del gradiente, il modello "apprende" i pesi nei livelli che producono i vettori di query, chiave e valore.
Una volta che questi pesi sono sufficientemente ottimizzati, sono in grado di assorbire l'embedding vettoriale originale di qualsiasi token e produrre vettori di query, chiave e valore che, interagendo con i vettori generati per tutti gli altri token, produrranno punteggi di allineamento "migliori" che a loro volta si traducono in pesi di attenzione che aiutano il modello a produrre output migliori. Il risultato finale è un modello che ha appreso modelli su grammatica, fatti, strutture di ragionamento, stili di scrittura e altro ancora.
Dopo l'addestramento (o nel contesto di un addestramento aggiuntivo, "pre-addestramento"), gli LLM possono essere perfezionati per renderli più utili in determinati contesti. Ad esempio, un modello fondamentale addestrato su un ampio set di dati di cultura generale può essere messo a punto su un corpus di domande e risposte legali allo scopo di creare un chatbot per il settore legale.
Ecco alcune delle forme più comuni di ottimizzazione. Gli operatori possono utilizzare un metodo o una combinazione di più metodi.
La messa a punto avviene molto spesso in un contesto supervisionato con un set di dati etichettato molto più piccolo. Il modello aggiorna i suoi pesi per corrispondere meglio al nuovo ground truth (in questo caso, i dati etichettati).
Sebbene il pre-addestramento abbia lo scopo di fornire al modello un'ampia conoscenza generale, la messa a punto adatta un modello generico a compiti specifici come il riepilogo, la classificazione o il supporto clienti. Questi adattamenti funzionali rappresentano nuovi tipi di attività. La messa a punto supervisionata produce output più vicini agli esempi forniti dall'uomo, richiedendo molte meno risorse rispetto all'addestramento da zero.
L'ottimizzazione supervisionata è utile anche per la personalizzazione specifica del dominio, come l'addestramento di un modello su documenti medici in modo che sia in grado di rispondere a domande relative all'assistenza sanitaria.
Per perfezionare ulteriormente i modelli, i data scientist utilizzano spesso l'apprendimento per rinforzo da feedback umano (RLHF), una forma di messa a punto in cui gli umani classificano gli output del modello e il modello, a sua volta, viene addestrato a preferire gli output che gli umani collocano più in alto. L'RLHF viene spesso utilizzato nell'allineamento, un processo che consiste nel rendere gli output di LLM utili, sicuri e coerenti con i valori umani.
L'RLHF è anche particolarmente utile per l'allineamento stilistico, in cui un LLM può essere regolato per rispondere in un modo più informale, divertente o coerente con il marchio. L'allineamento stilistico prevede l'addestramento per gli stessi tipi di attività, ma producendo output in uno stile specifico.
La messa a punto puramente supervisionata insegna a un modello a imitare gli esempi, ma non necessariamente incoraggia un ragionamento migliore, che implica processi astratti in più fasi. Tali attività non sempre dispongono di abbondanti dati etichettati, quindi l'apprendimento per rinforzo viene spesso utilizzato nella creazione di modelli di ragionamento, LLM che sono stati messi a punto per suddividere problemi complessi in passaggi più piccoli, spesso chiamati "tracce di ragionamento", prima di generare un output finale. Mezzi sempre più sofisticati di addestramento dei modelli forniscono loro un ragionamento chain-of-thought e altre strategie di processo decisionale in più fasi.
Un'altra forma di personalizzazione degli LLM è la messa a punto delle istruzioni, un processo appositamente progettato per migliorare la capacità di un modello di seguire le istruzioni umane. Gli esempi di input in un set di dati di istruzioni sono costituiti interamente da attività che assomigliano alle richieste che gli utenti potrebbero fare nei loro prompt, e gli output dimostrano le risposte desiderabili a tali richieste. Poiché gli LLM pre-addestrati non sono intrinsecamente ottimizzati per seguire istruzioni o obiettivi di conversazione, la messa a punto delle istruzioni viene utilizzata per allineare meglio il modello con l'intento dell'utente.
Una volta addestrati, i modelli linguistici di grandi dimensioni funzionano rispondendo ai prompt mediante la tokenizzazione del prompt, la sua conversione in embedding e l'utilizzo del suo trasformatore per generare testo un token alla volta, calcolando le probabilità per tutti i potenziali token successivi e producendo l'output più probabile. Questo processo, chiamato inferenza, viene ripetuto fino al completamento dell'output. Il modello non "conosce" in anticipo la risposta finale; utilizza tutte le relazioni statistiche apprese durante l'addestramento per prevedere un token alla volta, facendo la migliore ipotesi in ogni fase.
Il modo più semplice e veloce per ottenere conoscenze specifiche di dominio da un LLM generico è attraverso il prompt engineering, che non richiede un addestramento aggiuntivo. Gli utenti possono modificare i prompt in tutti i modi. Per esempio, un prompt come "rispondi con la voce di un operatore sanitario qualificato" potrebbe produrre risultati più pertinenti (si noti che gli LLM non sono consigliati per la consulenza medica!).
Gli LLM hanno altre strategie per controllare i loro output, come la temperatura LLM, che controlla la casualità del testo generato dagli LLM durante l'inferenza, o il campionamento top-k/top-p, che limita l'insieme di token considerati a quelli più probabili, bilanciando creatività e coerenza.
La finestra contestuale è il numero massimo di token che un modello può "vedere" e utilizzare contemporaneamente durante la generazione del testo. I primi LLM avevano finestre brevi, ma gli LLM più recenti hanno centinaia di migliaia di token nelle loro finestre contestuali, che consentono casi d'uso come riassumere interi documenti di ricerca, eseguire assistenza sul codice su basi di codice di grandi dimensioni e tenere lunghe conversazioni continue con gli utenti.
La retrieval-augmented generation (RAG) è un metodo per collegare un modello pre-addestrato con basi di conoscenza esterne, consentendo loro di fornire risposte più pertinenti con un livello di precisione più elevato. Le informazioni recuperate vengono passate nella finestra di contesto del modello, in modo che quest'ultimo possa utilizzarle durante la generazione delle risposte, senza bisogno di ripetere l'addestramento. Ad esempio, collegando un LLM a un database di servizi meteorologici dinamici, un LLM può recuperare informazioni per un utente sul bollettino meteorologico di quel giorno.
Creare un LLM da zero è un processo complesso e dispendioso in termini di risorse. Gli LLM più popolari sono il risultato di immense quantità di dati, GPU, energia e competenze umane, motivo per cui la maggior parte vengono realizzati e gestiti da grandi aziende tecnologiche con ampie risorse.
Tuttavia, molti di questi modelli sono accessibili a tutti gli sviluppatori tramite API. Gli sviluppatori possono utilizzare modelli pre-addestrati per creare chatbot, sistemi di recupero delle conoscenze, strumenti di automazione e altro ancora. Per un maggiore controllo sui dati e sulla personalizzazione, molti modelli open source possono essere distribuiti localmente o nel cloud. Github, Hugging Face, Kaggle e altre piattaforme rendono lo sviluppo dell'AI accessibile a tutti.
Gli sviluppatori possono utilizzare gli LLM come base per tutti i tipi di applicazioni AI. Uno degli sviluppi più interessanti dell'AI è il sistema agentico. Gli agenti AI non solo pensano, agiscono. Di per sé, gli LLM generano semplicemente testo in base al contesto, ma possono essere integrati con memoria, API, logica decisionale e altri sistemi esterni per eseguire attività specifiche, come prenotare un volo o pilotare un veicolo a guida autonoma.
Gli LLM stanno ridefinendo i processi aziendali e hanno dimostrato la loro versatilità in una miriade di casi d'uso in molti settori.
Generazione di testo: gli LLM possono svolgere tutti i tipi di attività di creazione di contenuti come la redazione di e-mail, post sul blog o report legali in risposta ai prompt.
Riepilogo del testo: gli LLM possono riassumere articoli lunghi, notizie, rapporti di ricerca, documentazione aziendale e storia dei clienti in testi completi e adattati in lunghezza in base al formato e allo stile di output desiderati.
Assistenti AI: i chatbot basati sulla conversational AI possono rispondere alle domande e fornire informazioni dettagliate come parte di una soluzione di assistenza clienti integrata e in tempo reale.
Generazione di codice: aiuta gli sviluppatori nella creazione di applicazioni, nella ricerca di errori nel codice e nella scoperta di problemi di sicurezza in più linguaggi di programmazione, anche nella traduzione tra loro.
Analisi del sentiment: il tono dei clienti viene analizzato per comprendere meglio il feedback dei clienti su larga scala.
Traduzione linguistica: offre una copertura più ampia alle organizzazioni in tutte le lingue e aree geografiche con traduzioni fluenti e funzionalità multilingue.
Ragionamento: gli LLM possono risolvere problemi matematici, pianificare processi in più fasi e spiegare concetti complessi in termini più semplici.
Gli LLM sono strumenti potenti, ma presentano diverse limitazioni. Una delle principali preoccupazioni è l'accuratezza. Durante le allucinazioni, il modello genera informazioni false o fuorvianti pur sembrando plausibili. Gli LLM possono anche riflettere e amplificare le distorsioni presenti nei loro dati di addestramento, producendo output ingiusti o offensivi. Inoltre, il loro fabbisogno di risorse è significativo: l'addestramento e la gestione degli LLM richiedono grandi quantità di potenza ed energia computazionali, il che solleva preoccupazioni sia in termini di costi che ambientali.
I professionisti possono mitigare questi aspetti negativi degli LLM attraverso una governance dell'AI, i processi, gli standard e le barriere che aiutano a garantire che i sistemi e gli strumenti AI siano sicuri ed etici. Una parte fondamentale della governance prevede la valutazione dei modelli rispetto ai benchmark. I benchmark LLM forniscono punteggi quantitativi, facilitando il confronto dei modelli. Poiché gli LLM sono sistemi generici in grado di svolgere un'ampia varietà di attività, la loro valutazione richiede più dimensioni anziché un singolo benchmark. Ricercatori e professionisti esaminano qualità come precisione, efficienza, sicurezza, equità e robustezza per determinare le prestazioni di un modello.
Gli LLM vengono valutati anche sulla base dell'allineamento e della sicurezza, con tecniche come il red-teaming, in cui i valutatori cercano intenzionalmente di indurre il modello a produrre risposte non sicure o distorte per evidenziare i punti deboli. Le valutazioni di equità e pregiudizio possono aiutare i professionisti a impedire che gli LLM riproducano stereotipi dannosi o misinformazione.
Gli LLM sono anche comunemente valutati sulla base dell'efficienza. Velocità, consumo energetico, velocità dei token, impronta di memoria e capacità di gestire lunghe finestre di contesto sono alcune delle metriche più comuni utilizzate per valutare l'efficienza con cui gli LLM sono in grado di arrivare agli output.
La storia degli LLM risale agli albori dell'informatica e dell'elaborazione del linguaggio naturale, quando i ricercatori utilizzavano sistemi basati su regole e metodi statistici per modellare il testo. Questi primi approcci sono stati capaci di catturare modelli di parole locali, ma non sono riusciti a comprendere le dipendenze a lungo termine o la semantica più profonda.
Un cambiamento importante è avvenuto negli anni 2010 con l'avvento delle reti neurali, con word embedding come Word2Vec e GloVe, che rappresentavano le parole come vettori nello spazio continuo, consentendo ai modelli di apprendere relazioni semantiche. Sono emersi modelli di sequenza come le reti neurali ricorrenti (RNN) e le reti di memoria a breve-lungo termine (LSTM) per gestire meglio i dati sequenziali.
Nel 2017, Vaswani et al. hanno introdotto l'architettura trasformativa encoder–decoder nel documento di riferimento "Attention Is All You Need". [1] I trasformatori hanno permesso di addestrare modelli su set di dati di grandi dimensioni, segnando l'inizio dell'era moderna degli LLM. BERT (2018) di Google, un trasformatore solo encoder, ha dimostrato la potenza dei trasformatori per la comprensione del linguaggio, mentre la serie di trasformatori generativi pre-addestrati (GPT) di OpenAI, basata su una variante solo decoder, ha mostrato come il pre-addestramento generativo su testi su scala Internet possa produrre una generazione linguistica straordinariamente fluente. Più o meno nello stesso periodo, modelli di encoder-decoder come T5 di Google e BART di Facebook hanno mostrato i punti di forza della progettazione completa da sequenza a sequenza per attività come la traduzione e il riepilogo. GPT-2 (2019) ha attirato l'attenzione per la sua capacità di generare paragrafi coerenti, mentre GPT-3 (2020), con 175 miliardi di parametri, ha consolidato gli LLM come forza trasformativa nell'AI.
Inoltre, le nuove architetture stanno mettendo a dura prova la popolarità dei trasformatori negli LLM. I modelli Mamba funzionano utilizzando un modello stato-spazio con aggiornamenti selettivi che filtrano e combinano in modo efficiente le informazioni passate, consentendo di acquisire dipendenze a lungo raggio. Gli LLM a diffusione iniziano con un rumore casuale e lo attenuano gradualmente passo dopo passo, guidati da un modello appreso, fino a quando non emerge un testo coerente. Entrambe le architetture possono essere molto più efficienti dei trasformatori.
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1. “Attention is all you need”, Vaswani et al, arXiv, 12 giugno 2017