Il modello fa passare i token attraverso una rete di trasformatori. I modelli di trasformatori, introdotti nel 2017, sono utili grazie al loro meccanismo di auto-attenzione, che consente loro di "prestare attenzione" a svariati token in momenti diversi. Questa tecnica è il fulcro del trasformatore e la sua principale innovazione. L'auto-attenzione è utile in parte perché consente al modello AI di calcolare le relazioni e le dipendenze tra i token, specialmente quelli distanti l'uno dall'altro nel testo. Le architetture trasformative consentono anche la parallelizzazione, rendendo il processo molto più efficiente rispetto ai metodi precedenti. Queste qualità hanno permesso agli LLM di gestire set di dati di dimensioni senza precedenti.
Una volta suddiviso il testo in token, ogni token viene mappato su un vettore di numeri chiamato embedding. Le reti neurali sono costituite da strati di neuroni artificiali, in cui ogni neurone esegue un'operazione matematica. I trasformatori sono costituiti da molti di questi livelli e in ciascuno di essi gli embedding vengono leggermente modificati, diventando rappresentazioni contestuali più ricche da un livello all'altro.
L'obiettivo di questo processo è che il modello impari le associazioni semantiche tra le parole, in modo che parole come "abbaiare" e "cane" compaiano più vicine nello spazio vettoriale di un saggio sui cani, rispetto a "abbaiare" e "albero", sulla base delle parole circostanti relative ai cani presenti nel saggio. I trasformatori aggiungono anche codifiche posizionali, che forniscono a ciascun token informazioni sulla sua posizione nella sequenza.
Per calcolare l'attenzione, ogni embedding viene proiettato in tre vettori distinti utilizzando matrici di peso appreso: una query, una chiave e un valore. La query rappresenta ciò che un determinato token sta "cercando", la chiave rappresenta le informazioni contenute in ogni token e il valore "restituisce" le informazioni di ciascun vettore chiave, scalate in base al rispettivo peso di attenzione.
I punteggi di allineamento vengono quindi calcolati come la somiglianza tra query e chiavi. Questi punteggi, una volta normalizzati in pesi di attenzione, determinano la quantità di ciascun vettore di valori che fluisce nella rappresentazione del token corrente. Questo processo consente al modello di concentrarsi in modo flessibile sul contesto rilevante, ignorando i token meno importanti (come "albero").
L'auto-attenzione crea quindi connessioni "ponderate" tra tutti i token in modo più efficiente rispetto alle architetture precedenti. Il modello assegna pesi a ciascuna relazione tra i token. Gli LLM possono avere miliardi o trilioni di questi pesi, che sono un tipo di parametro LLM, le variabili di configurazione interne di un modello di machine learning che controllano il modo in cui elabora i dati e fa previsioni. Il numero di parametri si riferisce al numero di queste variabili presenti in un modello, con alcuni LLM contenenti miliardi di parametri. I cosiddetti modelli linguistici di piccole dimensioni sono più piccoli per scala e portata con relativamente pochi parametri, il che li rende adatti per la distribuzione su dispositivi più piccoli o in ambienti con risorse limitate.
Durante l'addestramento, il modello esegue stime su milioni di esempi tratti dai dati di addestramento e una funzione di perdita quantifica l'errore di ogni previsione. Attraverso un ciclo iterativo di formulazione di previsioni e quindi aggiornamento dei pesi del modello tramite retropropagazione e calo del gradiente, il modello "apprende" i pesi nei livelli che producono i vettori di query, chiave e valore.
Una volta che questi pesi sono sufficientemente ottimizzati, sono in grado di assorbire l'embedding vettoriale originale di qualsiasi token e produrre vettori di query, chiave e valore che, interagendo con i vettori generati per tutti gli altri token, produrranno punteggi di allineamento "migliori" che a loro volta si traducono in pesi di attenzione che aiutano il modello a produrre output migliori. Il risultato finale è un modello che ha appreso modelli su grammatica, fatti, strutture di ragionamento, stili di scrittura e altro ancora.