I modelli trasformatori combinano un'architettura encoder-decoder con un meccanismo di elaborazione del testo e hanno rivoluzionato la formazione dei modelli linguistici. Un encoder converte il testo non elaborato e non annotato in rappresentazioni note come incorporamenti; il decoder prende questi incorporamenti insieme agli output precedenti del modello e prevede successivamente ogni parola in una frase.
Utilizzando l'ipotesi da riempire, l'encoder impara come parole e frasi si relazionano tra loro, creando una potente rappresentazione del linguaggio senza dover etichettare parti del discorso e altre funzioni grammaticali. I trasformatori, infatti, possono essere preaddestrati all'inizio senza un compito particolare in mente. Dopo aver appreso queste potenti rappresentazioni, i modelli possono essere successivamente specializzati, con molti meno dati, per eseguire un'attività richiesta.
Diverse innovazioni lo rendono possibile. I trasformatori elaborano le parole in una frase contemporaneamente, consentendo l'elaborazione del testo in parallelo, accelerando l'addestramento. Le tecniche precedenti, tra cui le reti neurali ricorrenti (RNN), elaboravano le parole una per una. I trasformatori hanno inoltre imparato le posizioni delle parole e le loro relazioni: questo contesto consente loro di dedurre il significato e disambiguare parole come "esso" in frasi lunghe.
Eliminando la necessità di definire un'attività in anticipo, i trasformatori hanno reso pratico il pre-addestramento di modelli linguistici su grandi quantità di testo non elaborato, consentendo loro di aumentare notevolmente le dimensioni. In precedenza, i dati etichettati venivano raccolti per addestrare un modello su un'attività specifica. Con i trasformatori, un modello addestrato su un'enorme quantità di dati può essere adattato a più attività ottimizzandolo su una piccola quantità di dati etichettati specifici per attività.
I trasformatori linguistici oggi vengono utilizzati per attività non generative come la classificazione e l'estrazione di entità, nonché per attività generative tra cui la traduzione automatica, il riassunto e la risposta alle domande. I trasformatori hanno sorpreso molte persone con la loro capacità di generare dialoghi, saggi e altri contenuti convincenti.
I trasformatori di elaborazione del linguaggio naturale (NLP) forniscono una potenza notevole in quanto possono funzionare in parallelo, elaborando più porzioni di una sequenza contemporaneamente, il che velocizza notevolmente l'addestramento. I trasformatori tengono anche traccia delle dipendenze a lungo termine nel testo, il che consente loro di conoscere il contesto generale in modo più chiaro e di creare un output superiore. Inoltre, i trasformatori sono più scalabili e flessibili per essere personalizzati in base all'attività.
Per quanto riguarda le limitazioni, a causa della loro complessità, i trasformatori richiedono enormi risorse computazionali e un lungo periodo di addestramento. Inoltre, i dati sull'addestramento devono essere accurati, imparziali e abbondanti per produrre risultati accurati.