La caratteristica fondamentale dei modelli trasformativi è il loro meccanismo di auto-attenzione, da cui i modelli di trasformatori derivano la loro incredibile capacità di rilevare le relazioni (o dipendenze) tra ogni parte di una sequenza di input. A differenza delle architetture RNN e CNN che l'hanno preceduta, l'architettura trasformativa utilizza solo strati di attenzione e strati feedforward standard.
I benefici dell'autoattenzione, e in particolare la tecnica di attenzione multitesta utilizzata dai modelli trasformativi per calcolarla, sono quello che consente ai trasformatori di superare le prestazioni degli RNN e delle CNN che, in precedenza, erano state il punto di riferimento.
Prima dell'introduzione dei modelli trasformativi, la maggior parte delle attività di NLP si basava su reti neurali ricorrenti (RNN). Il modo in cui gli RNN elaborano i dati sequenziali è intrinsecamente serializzato: inseriscono gli elementi di una sequenza di input uno alla volta e in un ordine specifico.
Questo ostacola la capacità degli RNN di rilevare le dipendenze a lungo raggio, il che significa che gli RNN possono elaborare in modo efficace solo brevi sequenze di testo.
Questa carenza è stata in qualche modo affrontata con l'introduzione di reti di memoria a lungo breve termine (LSTM), ma rimane un difetto fondamentale delle RNN.
I meccanismi di attenzione, al contrario, possono esaminare un'intera sequenza simultaneamente e prendere decisioni sull'ordine in cui concentrarsi su specifici passaggi di quella sequenza.
Oltre a migliorare significativamente la capacità di comprendere le dipendenze a lungo raggio, questa qualità dei trasformatori consente inoltre la parallelizzazione: la capacità di eseguire contemporaneamente numerose fasi computazionali, anziché in modo serializzato.
Essere adatti al parallelismo consente ai modelli trasformativi di sfruttare appieno la potenza e la velocità offerte dalle GPU, sia durante l'addestramento, sia durante l'inferenza. A sua volta, questa possibilità ha sbloccato l'opportunità di addestrare modelli trasformativi su set di dati di dimensioni senza precedenti attraverso l'apprendimento autosupervisionato.
Soprattutto nel caso dei dati visivi, i trasformatori offrono inoltre alcuni vantaggi rispetto alle reti neurali convoluzionali. Le CNN sono intrinsecamente locali e utilizzano le convoluzioni per elaborare sottoinsiemi più piccoli di dati di input un pezzo alla volta.
Pertanto, anche le CNN faticano a discernere le dipendenze a lungo raggio, come le correlazioni tra parole (nel testo) o pixel (nelle immagini) che non sono vicini l'una all'altra. I meccanismi di attenzione non hanno questa limitazione.