Nel livello di attenzione, i vettori Q, K e V vengono utilizzati per calcolare un punteggio di allineamento tra ciascun token in ciascuna posizione di una sequenza. Questi punteggi di allineamento vengono poi normalizzati in pesi di attenzione utilizzando una funzione softmax.
Per ogni token x in una sequenza, i punteggi di allineamento vengono calcolati attraverso il calcolo del "dot product, o prodotto scalare, del vettore di query Qx di quel token con il vettore di chiave K di ciascuno degli altri token: in altre parole, moltiplicandoli insieme. Se una relazione significativa tra due token si riflette in somiglianze tra i rispettivi vettori, moltiplicandoli insieme si otterrà un valore elevato. Se i due vettori non sono allineati, moltiplicandoli insieme si otterrà un valore piccolo o negativo. La maggior parte dei modelli trasformativi utilizza una variante chiamata Scaled Dot Product Attention in cui QK viene scalato, ovvero moltiplicato, per per migliorare la stabilità dell'addestramento.
Questi punteggi di allineamento delle chiavi di query vengono poi immessi in una funzione softmax. Softmax normalizza tutti gli input a un valore compreso tra 0 e 1 in modo che la somma sia 1. Gli output della funzione softmax sono i pesi di attenzione, ognuno dei quali rappresenta la quota (su 1) dell'attenzione del token x da prestare a ciascuno degli altri token. Se il peso di attenzione di un token è vicino a 0, verrà ignorato. Un peso di attenzione pari a 1 indica che un token riceve l'intera attenzione di xe tutti gli altri saranno ignorati.
Per finire, il vettore di valore per ogni token viene moltiplicato per il suo peso di attenzione. Questi contributi ponderati per l'attenzione di ogni token precedente vengono calcolati come media e aggiunti all'incorporamento vettoriale originale per il token x. Con questo, l'incorporamento del token xviene ora aggiornato per riflettere il contesto fornito dagli altri token nella sequenza che lo riguardano.
L'incorporazione vettoriale aggiornata viene poi inviata a un altro livello lineare, con la propria matrice WZ, dove il vettore aggiornato al contesto viene normalizzato di nuovo a un numero coerente di dimensioni e poi inviato al livello di attenzione successivo. Ogni livello di attenzione progressivo acquisisce una maggiore sfumatura contestuale.