Ähnlich wie der Encoder besteht der Decoder aus einer Selbstbeobachtungsschicht und einem Feed-Forward-Netzwerk. Dazwischen enthält der Decoder eine Multi-Head-Attention-Maskierungsschicht. Dies markiert den Unterschied zwischen Encoder und Decoder. Während der Encoder gleichzeitig kontextualisierte Token-Einbettungen erzeugt, verwendet die Multi-Head-Attention-Schicht des Decoders autoregressive Maskierung.
Zunächst empfängt der Decoder den Kontextvektor vom Encoder. Der Decoder verwendet diese positionellen Einbettungen, um die Aufmerksamkeitswerte für jedes Token zu berechnen. Diese Aufmerksamkeitsscores bestimmen, inwieweit jedes Token aus der Eingabesequenz spätere Token darin beeinflussen wird. Das heißt: Die Ergebnisse bestimmen, wie viel Gewicht jedes Token in den Bestimmungen anderer Token hat, wenn Ausgabesequenzen erzeugt werden.
Eine wichtige Funktion dabei ist jedoch, dass der Decoder keine zukünftigen Token verwendet, um die vorangegangenen Token in derselben Sequenz zu bestimmen. Die generierte Ausgabe jedes Tokens hängt nur von den vorangegangenen Token ab. Das heißt: Beim Erzeugen der Ausgabe eines Tokens berücksichtigt der Decoder nicht die nächsten Wörter oder Token nach dem aktuellen. Wie es bei vielen Techniken der künstlichen Intelligenz der Fall ist, zielt dies darauf ab, konventionelle Auffassungen darüber nachzuahmen, wie Menschen Informationen verarbeiten, insbesondere Sprache. Dieser Ansatz zur Informationsverarbeitung wird als autoregressiv bezeichnet.7