Das zentrale Merkmal von Transformatormodellen ist ihre Aufmerksamkeitsmechanismus, aus dem Transformatormodelle ihre beeindruckende Fähigkeit ableiten, die Beziehungen (oder Abhängigkeiten) zwischen den einzelnen Teilen einer Eingabesequenz zu erkennen. Im Gegensatz zu den Vorgängerarchitekturen RNN und CNN verwendet die Transformer-Architektur nur Aufmerksamkeitsschichten und Standard-Feedforward-Ebenen.
Die Vorteile eines Aufmerksamkeitsmechanismus und insbesondere die Multi-Head-Aufmerksamkeitstechnik, die Transformer-Modelle zu ihrer Berechnung verwenden, ermöglichen es den Transformern, die Leistung der RNNs und CNNs zu übertreffen, die bisher hochmodern waren.
Vor der Einführung von Transformer-Modellen basierten die meisten NLP-Aufgaben auf rekurrenten neuronalen Netzen (Neural Networks). Die Art und Weise, wie RNNs sequenzielle Daten verarbeiten, ist von Natur aus serialisiert
: sie nehmen die Elemente einer Eingabe nacheinander und in einer bestimmten Reihenfolge auf.
Das behindert die Fähigkeit von RNNs, weitreichende Abhängigkeiten zu erfassen, was bedeutet, dass RNNs nur kurze Textsequenzen effektiv verarbeiten können.
Dieser Mangel wurde durch die Einführung von Long Short Term Memory Networks (LSTMs) etwas behoben, bleibt aber ein grundlegendes Manko der RNNs.
Aufmerksamkeitsmechanismen können im Gegensatz dazu eine gesamte Sequenz gleichzeitig untersuchen und Entscheidungen über die Art und Weise treffen, wann sie sich auf bestimmte Zeitpunkte dieser Sequenz konzentrieren sollen.
Diese Qualität von Transformern verbessert nicht nur die Fähigkeit, weitreichende Abhängigkeiten zu verstehen, sondern ermöglicht auch eine Parallelisierung: die Fähigkeit, viele Rechenschritte gleichzeitig und nicht in Serie auszuführen.
Durch die gute Eignung für Parallelität können Transformer-Modelle die Power und Geschwindigkeit der GPUs sowohl beim Training als auch bei der Inferenz voll ausnutzen. Das wiederum eröffnete die Möglichkeit, Transformer-Modelle durch selbstüberwachtes Lernen auf noch nie dagewesenen Datensätzen zu schulen.
Insbesondere bei visuellen Daten bieten Transformer auch einige Vorteile gegenüber neuronalen Netzen. CNNs sind von Natur aus lokal und verwenden Konvolutionen, um kleinere Teilmengen von Eingabedaten nach und nach zu verarbeiten.
Daher haben CNNs auch Schwierigkeiten, weitreichende Abhängigkeiten zu erkennen, wie z. B. Korrelationen zwischen Wörtern (in Texten) oder Pixeln (in Bildern), die nicht benachbart sind. Aufmerksamkeitsmechanismen haben diese Einschränkung nicht.