Das Modell lässt die Token durch ein Transformer-Netzwerk laufen. Transformer-Modelle, die im Jahr 2017 eingeführt wurden, sind aufgrund ihres Selbstbeobachtungs-Mechanismus nützlich, der es ihnen ermöglicht, zu verschiedenen Zeitpunkten auf unterschiedliche Token zu „achten“. Diese Technik ist das Herzstück des Transformers und seine wichtigste Innovation. Selbstaufmerksamkeit ist zum Teil nützlich, weil es dem KI-Modell ermöglicht, die Beziehungen und Abhängigkeiten zwischen Tokens zu berechnen, insbesondere solche, die im Text weit voneinander entfernt sind. Transformer-Architekturen ermöglichen auch eine Parallelisierung, wodurch der Prozess deutlich effizienter wird als bisherige Methoden. Diese Eigenschaften ermöglichten es LLMs, unvergleichlich große Datensätze zu verarbeiten.
Sobald der Text in Token aufgeteilt ist, wird jedes Token einem Zahlenvektor zugeordnet, der als Einbettung bezeichnet wird. Neuronale Netze bestehen aus Ebenen künstlicher Neuronen, wobei jedes Neuron eine mathematische Operation ausführt. Transformer bestehen aus vielen dieser Ebenen, und bei jeder werden die Einbettungen leicht angepasst, so dass sie von Ebene zu Ebene zu reichhaltigeren kontextuellen Darstellungen werden.
Ziel dieses Prozesses ist es, dass das Modell semantische Assoziationen zwischen Wörtern lernt, sodass Wörter wie „bellen“ und „Hund“ im Vektorraum eines Essays über Hunde näher beieinander liegen als „bellen“ und „Baum“, basierend auf den umgebenden hundebezogenen Wörtern im Essay. Transformer fügen außerdem Positionskodierungen hinzu, die jedem Token Informationen über seine Position in der Sequenz geben.
Um die Aufmerksamkeit zu berechnen, wird jede Einbettung unter Verwendung von erlernten Gewichtungsmatrizen in drei verschiedene Vektoren projiziert: eine Abfrage, ein Schlüssel und ein Wert. Die Abfrage stellt dar, was ein bestimmtes Token „sucht“, der Schlüssel stellt die Informationen dar, die jedes Token enthält, und der Wert „gibt“ die Informationen von jedem Schlüsselvektor zurück, skaliert nach seinem jeweiligen Aufmerksamkeitsgewicht.
Die Alignment-Scores werden dann als Ähnlichkeit zwischen Anfragen und Schlüsseln berechnet. Diese Bewertungen, die in Aufmerksamkeitsgewichtungen normiert sind, bestimmen, wie viel von jedem Wertvektor in die Darstellung des aktuellen Tokens fließt. Dieser Prozess ermöglicht es dem Modell, sich flexibel auf den relevanten Kontext zu konzentrieren und gleichzeitig weniger wichtige Token (wie „Baum“) zu ignorieren.
Selbstaufmerksamkeit stellt somit „gewichtete“ Verbindungen zwischen allen Tokens effizienter her, als es frühere Architekturen könnten. Das Modell weist jeder Beziehung zwischen den Token Gewichtungen zu. LLMs können Milliarden oder Billionen dieser Gewichtungen haben, die eine Art von LLM-Parametern darstellen, die internen Konfigurationsvariablen eines maschinellen Lernmodells, welche steuern, wie es Daten verarbeitet und Vorhersagen trifft. Die Anzahl der Parameter bezieht sich darauf, wie viele dieser Variablen in einem Modell vorhanden sind, wobei einige LLMs Milliarden von Parametern enthalten. Sogenannte kleine Sprachmodelle sind kleiner in Umfang und Reichweite mit vergleichsweise wenigen Parametern, sodass sie für die Bereitstellung auf kleineren Geräten oder in Umgebungen mit beschränkten Ressourcen geeignet sind.
Während des Trainings trifft das Modell Vorhersagen für Millionen von Beispielen, die aus seinen Trainingsdaten gezogen werden, und eine Verlustfunktion quantifiziert den Fehler jeder Vorhersage. Durch einen iterativen Zyklus, in dem Vorhersagen getroffen und die Modellgewichte durch Backpropagation und Gradientenabstieg aktualisiert werden, „lernt“ das Modell die Gewichtungen in den Ebenen, die Abfrage-, Schlüssel- und Wertvektoren erzeugen.
Sobald diese Gewichtungen ausreichend optimiert sind, sind sie in der Lage, die ursprüngliche Vektoreinbettung jedes Token zu übernehmen und Abfrage-, Schlüssel- und Wertevektoren dafür zu erzeugen, die, wenn sie mit den für alle anderen Token generierten Vektoren interagieren, zu „besseren“ Alignment-Werten führen, welche wiederum zu Aufmerksamkeitsgewichtungen führen, die dem Modell helfen, bessere Ausgaben zu erzielen. Das Endergebnis ist ein Modell, das Muster in Grammatik, Fakten, Argumentationsstrukturen, Schreibstilen und mehr gelernt hat.