Das Transformator-Modell ist eine Art von Neural Networks Architektur, die sich durch die Verarbeitung sequenzieller Daten auszeichnet und vor allem mit großen Sprachmodellen (LLMs) in Verbindung gebracht wird. Transformer-Modelle haben auch in anderen Bereichen der KI Spitzenleistung erreicht, etwa in Computer Vision, Spracherkennung und Prognosen.
Die Transformer-Architektur wurde erstmals in dem wegweisenden Artikel „Attention is All You Need“ aus dem Jahr 2017 von Vaswani und anderen beschrieben, der heute als Wendepunkt in der Entwicklung von Deep Learning gilt.
Ursprünglich als Weiterentwicklung der auf rekurrenten neuronalen Netzen (RNN)basierenden Sequenz-zu-Sequenz-Modelle eingeführt, die für die maschinelle Übersetzung verwendet werden, haben Transformer-basierte Modelle inzwischen in fast allen Disziplinen des maschinellen Lernens (ML) bahnbrechende Fortschritte erzielt.
Trotz ihrer Vielseitigkeit sind Transformer-Modelle nach wie vor am häufigsten im Zusammenhang mit Anwendungsfällen für die Verarbeitung natürlicher Sprache (NLP) im Gespräch, wie z. B.Chatbots, Textgenerierung, Zusammenfassung, Beantwortung von Fragen und Stimmungsanalyse.
Das 2019 von Google eingeführte Encoder-Decoder-Modell BERT (oder Bidirectional Encoder Representations from Transformers) war ein wichtiger Meilenstein bei der Etablierung von Transformers und bleibt die Grundlage der meisten modernen Anwendungen zur Wort-Einbettung, von modernen Vektordatenbanken bis hin zur Google-Suche.
Die Fähigkeit von Transformatormodellen, detailliert zu erkennen, wie jeder Teil einer Datensequenz die anderen beeinflusst und mit ihnen korreliert, verleiht ihnen auch viele multimodale Anwendungen.
Zum Beispiel übertreffen Vision Transformer (ViTs) oft die Leistung von Convolutional Neural Networks (CNNs) bei der Bildsegmentierung, der Objekterkennung und damit verbundenen Aufgaben. Die Transformer-Architektur unterstützt auch viele Diffusionsmodelle, die zur Bildgenerierung verwendet werden, sowiemultimodale Text-to-Speech-Modelle (TTS) und Vision-Sprachmodelle (VLMs).
Das zentrale Merkmal von Transformatormodellen ist ihre Aufmerksamkeitsmechanismus, aus dem Transformatormodelle ihre beeindruckende Fähigkeit ableiten, die Beziehungen (oder Abhängigkeiten) zwischen den einzelnen Teilen einer Eingabesequenz zu erkennen. Im Gegensatz zu den Vorgängerarchitekturen RNN und CNN verwendet die Transformer-Architektur nur Aufmerksamkeitsschichten und Standard-Feedforward-Ebenen.
Die Vorteile eines Aufmerksamkeitsmechanismus und insbesondere die Multi-Head-Aufmerksamkeitstechnik, die Transformer-Modelle zu ihrer Berechnung verwenden, ermöglichen es den Transformern, die Leistung der RNNs und CNNs zu übertreffen, die bisher hochmodern waren.
Vor der Einführung von Transformer-Modellen basierten die meisten NLP-Aufgaben auf rekurrenten neuronalen Netzen (Neural Networks). Die Art und Weise, wie RNNs sequenzielle Daten verarbeiten, ist von Natur aus serialisiert
: sie nehmen die Elemente einer Eingabe nacheinander und in einer bestimmten Reihenfolge auf.
Das behindert die Fähigkeit von RNNs, weitreichende Abhängigkeiten zu erfassen, was bedeutet, dass RNNs nur kurze Textsequenzen effektiv verarbeiten können.
Dieser Mangel wurde durch die Einführung von Long Short Term Memory Networks (LSTMs) etwas behoben, bleibt aber ein grundlegendes Manko der RNNs.
Aufmerksamkeitsmechanismen können im Gegensatz dazu eine gesamte Sequenz gleichzeitig untersuchen und Entscheidungen über die Art und Weise treffen, wann sie sich auf bestimmte Zeitpunkte dieser Sequenz konzentrieren sollen.
Diese Qualität von Transformern verbessert nicht nur die Fähigkeit, weitreichende Abhängigkeiten zu verstehen, sondern ermöglicht auch eine Parallelisierung: die Fähigkeit, viele Rechenschritte gleichzeitig und nicht in Serie auszuführen.
Durch die gute Eignung für Parallelität können Transformer-Modelle die Power und Geschwindigkeit der GPUs sowohl beim Training als auch bei der Inferenz voll ausnutzen. Das wiederum eröffnete die Möglichkeit, Transformer-Modelle durch selbstüberwachtes Lernen auf noch nie dagewesenen Datensätzen zu schulen.
Insbesondere bei visuellen Daten bieten Transformer auch einige Vorteile gegenüber neuronalen Netzen. CNNs sind von Natur aus lokal und verwenden Konvolutionen, um kleinere Teilmengen von Eingabedaten nach und nach zu verarbeiten.
Daher haben CNNs auch Schwierigkeiten, weitreichende Abhängigkeiten zu erkennen, wie z. B. Korrelationen zwischen Wörtern (in Texten) oder Pixeln (in Bildern), die nicht benachbart sind. Aufmerksamkeitsmechanismen haben diese Einschränkung nicht.
Das Verständnis des mathematischen Konzepts der dieser Form der Aufmerksamkeit ist entscheidend für den Erfolg von Transformatorenmodellen in so vielen Bereichen. Aufmerksamkeitsmechanismen sind im Wesentlichen Algorithmen, die bestimmen sollen, auf welche Teile einer Datensequenz ein KI-Modell zu einem bestimmten Zeitpunkt „achten“ sollte.
Stellen Sie sich ein Sprachmodell vor, das den englischen Satz
Im Großen und Ganzen bewerten und nutzen die Aufmerksamkeitsebenen eines Transformer-Modells den spezifischen Kontext jedes Teils einer Datensequenz in vier Schritten:
Vor dem Training „wissen“ die Transformationsmodelle noch nicht, wie man optimale Einbettungen und Ausrichtungswerte erzeugt. Während des Trainings trifft das Modell Vorhersagen für Millionen von Beispielen, die aus seinen Trainingsdaten gezogen werden, und eine Verlustfunktion quantifiziert den Fehler jeder Vorhersage.
Durch einen iterativen Zyklus, in dem Vorhersagen getroffen und die Modellgewichte durch Backpropagation und Gradientenabstieg aktualisiert werden, „lernt“ das Modell, Vektoreinbettungen, Ausrichtungswerte und Aufmerksamkeitsgewichte zu erzeugen, die zu genauen Ausgaben führen.
Transformer-Modelle wie relationale Datenbanken generieren Abfrage-, Schlüssel- und Wertvektoren für jeden Teil einer Datensequenz und verwenden sie, um die Aufmerksamkeitsgewichte durch eine Reihe von Matrixmultiplikationen zu berechnen.
Relationale Datenbanken sollen die Speicherung und den Abruf relevanter Daten vereinfachen: Sie weisen jedem Datenelement eine eindeutige Kennung („Schlüssel“) zu, und jeder Schlüssel ist mit einem entsprechenden Wert verknüpft. Im Artikel „Attention is All You Need“ wurde der Framework auf die Verarbeitung der Beziehungen zwischen jedem Token in einer Textfolge angewendet.
Für ein LLM ist die „Datenbank“ des Modells das Vokabular der Token, die es aus den Textproben in seinem Trainingsdaten bestimmt hat. Sein Aufmerksamkeitsmechanismus nutzt Informationen aus dieser „Datenbank“, um den Kontext der Sprache zu verstehen.
Während Zeichen, Buchstaben, Zahlen oder Satzzeichen, die Grundeinheit bilden, die wir Menschen zur Darstellung von Sprache verwenden, ist die kleinste Einheit der Sprache, die KI-Modelle verwenden, ein Token. Jedem Token wird eine ID-Nummer zugewiesen, und diese ID-Nummern (und nicht die Wörter oder gar die Token selbst) sind die Art und Weise, wie LLMs in ihrer Vokabeldatenbank navigieren. Diese Tokenisierung von Sprache reduziert die für die Verarbeitung von Text erforderliche Rechenleistung erheblich.
Um Abfrage- und Schlüsselvektoren zu erzeugen, die in die Aufmerksamkeitsebenen des Transformators eingespeist werden, benötigt das Modell eine anfängliche, kontextlose Einbetten für jedes Token. Diese anfänglichen Token-Einbettungen können entweder während des Trainings gelernt oder von einem vortrainierten Token-Einbettungsmodell übernommen werden.
Die Reihenfolge und Position von Wörtern können ihre Bedeutungen erheblich beeinflussen. Während die serialisierte Natur von RNNs von Natur aus Informationen über die Position jedes Tokens bewahrt, müssen Transformer-Modelle explizit Positionsinformationen hinzufügen, damit der Aufmerksamkeitsmechanismus sie berücksichtigen kann.
Bei der Positionscodierungfügt das Modell der Einbettung jedes Tokens einen Vektor von Werten hinzu, der von seiner relativen Position abgeleitet wird, bevor die Eingabe in den Aufmerksamkeitsmechanismus eintritt. Je näher die beiden Tokens beieinander liegen, desto ähnlicher werden sich ihre Positionsvektoren sein, und daher wird sich ihr Alignment-Score durch das Hinzufügen von Positionsinformationen erhöhen. Dadurch lernt das Modell, Token in der Nähe mehr Aufmerksamkeit zu schenken.
Wenn Positionsinformationen hinzugefügt wurden, wird jede aktualisierte Token-Einbettung verwendet, um drei neue Vektoren zu erzeugen. Diese Abfrage-, Schlüssel- und Wertvektoren werden erzeugt, indem die ursprünglichen Token-Einbettungen durch jede der drei parallelen Feedforward-Ebenen eines neuronalen Netzes geleitet werden, die der ersten Aufmerksamkeitsschicht vorausgehen. Jede parallele Teilmenge dieser linearen Schicht verfügt über eine einzigartige Gewichtungsmatrix, die durch selbstüberwachtes Vortraining anhand eines riesigen Datensatzes gelernt wurde.
Die Hauptfunktion des Aufmerksamkeitsmechanismus des Transformers besteht darin, den Paaren des Abfragevektors jedes Tokens mit den Schlüsselvektoren aller anderen Token in der Sequenz genaue Aufmerksamkeitsgewichte zuzuweisen. Wenn diese erreicht ist, können Sie sich jedes Token vorstellen als einen entsprechenden Vektor von Aufmerksamkeitsgewichten, wobei jedes Element dieses Vektors das Ausmaß darstellt, in dem ein anderes Token es beeinflussen sollte.
Im Wesentlichen die Vektoreinbettung wurde aktualisiert, um den Kontext besser widerzuspiegeln, der von den anderen Token in der Sequenz bereitgestellt wird.
Um die vielfältigen Beziehungen zwischen den Token zu erfassen, implementieren Transformer-Modelle Multi-head Attention über mehrere Aufmerksamkeitsblöcke hinweg.
Vor der Einspeisung in die erste Feedforward-Ebene wird jede ursprüngliche Eingabe-Token-Einbettung in h gleich große Teilmengen aufgeteilt. Jedes Stück der Einbettung wird in eine von h parallelen Matrizen aus Q-, K - und V -Gewichten eingespeist, die jeweils als Abfrage kopf , Schlüsselkopf oder Wertkopf bezeichnet werden. Die Vektoren, die von jedem dieser parallelen Tripletts von Abfrage-, Schlüssel- und Wertköpfen erzeugt werden, werden anschließend in einen entsprechenden Teil der nächsten Aufmerksamkeitsschicht genannten Subsets eingespeist, der als Attention Head bezeichnet wird.
In den letzten Ebenen jedes Aufmerksamkeitsblocks werden die Ausgaben dieser h parallelen Schaltungen schließlich wieder zusammengefügt, bevor sie an die nächste Feedforward-Schicht weitergeleitet werden. In der Praxis führt das Modelltraining dazu, dass jeder Schaltkreis unterschiedliche Gewichtungen lernt, die einen separaten Aspekt der Bedeutungen erfassen.
In einigen Situationen kann die Weitergabe der kontextaktualisierten Ausgabe des Aufmerksamkeitsblocks zu einem inakzeptablen Verlust von Informationen aus der ursprünglichen Sequenz führen.
Um dies zu lösen, gleichen Transformer-Modelle häufig die vom Aufmerksamkeitsmechanismus bereitgestellten Kontextinformationen mit der ursprünglichen Bedeutung jedes Token ab. Nachdem die aufmerksamkeitsaktualisierten Teilmengen der Tokeneinbetten alle wieder miteinander verkettet wurden, wird der aktualisierte Vektor zur ursprünglichen (positionskodierten) Tokeneinbettung des Tokens hinzugefügt. Die ursprüngliche Token-Einbettung wird durch eine Restverbindung zwischen dieser Schicht und einer früheren Schicht des Netzes bereitgestellt.
Der resultierende Vektor wird in eine andere lineare Feedforward-Schicht eingespeist, wo er wieder auf eine konstante Größe normalisiert wird, bevor er an den nächsten Aufmerksamkeitsblock weitergeleitet wird. Zusammen tragen diese Maßnahmen dazu bei, die Stabilität beim Training zu bewahren und sicherzustellen, dass die ursprüngliche Bedeutung des Textes nicht verloren geht, wenn die Daten tiefer in das neuronale Netzwerk eindringen.
Eventuell verfügt das Modell über genügend Kontextinformationen, um in seine endgültigen Ausgaben Daten zu speisen. Die Art und Funktion der Ausgabenebene hängt von der spezifischen Aufgabe ab, für die das Transformator-Modell entwickelt wurde.
In autoregressiven LLMs verwendet die letzte Schicht eine Softmax-Funktion, um die Wahrscheinlichkeit zu bestimmen, dass das nächste Wort mit jedem Token in ihrer Vokabular- „Datenbank“ übereinstimmt. Abhängig von den spezifischen Stichprobenhyperparametern verwendet das Modell diese Wahrscheinlichkeiten, um das nächste Token der Ausgabesequenz zu bestimmen.
Transformer-Modelle werden am häufigsten mit NLP in Verbindung gebracht, da sie ursprünglich für die maschinelle Übersetzung entwickelt wurden. Vor allem die Transformer-Architektur führte zu den großen Sprachmodellen (LLMs), die den Beginn der generativen KI einläuteten.
Die meisten der LLMs, mit denen die Öffentlichkeit am besten vertraut ist, von Closed-Source-Modellen wie der GPT-Serie von OpenAI und den Claude-Modellen von Anthropic bis hin zu Open-Source-Modellen wie Meta Llama oder IBM® Granite, sind autoregressive reine Decoder-LLMs.
Autoregressive LLMs wurden für die Texterstellung entwickelt, die sich natürlich auch auf angrenzende Aufgaben wie die Zusammenfassung und Beantwortung von Fragen erstreckt. Sie werden durch selbstüberwachtes Lernen trainiert, bei dem das Modell das erste Wort einer Textpassage erhält und die Aufgabe hat, iterativ das nächste Wort bis zum Ende der Sequenz vorherzusagen.
Die durch den Mechanismus der Selbstaufmerksamkeit bereitgestellten Informationen ermöglichen es dem Modell, den Kontext aus der Eingabesequenz zu extrahieren und die Kohärenz und Kontinuität seiner Ausgabe zu wahren.
Encoder-Decoder maskierte Sprachmodelle (MLMs) wie BERT und seine vielen Ableitungen stellen den anderen wichtigen Evolutionszweig der transformatorbasierten LLMs dar. Beim Training erhält ein MLM ein Textbeispiel mit einigen maskierten – versteckten –Token und soll die fehlenden Informationen vervollständigen.
Diese Trainingsmethode ist zwar für die Texterstellung weniger effektiv, hilft aber MLMs, bei Aufgaben, die solide Kontextinformationen erfordern, wie z. B. Übersetzung, Textklassifizierung und Einbetten, hervorragende Leistungen zu erbringen.
Obwohl Transformer-Modelle ursprünglich für Anwendungsfall entwickelt wurden und auch heute noch am häufigsten mit diesen in Verbindung gebracht werden, können sie in nahezu jeder Situation mit sequentiellen Daten verwendet werden. Dies hat zur Entwicklung von Transformer-basierten Modellen in anderen Bereichen geführt, von der Feinabstimmung von LLMs für multimodale Systeme bis hin zu dedizierten Prognose-Modellen und ViTs für Computer Vision.
Einige Datenmodalitäten eignen sich besser für eine Transformer-freundliche sequentielle Darstellung als andere. Zeitreihen-, Audio- und Videodaten sind von Natur aus sequentiell, Bilddaten hingegen nicht. Trotzdem haben ViTs und andere aufmerksamkeitsbasierte Modelle für viele Computer-Vision-Aufgaben technologisch ausgereifte Ergebnisse erzielt, einschließlich Bildunterschrift, Objekterkennung, Bildsegmentierung und visuelle Beantwortung von Fragen.
Die Verwendung von Transformer-Modellen für Daten, die üblicherweise nicht als „sequentiell“ betrachtet werden, erfordert eine konzeptionelle Umgehung, um diese Daten als Sequenz darzustellen. Um beispielsweise Aufmerksamkeitsmechanismen zum Verständnis visueller Daten zu nutzen, verwenden ViTs Einbetten,um Bilddaten als Sequenzen interpretierbar zu machen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Google’s BERT Rolls Out Worldwide (Link befindet sich außerhalb von ibm.com), Search Engine Journal, 9. Dezember 2019