Was ist ein Aufmerksamkeitsmechanismus?

Eine hochentwickelte Satellitenschüssel

Autoren

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist ein Aufmerksamkeitsmechanismus?

Ein Aufmerksamkeitsmechanismus ist eine Technik des maschinellen Lernens, die für Deep-Learning-Modelle die relevantesten Teile der Eingabedaten priorisiert (oder sich um sie zu kümmert). Innovationen bei Aufmerksamkeitsmechanismen ermöglichten die Transformer-Architektur, aus der die modernen Large Language Models (LLMs) resultierten, die die Grundlage für beliebte Anwendungen wie ChatGPT sind.

Aufmerksamkeitsmechanismen sind von der Fähigkeit des Menschen (und anderer Tiere) inspiriert, selektiv mehr auf hervorstechende Details zu achten und Details zu ignorieren, die im Moment weniger wichtig sind. Der Zugriff auf alle Informationen, aber die Konzentration auf die relevantesten Informationen trägt dazu bei, dass keine aussagekräftigen Details verloren gehen, und ermöglicht gleichzeitig eine effiziente Nutzung des begrenzten Speichers und der begrenzten Zeit.

Mathematisch ausgedrückt, berechnet ein Aufmerksamkeitsmechanismus Aufmerksamkeitsgewichtungen , die die relative Bedeutung jedes Teils einer Eingabesequenz für die anstehende Aufgabe widerspiegeln. Dann wendet er diese Aufmerksamkeitsgewichte an, um den Einfluss jedes Teils der Eingabe entsprechend seiner jeweiligen Bedeutung zu erhöhen (oder zu verringern). Ein Aufmerksamkeitsmodell, d. h. ein Modell der künstlichen Intelligenz, das einen Aufmerksamkeitsmechanismus verwendet, wird darauf trainiert, durch überwachtes Lernen oder selbstüberwachtes Lernen an einem großen Datensatz von Beispielen genaue Aufmerksamkeitsgewichte zuzuweisen.

Aufmerksamkeitsmechanismen wurden ursprünglich von Bahdanau et al.im Jahr 2014 eingeführt, um die Mängel der damals modernen Recurrent Neural Networks (RNN) für die maschinelle Übersetzung zu beheben. Nachfolgende Forschungen integrierten Aufmerksamkeitsmechanismen in die Konvolutionale neuronale Netze (CNNs), die für Aufgaben wie Bildunterschriften und visuelle Fragebeantwortungen verwendet werden.

Im Jahr 2017 wurde in der bahnbrechenden Arbeit „Attention is All You Need“ das Transformer-Modell vorgestellt, das auf Rekursion und Konvolutionen gänzlich verzichtet und stattdessen nur Aufmerksamkeitsschichten und standardmäßige Feedforward-Schichten verwendet. Die Transformator-Architektur ist seitdem zum Fundament der modernsten Modelle geworden, die die Ära der generativen KI bestimmen.

Während Aufmerksamkeitsmechanismen in erster Linie mit LLMs in Verbindung gebracht werden, die für Aufgaben der Verarbeitung natürlicher Sprache verwendet werden, wie z. B. Zusammenfassung, Beantwortung von Fragen, Texterzeugung und Stimmungsanalyse, werden aufmerksamkeitsbasierte Modelle auch in anderen Bereichen häufig eingesetzt. Führende Diffusionsmodelle, die für die Bilderzeugung verwendet werden, enthalten oft einen Aufmerksamkeitsmechanismus. Im Bereich der Computer Vision haben Vision Transformers (ViTs) bei Aufgaben wie der Erkennung,1 der Bildsegmentierung2 und der Beantwortung visueller Fragen hervorragende Ergebnisse erzielt.3

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum sind Aufmerksamkeitsmechanismen wichtig?

Transformer-Modelle und die Aufmerksamkeitsmechanismen, die sie antreiben, haben in fast jedem Teilbereich des Deep Learning Spitzenergebnisse erzielt. Die Art der Aufmerksamkeitsmechanismen verschafft ihnen erhebliche Vorteile gegenüber den Faltungsmechanismen, die in faltenden neuronalen Netzen (CNNs) verwendet werden, und den rekurrenten Schleifen, die in rekurrenten neuronalen Netzen (RNNs) zum Einsatz kommen.

  • Zeitliche Flexibilität: Die Art und Weise, wie RNNs sequentielle Daten verarbeiten, ist von Natur aus seriell, d.h. sie verarbeiten jeden Zeitschritt in einer Sequenz einzeln in einer bestimmten Reihenfolge. Das macht es für ein RNN schwierig, Korrelationen - im Jargon der Data Science Abhängigkeiten genannt - zu erkennen, zwischen denen viele Schritte liegen. Aufmerksamkeitsmechanismen hingegen können eine gesamte Sequenz gleichzeitig untersuchen und Entscheidungen über die Reihenfolge treffen, in der sie sich auf bestimmte Schritte konzentrieren sollen.

  • Räumliche Flexibilität: CNNs sind von Natur aus lokal und verarbeiten mithilfe von Faltungen kleinere Teilmengen der Eingabedaten Stück für Stück. Dadurch ist es für ein CNN schwierig, Abhängigkeiten zu erkennen, die weit voneinander entfernt sind, wie z. B. Korrelationen zwischen Wörtern (in Texten) oder Pixeln (in Bildern), die nicht nebeneinander liegen. Aufmerksamkeitsmechanismen haben diese Einschränkung nicht, da sie Daten auf eine ganz andere Weise verarbeiten.

  • Parallelisierung: Es liegt in der Natur von Aufmerksamkeitsmechanismen, dass viele Rechenschritte auf einmal und nicht in einer seriellen Weise ausgeführt werden. Dies wiederum ermöglicht ein hohes Maß an parallelem Rechnen, wobei die Leistung und Geschwindigkeit von GPUs genutzt wird.

Um die Funktionsweise der Aufmerksamkeitsmechanismen beim Deep Learning und die Hintergründe zu verstehen, warum sie dazu beigetragen haben, eine Revolution in der generativen KI auszulösen, muss man erst betrachten, warum Aufmerksamkeit eingeführt wurde. Sie sollte die RNN-basierten Seq2Seq-Modelle, die für die maschinelle Übersetzung verwendet werden, verbessern.
 

Wie Seq2Seq ohne Aufmerksamkeitsmechanismen funktioniert

RNNs sind Neural Networks mit wiederkehrenden Schleifen, die ein Äquivalent von „Gedächtnis“ bieten und es ihnen ermöglichen, sequenzielle Daten zu verarbeiten. RNNs nehmen eine geordnete Abfolge von Eingabe auf und verarbeiten diese in Zeitschritten. Nach jedem Zeitschritt wird der resultierende Netzwerkzustand, der als verborgener Zustand bezeichnet wird, wird mit dem nächsten Eingangsvektor an die Runde zurückgegeben.

RNNs leiden schnell unter verschwindenden oder explodierenden Gradienten im Training. Dies machte RNNs für viele NLP-Aufgaben unpraktisch, da sie die Länge der Eingabesätze, die sie verarbeiten konnten, stark einschränkten.4 Diese Einschränkungen wurden durch eine verbesserte RNN-Architektur etwas abgemildert, die als Long Short Term Memory Networks (LSTMs) bezeichnet wird und Gating-Mechanismen hinzufügt, um den „Langzeitspeicher“ zu erhalten.

Vor der Einführung der Aufmerksamkeit war das Seq2Seq-Modell das modernste Modell für maschinelle Übersetzung. Seq2Seq verwendet zwei LSTMs in einer Encoder-Decoder-Architektur.

  • Der erste LSTM, der Encoder, verarbeitet den Quellensatz Schritt für Schritt und gibt dann den verborgenen Zustand des letzten Zeitschritts aus. Diese Ausgabe, der Kontextvektor, kodiert den gesamten Satz als eine Vektoreinbettung. Damit Seq2Seq Sätze mit unterschiedlicher Wortanzahl flexibel verarbeiten kann, hat der Kontextvektor immer die gleiche Länge.
  • Das zweite LSTM, der Decoder, nimmt den vom Encoder ausgegebenen Vektor-Embedding-Output als seinen ersten Input und decodiert ihn Wort für Wort in eine zweite Sprache.

Die Kodierung von Eingabesequenzen in einer festen Anzahl von Dimensionen ermöglichte es Seq2Seq, Sequenzen unterschiedlicher Länge zu verarbeiten, führte aber auch zu wichtigen Mängeln:

  • Es stellt lange oder komplexe Sequenzen mit demselben Detailgrad dar wie kürzere, einfachere Sätze. Dies führt zu einem Informationsengpass für längere Sequenzen und verschwendet Ressourcen für kürzere Sequenzen.
  • Dieser Vektor stellt nur den letzten verborgenen Zustand des Encodernetzes dar. Theoretisch sollte jeder nachfolgende verborgene Zustand Informationen aus dem vorherigen verborgenen Zustand enthalten, der wiederum Informationen aus dem vorherigen Zeitschritt enthält, und so weiter, zurück zum ersten Schritt. In der Praxis „vergisst“ der Kontextvektor unweigerlich Informationen aus früheren Zeitschritten, was die Leistung des Modells bei längeren Sequenzen beeinträchtigt.
     

Wie Aufmerksamkeitsmechanismen Seq2Seq verbesserten

Bahdanau et al. schlugen in ihrem Artikel „Neural Machine Translation by Jointly Learning to Align and Translate“ von 2014 einen Aufmerksamkeitsmechanismus vor, um die Kommunikation zwischen Encoder und Decoder zu verbessern und diesen Informationsengpass zu beseitigen.

Anstatt nur den finalen, versteckten Zustand des Encoders – den Kontextvektor – an den Decoder weiterzugeben, übergab das Modell jeden versteckten Zustand des Encoders an den Decoder. Der Aufmerksamkeitsmechanismus selbst wurde verwendet, um zu bestimmen, welcher verborgene Zustand, d. h. welches Wort im ursprünglichen Satz, bei jedem Übersetzungsschritt des Decoders am relevantesten war.

„Das Modell muss dann nicht mehr einen ganzen Ausgangssatz in einen Vektor fester Länge kodieren, sondern kann sich nur auf die Informationen konzentrieren, die für die Erzeugung des nächsten Zielworts relevant sind“, so die Studie. „Dies wirkt sich sehr positiv auf die Fähigkeit des neuronalen maschinellen Übersetzungssystems aus, bei längeren Sätzen gute Ergebnisse zu erzielen.“5

Die darauf folgende NLP-Forschung konzentrierte sich in erster Linie auf die Verbesserung der Leistung und die Ausweitung der Anwendungsmöglichkeiten von Aufmerksamkeitsmechanismen in rekurrenten Modellen. Mit der Erfindung von Transformatormodellen im Jahr 2017, die ausschließlich durch Aufmerksamkeit angetrieben werden, wurden RNNs für NLP schließlich fast überflüssig.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Wie funktionieren Aufmerksamkeitsmechanismen?

Der Hauptzweck eines Aufmerksamkeitsmechanismus besteht darin, die relative Wichtigkeit verschiedener Teile der Eingabesequenz zu bestimmen und dann das Modell so zu beeinflussen, dass es sich auf wichtige Teile konzentriert und unwichtige Teile ignoriert.

Es gibt zwar viele Varianten und Kategorien von Aufmerksamkeitsmechanismen, die jeweils für unterschiedliche Anwendungsfälle und Prioritäten geeignet sind, aber alle Aufmerksamkeitsmechanismen weisen drei Kernprozesse auf:

  1.  Ein Prozess des „Lesens“ von Rohdatensequenzen und ihrer Umwandlung in Vektoreinbettungen, bei dem jedes Element der Sequenz durch einen eigenen Merkmalsvektor bzw. eigene Merkmalsvektoren dargestellt wird.

  2. Ein Prozess zur genauen Bestimmung von Ähnlichkeiten, Korrelationen und anderen Abhängigkeiten (oder deren Fehlen) zwischen den einzelnen Vektoren, die als Ausrichtungswerte (oder Aufmerksamkeitswerte) quantifiziert werden, die widerspiegeln, wie ausgerichtet (oder nicht ausgerichtet) sie sind. Mithilfe der Ausrichtungswerte werden dann die Aufmerksamkeitsgewichte mithilfe einer Softmax-Funktion berechnet, die alle Werte auf einen Bereich zwischen 0 und 1 normiert, sodass sie zusammen eine Summe von 1 ergeben. Wenn Sie beispielsweise einem Element eine Aufmerksamkeitsgewichtung von 0 zuweisen, bedeutet dies, dass es ignoriert werden sollte. Eine Aufmerksamkeitsgewichtung von 1 bedeutet, dass dieses Element 100 % Aufmerksamkeit erhalten sollte, da alle anderen Elemente eine Aufmerksamkeitsgewichtung von 0 haben würden (da sich alle Gewichtungen zu 1 summieren müssen). Im Wesentlichen ist die Ausgabe einer Softmax-Funktion eine Wahrscheinlichkeitsverteilung.

  3. Ein Prozess, bei dem diese Aufmerksamkeitsgewichtungen verwendet werden, um den Einfluss bestimmter Eingabeelemente darauf, wie das Modell Vorhersagen trifft, hervorzuheben oder abzuschwächen. Mit anderen Worten, ein Mittel zur Verwendung von Aufmerksamkeitsgewichten, um Modellen dabei zu helfen, sich auf Informationen zu konzentrieren oder diese zu ignorieren.

Abfragen, Schlüssel und Werte

Die wegweisende Arbeit „Attention is All You Need“ beschreibt seinen Aufmerksamkeitsmechanismus anhand der Terminologie einer relationalen Datenbank: Abfragen, Schlüssel und Werte. Relationale Datenbanken sollen die Speicherung und den Abruf relevanter Daten vereinfachen: Sie weisen jedem Datenelement eine eindeutige Kennung („Schlüssel“) zu, und jeder Schlüssel ist mit einem entsprechenden Wert verknüpft. Im NLP ist die „Datenbank“ eines Modells das Vokabular der Token, die es aus seinem Trainings-Datensatz gelernt hat.

Der große Erfolg von „Attention is All You Need“ hat dazu geführt, dass selbst frühere Aufmerksamkeitsmechanismen oft rückwirkend mit diesen Begriffen beschrieben werden. Im Allgemeinen beinhaltet dieses Konzept der Aufmerksamkeit eine Interaktion zwischen drei Arten von Vektordarstellungen für jedes Token in einer Sequenz.

  • Der Abfragevektor stellt die Informationen dar, nach denen ein bestimmtes Token sucht.
  • Die Schlüsselvektoren stellen die Informationen dar, die jedes Token enthält. Die Ausrichtung zwischen Abfrage und Schlüssel wird zur Berechnung der Aufmerksamkeitsgewichte verwendet.
  • Der Wert (oder Wertvektor) wendet die aufmerksamheitsgewichteten Informationen aus den Schlüsselvektoren an. Beiträge von Schlüsseln, die stark auf eine Abfrage ausgerichtet sind, werden stärker gewichtet; Beiträge von Schlüsseln, die für eine Abfrage nicht relevant sind, werden näher an Null gewichtet.

Spezifische Aufmerksamkeitsmechanismus-Varianten unterscheiden sich in erster Linie dadurch, wie Vektoren kodiert werden, wie die Ausrichtungswerte berechnet werden und wie Aufmerksamkeitsgewichtungen angewendet werden, um dem Modell relevante Informationen zu liefern.
 

Additive Aufmerksamkeit

Der Aufmerksamkeitsmechanismus von Badhanau wurde speziell für die maschinelle Übersetzung entwickelt. Es verwendet ein bidirektionales RNN, um jedes Eingabe-Token zu codieren, wobei die Eingabe-Sequenz sowohl in Vorwärtsrichtung als auch in umgekehrter Richtung verarbeitet und die Ergebnisse miteinander verkettet werden. Dieser Ansatz ist besonders nützlich, wenn z. B. die ursprüngliche und die übersetzte Sprache unterschiedliche Ordnungskonventionen für Substantive und Adjektive haben.

Hier ist der versteckte Zustand des Decoders bei jedem Zeitschritt des übersetzten Satzes das Äquivalent eines Abfragevektors , und der versteckte Zustand des Encoders bei jedem Schritt im Quellsatz ist das Äquivalent eines Schlüsselvektors.

Die Ausrichtungswerte werden dann von einem einfachen neuronalen Feedforward-Netz, der Aufmerksamkeitsschicht, bestimmt, das gemeinsam mit dem Rest des Modells trainiert wird. Diese Aufmerksamkeitsschicht umfasst bis zu drei Untergruppen von lernbaren Modellgewichten: Abfragegewichte für die versteckten Decoderzustände („Wq“), Schlüsselgewichte für versteckte Encoderzustände („Wk“) und Wertgewichte zur Skalierung der finalen Ausgabe („wv“). Diese Gewichte sind das „Wissen“ des Modells: Indem es die spezifischen Werte dieser Gewichte während des Trainings anpasst, um eine Verlustfunktion zu minimieren, lernt das Modell, genaue Übersetzungen zu machen.

So funktioniert bei jedem Schritt die hinzugefügte Aufmerksamkeit:

  • Der Abfragevektor (multipliziert mit Wq) wird zu einem Schlüsselvektor (multipliziert mit Wk) hinzugefügt. Wenn sie aufeinander abgestimmt sind, ergibt die Addition einen großen Wert. Wenn sie füreinander irrelevant sind, ergibt die Addition einen kleinen oder negativen Wert.
  • Die resultierende Zahl wird eingegeben in eine tein/enh Aktivierungsfunktion, die alle Eingaben einer Zahl zwischen -1 und 1 abbildet.
  • Die Ausgabe der tein/enh wird dann mit den Wertgewichtungen wv multipliziert. Dies liefert den Ausrichtungswert zwischen dem Abfragevektor und diesem Schlüsselvektor.
  • Der Alignment Score wird dann zur Eingabe einer Softmax-Funktion, die ein Aufmerksamkeitsgewicht für diesen Schlüsselvektor liefert.
     

Der vom Decoder zur Erstellung des übersetzten Satzes verwendete Kontextvektor wird als aufmerksamkeitsgewichtete Summe der einzelnen Schlüsselvektoren berechnet. Ein Vorteil der so hinzugefügten Aufmerksamkeit ist, dass die Abfrage- und Schlüsselvektoren nicht gleich lang sein müssen.

Skalarprodukt-Aufmerksamkeit

Im Jahr 2015 führten Luong et al. mehrere neue Methoden ein, um den Aufmerksamkeitsmechanismus von Badhanau für maschinelle Übersetzung zu vereinfachen und zu verbessern. Ihr vielleicht bemerkenswertester Beitrag war eine neue Alignment-Score-Funktion, die Multiplikation statt Addition verwendete. Sie hat auch die tein/enh Funktion, die die Ähnlichkeit zwischen verborgenen Zustandsvektoren anhand ihres Skalarprodukts berechnet. Aus diesem Grund wird es oft als Punktproduktaufmerksamkeit oder multiplikative Aufmerksamkeit bezeichnet.

Die Intuition hinter der Verwendung von Skalarprodukten zum Vergleich von Abfragevektoren ist sowohl mathematisch als auch pragmatisch:

  • Wenn die F und K Vektoren ausgerichtet sind, d. h., wenn eine Abfrage und ein Schlüssel eine ähnliche Bedeutung haben, ergibt das Multiplizieren einen hohen Wert. Nach Softmax führt dieser große Wert zu einer großen Aufmerksamkeitsgewichtung für diese Taste. Wenn sie nicht gut ausgerichtet sind, ist ihr Punktprodukt klein oder negativ, und die anschließende Softmax-Funktion führt zu einem geringen Aufmerksamkeitsgewicht.
  • In der Praxis ist die Multiplikation für neuronale Netze viel schneller und rechnerisch effizienter als additive Vorgänge, da sie mithilfe der Matrixmultiplikation in weniger Schritten implementiert werden kann.6

Eine Konsequenz der Verwendung von Skalarprodukt-Aufmerksamkeit ist, dass Skalarprodukt-Berechnungen erfordern, dass beide Vektoren die gleiche Anzahl von Dimensionen DK .

Während die additive Aufmerksamkeit den Kontextvektor als gewichtete Summe der Schlüsselvektoren berechnet, berechnet die Punktproduktaufmerksamkeit den Kontextvektor als gewichteten Durchschnitt der Schlüsselvektoren.
 

Skalarprodukt-Aufmerksamkeit

Die Autoren von „Attention is All You Need“ stellten fest, dass die Skalarprodukt-Aufmerksamkeit zwar schneller und rechnerisch effizienter ist als die additive Aufmerksamkeit, dass aber die additive Aufmerksamkeit die traditionelle Punktproduktaufmerksamkeit bei längeren Vektoren übertrifft.

Sie vermuteten, dass DK sehr groß ist, sind auch die resultierenden Skalarprodukte sehr groß. Wenn die Softmax-Funktion all diese sehr großen Werte verkleinert, damit sie in den Bereich 0-1 passen, führt die Backpropagation zu extrem kleinen Gradienten, die schwer zu optimieren sind. Experimente haben gezeigt, dass die Skalierung des Skalarprodukts von zwei Vektoren der Länge DK von  1DK vor der Softmax-Normalisierung zu größeren Gradienten und damit zu einem reibungsloseren Training führt.

Die in Transformator-Modellen verwendete skalierte Punktprodukt-Aufmerksamkeitsfunktion wird wie folgt geschrieben: Attention(F,K,V)=soFtmein/eX(FKTDK)V .

 

Selbstbeobachtung

Die frühesten Aufmerksamkeitsmechanismen führten alle das aus, was heute als Kreuzaufmerksamkeit kategorisiert wird. Bei Cross-Attention stammen Abfragen und Schlüssel aus verschiedenen Datenquellen. Bei maschinellen Übersetzungsaufgaben stammen beispielsweise die Schlüssel aus einem Textkorpus in einer Sprache und die Abfragen aus einer anderen Sprache. Bei Spracherkennungsaufgaben handelt es sich bei Abfragen um Audiodaten und bei Schlüsseln um Textdaten, um diese Audiodaten zu transkribieren.

Bei der Self-Attention werden Abfragen, Schlüssel und Werte alle aus der gleichen Quelle gezogen. Während die Aufmerksamkeitsmechanismen von Bahdanau und Luong explizit für die maschinelle Übersetzung entwickelt wurden, schlugen Cheng at al. die Selbstaufmerksamkeit, die sie „Intra-Attention“ nannten, als eine Methode zur Verbesserung des maschinellen Lesens im Allgemeinen vor. Ihr Aufmerksamkeitsmechanismus, den sie in einer Studie aus dem Jahr 2016 beschrieben, untersuchte nicht, wie die Eingaben zu einer Gesamtsequenz beitragen, sondern wie sich die verschiedenen Eingabe-Token zueinander verhalten.

Stellen Sie sich ein Sprachmodell vor, das den englischen Text interpretiert
„Am Freitag fällte der Richter ein Urteil“ interpretiert.

  • Der vorhergehende Artikelder deutet darauf hin,dass „Richter” ein Substantiv mit männlichem Geschlecht, d. h. ein Mann, der ein Gerichtsverfahren leitet und nicht als Verb, das „beurteilen oder sich eine Meinung bilden“ bedeutet.
  • Der Kontext für das Wortdass „Richter” deutet darauf hin,Satz sich wahrscheinlich eher auf einen gerichtlichen Kontext und nicht auf eine „Meinungsbildung“ abzielt.
  • Das Wortdas hier verwendet wird, impliziert außerdem, dass sich der Satz auf das juristische Konzept bezieht, nicht auf das grammatikalische Konzept.
  • Deshalb sollte bei der Interpretation des WortesSatz sollte das Modell deshalb genau auf die Begriffe dass „Richter” unddas hier verwendet wird, . Es sollte auch auf das Wort achtender . Die anderen Wörter kann es mehr oder weniger ignorieren. Ein gut trainierter Selbstaufmerksamkeitsmechanismus würde die Aufmerksamkeitsgewichte entsprechend berechnen.

Die Arbeit von Cheng et al. konzentrierte sich ausschließlich auf die Fähigkeit der Selbstbeobachtung, Text zu lesen und zu verstehen, aber es folgerte, dass die Modellierung von Intrasequenzbeziehungen auch ein leistungsfähiges Werkzeug für das Schreiben von Text sein könnte. Die Weiterentwicklung der Selbstbeobachtung führte zusammen mit den damit ermöglichten Transformer-Modellen direkt zum Aufkommen moderner generativer KI und autoregressiver LLMs, die Originaltext generieren können.

Selbstaufmerksamkeit und maschinelle Übersetzung

Autoregressive LLMs können auch maschinelle Übersetzungen mit Hilfe von Self-Attention erstellen, müssen die Aufgabe aber anders angehen. Während Cross-Attention den ursprünglichen Ausgangssatz und den übersetzten Satz als zwei unterschiedliche Sequenzen behandelt, behandelt Self-Attention den ursprünglichen Text und den übersetzten Text als eine Sequenz.

Damit ein autoregressives, auf Selbstbeobachtung basierendes LLM in der Lage ist, Text zu übersetzen, werden alle Wörter, auf die das Modell beim Training stößt – in allen Sprachen – als Teil eines großen mehrsprachigen Token-Vokabulars gelernt. Das Modell erkennt einfach, dass, wenn eine Sequenz Anweisungen wie „[Wörter in Sprache 1] in Sprache 2“ übersetzen enthält, die nächsten Wörter in der Sequenz Token aus Sprache 2 sein sollten.

Im Wesentlichen versteht ein autoregressives LLM nicht unbedingt, dass es an sich verschiedene Sprachen gibt. Stattdessen versteht es einfach, wie bestimmte Gruppierungen von Token – in diesem Fall Token, die Wörtern aus derselben Sprache entsprechen – miteinander umgehen. Dieses kontextuelle Verständnis wird durch Techniken wie die Befehlsabstimmung weiter verstärkt.

 

Achtung bei Transformator-Modellen

„Attention is All You Need“ von Viswani et al.war von der Selbstbeobachtung inspiriert und stellte eine neue Neural-Networks-Architektur vor: den Transformer.Ihr Transformer-Modell verzichtete völlig auf Konvolutionen und Wiederholungen und verwendete stattdessen nur Aufmerksamkeitsschichten und standardmäßige lineare Feedforward-Schichten.

Das eigene Modell der Autoren folgte einer Encoder-Decoder-Struktur, ähnlich der seiner RNN-basierten Vorgänger. Später transformatorbasierte Modelle verließen dieses Encoder-Decoder-Framework. Eines der ersten bahnbrechenden Modelle, das im Zuge des Transformer-Paper veröffentlicht wurde, ist BERT (Bidirectional Encoder Representations from Transformers), ein reines Encoder-Modell. Die autoregressiven LLMs, die Textgenerierung revolutioniert haben, wie GPT-Modelle (Generative Pretrained Transformer), sind nur Decoder.

„Attention is All You Need“ schlug mehrere Innovationen für den Aufmerksamkeitsmechanismus vor – eine davon war die skalierte Punktproduktaufmerksamkeit – um die Leistung zu verbessern und die Aufmerksamkeit an eine völlig neue Modellstruktur anzupassen.
 

Positionskodierung

Die relative Reihenfolge und Position von Wörtern kann einen wichtigen Einfluss auf ihre Bedeutungen haben. Während RNNs von Natur aus Informationen über die Position jedes Tokens bewahren, indem sie versteckte Zustände seriell, ein Wort nach dem anderen, berechnen, müssen Transformer-Modelle Positionsinformationen explizit kodieren.

Bei der Positionscodierung fügt das Modell der Einbettung jedes Tokens einen Vektor von Werten hinzu, der von seiner relativen Position abgeleitet wird, bevor die Eingabe in den Aufmerksamkeitsmechanismus eintritt. Dieser Positionsvektor hat in der Regel viel weniger Dimensionen als die Tokeneinbettung selbst, sodass nur eine kleine Teilmenge der Einbettung Positionsinformationen erhält. Die Mathematik ist etwas komplex, aber die Logik ist einfach:

  • Je näher zwei Token beieinander liegen, desto ähnlicher sind ihre Positionsvektoren.
  • Je ähnlicher ihre jeweiligen Positionsvektoren sind, desto größer ist die Ähnlichkeit zwischen ihren jeweiligen Token-Einbettungen nach dem Hinzufügen dieser Positionsvektoren.
  • Je ähnlicher ihre positionsaktualisierten Einbettungen sind, desto höher ist ihr Ausrichtungswert, was zu einem größeren Aufmerksamkeitsgewicht zwischen diesen beiden Token führt. Dadurch lernt das Modell, den nahegelegenen Token mehr Aufmerksamkeit zu schenken.

Viswani et al. entwarfen einen einfachen Algorithmus, der eine Sinusfunktion für Token in geraden Positionen und einen Kosinus für Token in ungeraden Positionen verwendet. Spätere Algorithmen, wie z. B. Rotary Positional Encoding (RoPE), verbesserten die Fähigkeit, Positionsinformationen für sehr lange Sequenzen effektiv zu kodieren, was wiederum dazu beigetragen hat, LLMs mit größeren Kontextfenstern zu ermöglichen.
 

Selbstaufmerksamkeitsmechanismus in Transformatormodellen

Nach der Aktualisierung jeder Token-Einbettung mit Positionsinformationen wird jede verwendet, um drei neue Vektoren zu erzeugen, indem die ursprüngliche Token-Einbettung durch jede der drei parallelen linearen (feedforward) neuronalen Netzschichten geleitet wird, die der ersten Aufmerksamkeitsschicht vorausgehen. Jede parallele Schicht hat eine eindeutige Matrix von Gewichten, deren spezifische Werte durch selbstüberwachtes Vortraining auf einem umfangreichen Textdatensatz gelernt werden.

  • Die Einbettung wird mit der Gewichtungsmatrix WF multipliziert, um den Abfragevektor zu (F) zu erhalten, der die Dimension DK  aufweist.
  • Die Einbettung wird mit der Gewichtungsmatrix WK multipliziert, um den Schlüsselvektor zu erhalten (K) zu erhalten – auch mit den Dimensionen DK 
  • Die Einbettung wird mit der Gewichtungsmatrix WV multipliziert, um den Wertevektor ( V ), mit den Dimensionen  DV

Die Hauptfunktion des Aufmerksamkeitsmechanismus besteht darin, die Wichtigkeit der Abfrageschlüssel-Paarungen zwischen den einzelnen Token zu gewichten. Für jedes Token x in einer Eingabesequenz berechnet (und wendet dann) das Transformer-Modell die Aufmerksamkeitsgewichte wie folgt an:

  1. Der Abfragevektor von Token x FX wird mit dem Schlüsselvektor jedes anderen Tokens multipliziert K. Das resultierende Skalarprodukt ist für ein Token, das hochrelevant ist, groß. Sein Punktprodukt mit einem irrelevanten Token ist klein oder negativ.
  2. Jedes Skalarprodukt wird skaliert – d. h. multipliziert – mit 1DK. Das Ergebnis ist der Alignment Score zwischen Token x und jedem anderen Token.
  3. Diese Ausrichtungsscores werden als Eingabe in eine Softmax-Funktion eingegeben, die jeden Score auf einen Wert zwischen 0 und 1 normiert, sodass sie sich alle zu 1 summieren. Dies sind die Aufmerksamkeitsgewichte zwischen Token x und jedem anderen Token. Sie können sich jedes Token so vorstellen, dass es einen entsprechenden Vektor von Aufmerksamkeitsgewichtungen hat, wobei jedes Element dieses Vektors das Ausmaß darstellt, in dem ein anderes Token ihn beeinflussen sollte.
  4. Der Wertvektor jedes anderen Tokens wird jetzt mit seiner jeweiligen Aufmerksamkeitsgewichtung multipliziert.
  5. Diese aufmerksamkeitsgewichteten Wertevektoren werden alle gemittelt. Der resultierende Vektor stellt den Durchschnitt aller aufmerksamkeitsgewichteten Beiträge jedes Schlüsselvektors dar.
  6. Schließlich wird der resultierende Vektor der Änderungen für jedes Token der ursprünglichen Vektoreinbettung von Token x hinzugefügt. Im Wesentlichen wurde die Vektoreinbettung von Token x aktualisiert, um den von den anderen Token in der Sequenz bereitgestellten Kontext besser widerzuspiegeln.

Multi-Head-Aufmerksamkeit

Die Mittlung der aufmerksamkeitsgewichteten Beiträge anderer Token, anstatt jeden aufmerksamkeitsgewichteten Beitrag einzeln zu berücksichtigen, ist mathematisch effizient, führt jedoch zu einem Detailverlust. Die Transformer-Architektur adressiert dieses Problem durch die Implementierung von Multi-Head-Aufmerksamkeit.

Um von der Effizienz der Mittelwertbildung zu profitieren und gleichzeitig die vielfältigen Beziehungen zwischen den Token zu berücksichtigen, berechnen Transformatormodelle die Selbstaufmerksamkeitsoperationen mehrfach parallel auf jeder Aufmerksamkeitsebene im Netzwerk. Jede ursprüngliche Eingabe-Token-Einbettung wird in h gleichmäßig große Teilmengen aufgeteilt. Jedes Stück der Einbettung wird in eine von h parallelen Matrizen aus Q-, K- und V-Gewichten eingespeist, die jeweils als Abfragekopf , Schlüsselkopf oder Wertkopf bezeichnet werden. Die Vektoren, die von jedem dieser parallelen Tripletts von Abfrage- und Schlüsselwertköpfen ausgegeben werden, werden dann in einen entsprechenden Aufmerksamkeitskopf eingespeist.

In den letzten Ebenen jedes Aufmerksamkeitsblocks werden die Ausgaben dieser h-Parallelschaltungen wieder miteinander verkettet. In der Praxis führt das Modelltraining dazu, dass jeder Schaltkreis unterschiedliche Gewichtungen lernt, die einen separaten Aspekt semantischer Bedeutungen erfassen. Auf diese Weise wiederum kann das Modell auf verschiedene Weise verarbeiten, wie der Kontext anderer Wörter die Bedeutung eines Wortes beeinflussen kann. Zum Beispiel könnte sich ein Aufmerksamkeitsleiter auf Veränderungen in der Zeitform spezialisieren, während ein anderer sich darauf spezialisiert hat, wie Wörter in der Nähe den Tonfall beeinflussen.

ie gesamte Schaltung der Matrixmultiplikation im Aufmerksamkeitsblock eines Standardtransformators wird hier demonstriert. Es ist erwähnenswert, dass spätere Weiterentwicklungen des Aufmerksamkeitsmechanismus des Transformers, wie z. B. die Multiquery-Attention und die Grouped Query-Attention, einige Elemente des Prozesses vereinfachen oder kombinieren, um den Rechenaufwand zu verringern.

Generieren von Ausgaben

In den letzten Schichten von Transformatormodellen werden die Aufmerksamkeitsköpfe oft trainiert, um bestimmte Vorhersagen zu treffen. Zum Beispiel könnte sich ein Aufmerksamkeitskopf in der letzten Schicht eines LLM auf die Named Entity Recognition spezialisieren, während ein anderer auf die Stimmungsanalyse spezialisiert ist und so weiter.

Bei autoregressiven LLMs ist die vorletzte Schicht eine lineare Schicht, die den vollständig transformierten Vektor empfängt und ihn auf eine Größe projiziert, die der Größe der Vektoreinbettungen entspricht, die das Modell für jedes Token in seinem Vokabular gelernt hat. Dies ermöglicht die Berechnung von Punktzahlen, die darstellen, wie genau der resultierende Vektor mit jedem Token in diesem Vokabular übereinstimmt. Die letzte Schicht ist eine Softmax-Ebene, die diese Punktzahlen in Wahrscheinlichkeiten (von 1) umwandelt und diese Wahrscheinlichkeiten verwendet, um das als das wahrscheinlichste nächste Wort zu bestimmen, basierend auf den Wörtern, die ihm vorausgegangen sind.

Fußnoten

1. „Leaderboard: Object Detection on COCO test-dev,” Papers With Code, abgerufen 18 November 2024
2. „Leaderboards: Image Segmentation” Papers With Code, abgerufen am 18. November 2024
3. „Leaderboard: Visual Question Answering (VQA) on VQA v2 test-dev,” Papers With Code, abgerufen am 18. November 2024
4. „Learning long-term dependencies with gradient descent is difficult,” IEE Transactions on Neural Networks 5(2): 157-66, Februar 1994
5. „Neural Machine Translation by Jointly Learning to Align and Translate,” arXiv, 01. September 2014
6. „Multiplicative Attention,” Papers With Code

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo