Mein IBM Anmelden Abonnieren

Was ist ein Transformator-Modell?

Was ist ein Transformator-Modell?

Ein Transformator-Modell ist eine Art Deep-Learning-Modell, das 2017 eingeführt wurde. Diese Modelle haben sich schnell zu einer grundlegenden Komponente der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) entwickelt und wurden auf eine Vielzahl von Aufgaben im Bereich maschinelles Lernen und künstliche Intelligenz angewendet.

Das Modell wurde erstmals 2017 in einem Artikel mit dem Titel „Attention is All You Need“ von Ashish Vaswani, einem Team bei Google Brain, und einer Gruppe von der University of Toronto beschrieben. Die Veröffentlichung dieses Papiers gilt als Wendepunkt in diesem Bereich, wenn man bedenkt, wie weit verbreitet Transformatoren heute in Anwendungen wie dem Training von LLMs sind.

Diese Modelle können Text und Rede nahezu in Echtzeit übersetzen. Beispielsweise gibt es Apps, die es Touristen mittlerweile ermöglichen, auf der Straße mit Einheimischen in deren Muttersprache zu kommunizieren. Sie helfen Forschern, die DNA besser zu verstehen und die Entwicklung von Arzneimitteln zu beschleunigen. Sie können Anomalien erkennen und Betrug in den Bereichen Finanzen und Sicherheit verhindern. Vision-Transformator werden in ähnlicher Weise für Computer-Vision-Aufgaben verwendet.

Das beliebte ChatGPT-Textgenerierungstool von OpenAI nutzt Transformator-Architekturen für Vorhersagen, Zusammenfassungen, Fragen und mehr, da sich das Modell auf die relevantesten Segmente des Eingabetexts konzentrieren kann. Das „GPT“, das in den verschiedenen Versionen des Tools zu sehen ist (z. B. GPT-2, GPT-3) steht für „Generative Pre-Trained Transformator“. Textbasierte generative KI-Tools wie ChatGPT profitieren von Transformator-Modellen, da sie auf der Grundlage großer, komplexer Datensätze das nächste Wort in einer Textsequenz leichter vorhersagen können.

Das BERT-Modell oder Bidirectional Encoder Representations from Transformers basiert auf der Transformator-Architektur. Seit 2019 wurde BERT für fast alle Google-Suchergebnisse in englischer Sprache verwendet und in über 70 anderen Sprachen eingeführt.1

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Wie sich Transformator-Modelle unterscheiden

Die wichtigste Neuerung des Transformator-Modells besteht darin, dass man sich nicht auf rekurrente neuronale Netze (RNNs) oder konvolutionale neuronale Netze (CNNs) verlassen muss, also neuronale Netzansätze, die erhebliche Nachteile haben. Transformator verarbeiten Eingabesequenzen parallel, was sie für Training und Inferenz äußerst effizient macht – denn man kann die Dinge nicht einfach beschleunigen, indem man weitere GPUs hinzufügt. Transformator-Modelle benötigen weniger Trainingszeit als frühere rekurrente neuronale Netzarchitekturen wie Long Short-Term Memory (LSTM).

RNNs und LSTMs stammen aus den 1920er bzw. 1990er Jahren. Diese Techniken berechnen jede Komponente einer Eingabe nacheinander (z. B. Wort für Wort), so dass die Berechnung viel Zeit in Anspruch nehmen kann. Darüber hinaus stoßen beide Ansätze bei der Beibehaltung des Kontexts an ihre Grenzen, wenn der „Abstand“ zwischen den Informationen in einer Eingabe groß ist.

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Zwei große Innovationen

Es gibt zwei Hauptinnovationen, die Transformator-Modelle mit sich bringen. Betrachten Sie diese beiden Innovationen im Zusammenhang mit der Textvorhersage.

  1. Positionscodierung: Anstatt jedes Wort in der Reihenfolge zu betrachten, in der es in einem Satz erscheint, wird jedem Wort eine eindeutige Zahl zugewiesen. Dies liefert Informationen über die Position jedes Tokens (Teile der Eingabe wie Wörter oder Teilwortteile in NLP) in der Sequenz, sodass das Modell die sequentiellen Informationen der Sequenz berücksichtigen kann.

  2. Selbstbeobachtung: Achtung ist ein Mechanismus, der Gewichtungen für jedes Wort in einem Satz berechnet, während sie sich auf jedes andere Wort im Satz beziehen, sodass das Modell Wörter vorhersagen kann, die wahrscheinlich in der Sequenz verwendet werden. Dieses Verständnis wird im Laufe der Zeit erlernt, da ein Modell anhand vieler Daten trainiert wird. Der Mechanismus der Selbstbeobachtung ermöglicht es jedem Wort, jedes andere Wort in der Sequenz parallel zu beachten und deren Bedeutung für das aktuelle Token abzuwägen. Auf diese Weise kann man sagen, dass Modelle des maschinellen Lernens die Regeln der Grammatik „lernen“ können, basierend auf statistischen Wahrscheinlichkeiten, wie Wörter typischerweise in der Sprache verwendet werden.

Wie funktionieren Transformator-Modelle?

Transformator-Modelle verarbeiten Eingabedaten, bei denen es sich um Sequenzen von Token oder andere strukturierte Daten handeln kann, über eine Reihe von Schichten, die Selbstbeobachtungs-Mechanismen und vorwärtsgerichtete neuronale Netze enthalten. Die Kernidee hinter der Funktionsweise von Transformator-Modellen kann in mehrere wichtige Schritte unterteilt werden.

Stellen wir uns vor, Sie müssen einen englischen Satz ins Französische umwandeln. Dies sind die Schritte, die Sie ausführen müssen, um diese Aufgabe mit einem Transformator-Modell zu erfüllen.

  1. Eingabe-Einbettungen: Der Eingabesatz wird zuerst in numerische Darstellungen umgewandelt, die als Einbettungen bezeichnet werden.Diese erfassen die semantische Bedeutung der Token in der Eingabesequenz. Für Wortfolgen können diese Einbettungen während des Trainings gelernt oder aus vorab trainierten Worteinbettungen erhalten werden.

  2. Positionskodierung: Positionskodierung wird normalerweise als Satz zusätzlicher Werte oder Vektoren eingeführt, die den Token-Einbettungen hinzugefügt werden, bevor sie in das Transformator-Modell eingespeist werden. Diese Positionskodierungen weisen spezifische Muster auf, die die Positionsinformationen kodieren.

  3. Multi-Head-Aufmerksamkeit: Selbstbeobachtung arbeitet in mehreren „Aufmerksamkeitsköpfen“, um verschiedene Arten von Beziehungen zwischen Token zu erfassen. Softmax-Funktionen, eine Art Aktivierungsfunktion, werden zur Berechnung der Aufmerksamkeitsgewichte im Selbstbeobachtungs-Mechanismus verwendet.

  4. Layer-Normalisierung und Residuenverbindungen: Das Modell verwendet Layer-Normalisierung und Residuenverbindungen, um das Training zu stabilisieren und zu beschleunigen.

  5. Feedforward-neuronales Netz: Der Output der Selbstbeobachtungs-Ebene wird durch Feedforward-Ebenen weitergeleitet. Diese Netzwerke wenden nichtlineare Transformationen auf die Token-Repräsentationen an, sodass das Modell komplexe Muster und Beziehungen in den Daten erfassen kann.

  6. Gestapelte Ebenen: Transformator bestehen in der Regel aus mehreren übereinander gestapelten Schichten. Jede Ebene verarbeitet die Ausgabe der vorherigen Ebene und verfeinert die Darstellungen schrittweise. Durch das Stapeln mehrerer Ebenen kann das Modell hierarchische und abstrakte Funktionen in den Daten erfassen.

  7. Output-Ebene: Bei sequenziellen Aufgaben wie der neuronalen Maschinenübersetzung kann ein separates Decoder-Modul über dem Encoder hinzugefügt werden, um die Ausgabesequenz zu generieren.

  8. Training: Transformator-Modelle werden mit überwachtem Lernen trainiert, bei dem sie lernen, eine Verlustfunktion zu minimieren, die die Differenz zwischen den Vorhersagen des Modells und der Ground Truth für die gegebene Aufgabe quantifiziert. Das Training umfasst in der Regel Optimierungstechniken wie Adam oder stochastic gradient descent (SGD).

  9. Inference: Nach der Schulung kann das Modell für die Ableitung neuer Daten verwendet werden. Während der Inferenz wird die Eingabesequenz durch das vorab trainierte Modell geleitet, und das Modell generiert Vorhersagen oder Darstellungen für die gegebene Aufgabe.

Weiterführende Lösungen

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten

1 Google’s BERT Rolls Out Worldwide (Link befindet sich außerhalb von ibm.com), Search Engine Journal, 9. Dezember 2019