Was ist ein Transformator-Modell?

Autoren

Staff Editor, AI Models

IBM Think

Senior Staff Writer, AI Models

IBM Think

Was ist ein Transformator-Modell?

Das Transformator-Modell ist eine Art von Neural Networks Architektur, die sich durch die Verarbeitung sequenzieller Daten auszeichnet und vor allem mit großen Sprachmodellen (LLMs) in Verbindung gebracht wird. Transformer-Modelle haben auch in anderen Bereichen der KI Spitzenleistung erreicht, etwa in Computer Vision, Spracherkennung und Prognosen.

Die Transformer-Architektur wurde erstmals in dem wegweisenden Artikel „Attention is All You Need“ aus dem Jahr 2017 von Vaswani und anderen beschrieben, der heute als Wendepunkt in der Entwicklung von Deep Learning gilt.

Ursprünglich als Weiterentwicklung der auf rekurrenten neuronalen Netzen (RNN)basierenden Sequenz-zu-Sequenz-Modelle eingeführt, die für die maschinelle Übersetzung verwendet werden, haben Transformer-basierte Modelle inzwischen in fast allen Disziplinen des maschinellen Lernens (ML) bahnbrechende Fortschritte erzielt.

Trotz ihrer Vielseitigkeit sind Transformer-Modelle nach wie vor am häufigsten im Zusammenhang mit Anwendungsfällen für die Verarbeitung natürlicher Sprache (NLP) im Gespräch, wie z. B.Chatbots, Textgenerierung, Zusammenfassung, Beantwortung von Fragen und Stimmungsanalyse.

Das 2019 von Google eingeführte Encoder-Decoder-Modell BERT (oder Bidirectional Encoder Representations from Transformers) war ein wichtiger Meilenstein bei der Etablierung von Transformers und bleibt die Grundlage der meisten modernen Anwendungen zur Wort-Einbettung, von modernen Vektordatenbanken bis hin zur Google-Suche.

Autoregressive LLMs, die nur Decoder enthalten, wie das GPT-3-Modell (kurz für Generative Pre-trained Transformer), das die Einführung von ChatGPT von OpenAI vorangetrieben hat, haben für den Beginn der modernen Ära der generativen KI gesorgt.

Die Fähigkeit von Transformatormodellen, detailliert zu erkennen, wie jeder Teil einer Datensequenz die anderen beeinflusst und mit ihnen korreliert, verleiht ihnen auch viele multimodale Anwendungen.

Zum Beispiel übertreffen Vision Transformer (ViTs) oft die Leistung von Convolutional Neural Networks (CNNs) bei der Bildsegmentierung, der Objekterkennung und damit verbundenen Aufgaben. Die Transformer-Architektur unterstützt auch viele Diffusionsmodelle, die zur Bildgenerierung verwendet werden, sowiemultimodale Text-to-Speech-Modelle (TTS) und Vision-Sprachmodelle (VLMs).

Warum sind Transformatormodelle wichtig?

Das zentrale Merkmal von Transformatormodellen ist ihre Aufmerksamkeitsmechanismus, aus dem Transformatormodelle ihre beeindruckende Fähigkeit ableiten, die Beziehungen (oder Abhängigkeiten) zwischen den einzelnen Teilen einer Eingabesequenz zu erkennen. Im Gegensatz zu den Vorgängerarchitekturen RNN und CNN verwendet die Transformer-Architektur nur Aufmerksamkeitsschichten und Standard-Feedforward-Ebenen.

Die Vorteile eines Aufmerksamkeitsmechanismus und insbesondere die Multi-Head-Aufmerksamkeitstechnik, die Transformer-Modelle zu ihrer Berechnung verwenden, ermöglichen es den Transformern, die Leistung der RNNs und CNNs zu übertreffen, die bisher hochmodern waren.

Vor der Einführung von Transformer-Modellen basierten die meisten NLP-Aufgaben auf rekurrenten neuronalen Netzen (Neural Networks). Die Art und Weise, wie RNNs sequenzielle Daten verarbeiten, ist von Natur aus serialisiert

: sie nehmen die Elemente einer Eingabe nacheinander und in einer bestimmten Reihenfolge auf. Das behindert die Fähigkeit von RNNs, weitreichende Abhängigkeiten zu erfassen, was bedeutet, dass RNNs nur kurze Textsequenzen effektiv verarbeiten können.
Dieser Mangel wurde durch die Einführung von Long Short Term Memory Networks (LSTMs) etwas behoben, bleibt aber ein grundlegendes Manko der RNNs.

Aufmerksamkeitsmechanismen können im Gegensatz dazu eine gesamte Sequenz gleichzeitig untersuchen und Entscheidungen über die Art und Weise treffen, wann sie sich auf bestimmte Zeitpunkte dieser Sequenz konzentrieren sollen.

Diese Qualität von Transformern verbessert nicht nur die Fähigkeit, weitreichende Abhängigkeiten zu verstehen, sondern ermöglicht auch eine Parallelisierung: die Fähigkeit, viele Rechenschritte gleichzeitig und nicht in Serie auszuführen.

Durch die gute Eignung für Parallelität können Transformer-Modelle die Power und Geschwindigkeit der GPUs sowohl beim Training als auch bei der Inferenz voll ausnutzen. Das wiederum eröffnete die Möglichkeit, Transformer-Modelle durch selbstüberwachtes Lernen auf noch nie dagewesenen Datensätzen zu schulen.

Insbesondere bei visuellen Daten bieten Transformer auch einige Vorteile gegenüber neuronalen Netzen. CNNs sind von Natur aus lokal und verwenden Konvolutionen, um kleinere Teilmengen von Eingabedaten nach und nach zu verarbeiten.

Daher haben CNNs auch Schwierigkeiten, weitreichende Abhängigkeiten zu erkennen, wie z. B. Korrelationen zwischen Wörtern (in Texten) oder Pixeln (in Bildern), die nicht benachbart sind. Aufmerksamkeitsmechanismen haben diese Einschränkung nicht.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Was ist ein Aufmerksamkeitsmechanismus?

Das Verständnis des mathematischen Konzepts der dieser Form der Aufmerksamkeit ist entscheidend für den Erfolg von Transformatorenmodellen in so vielen Bereichen. Aufmerksamkeitsmechanismen sind im Wesentlichen Algorithmen, die bestimmen sollen, auf welche Teile einer Datensequenz ein KI-Modell zu einem bestimmten Zeitpunkt „achten“ sollte.

Stellen Sie sich ein Sprachmodell vor, das den englischen Satzon Friday, the judge issued a sentence. "

Der vorhergehende Artikelthe deutet darauf hin,judge dass es sich um ein Substantiv mit männlichem Geschlecht handelt, d. h. ein Mann, der ein Gerichtsverfahren leitet,und nicht generisch eine Frau meint.
Der Kontext für das Wortjudge deutet darauf hin,sentence bezieht sich wahrscheinlich eher auf einen gerichtlichen Kontext und nicht auf „Meinungsbildung“.
Das Wortissued impliziert zusätzlich, dasssentence sich der Satz auf das juristische Konzept bezieht, nicht auf das grammatikalische Konzept.
Deshalb sollte bei der Interpretation des Wortessentence , sollte das Modell deshalb genau auf die Begriffe judge undissued. „Es sollte auch dem Wort etwas Aufmerksamkeit geschenkt werden“the .” Die anderen Begriffe kann es mehr oder weniger ignorieren.

Wie funktioniert Aufmerksamkeit?

Im Großen und Ganzen bewerten und nutzen die Aufmerksamkeitsebenen eines Transformer-Modells den spezifischen Kontext jedes Teils einer Datensequenz in vier Schritten:

Das Modell „liest“ Rohdaten und wandelt sie in Einbettungen um, in denen jedes Element in der Sequenz durch seine eigenen Funktionen repräsentiert wird, die Eigenschaften wie die semantische Bedeutung numerisch widerspiegeln.
Das Modell bestimmt Ähnlichkeiten, Korrelationen und andere Abhängigkeiten (oder das Fehlen davon) zwischen jedem Vektor und jedem anderen Vektor. In den meisten Transformatormodellen wird die relative Bedeutung eines Vektors zu einem anderen durch die Berechnung des Punktprodukts zwischen den einzelnen Vektoren bestimmt. Wenn die Vektoren gut aufeinander abgestimmt sind, ergibt die Multiplikation einen großen Wert. Wenn sie nicht aufeinander abgestimmt sind, ist ihr Punktprodukt klein oder negativ.
Diese „Alignment Scores“ werden in Aufmerksamkeitsgewichtungen umgewandelt.Dies wird erreicht, indem die Ausrichtungsergebnisse als Eingaben für eine Softmax-Aktivierungsfunktion verwendet werden, die alle Werte auf einen Bereich zwischen 0 und 1 normiert, sodass sie alle eine Summe von 1 ergeben. So bedeutet beispielsweise die Zuweisung einer Aufmerksamkeitsgewichtung von 0 zwischen "Vektor A" und "Vektor B", dass Vektor B bei Vorhersagen über Vektor A ignoriert werden sollte. Die Zuweisung einer Aufmerksamkeitsgewichtung von 1 für Vektor B bedeutet, dass er 100 % der Aufmerksamkeit des Modells erhalten sollte, wenn es Entscheidungen über Vektor A trifft.
Diese Aufmerksamkeitsgewichtungen werden verwendet, um den Einfluss bestimmter Eingabeelemente zu bestimmten Zeiten hervorzuheben oder abzuschwächen. Mit anderen Worten: Aufmerksamkeitsgewichtungen helfen Transformermodellen, sich zu einem bestimmten Zeitpunkt auf bestimmte Informationen zu konzentrieren oder diese zu ignorieren.

Vor dem Training „wissen“ die Transformationsmodelle noch nicht, wie man optimale Einbettungen und Ausrichtungswerte erzeugt. Während des Trainings trifft das Modell Vorhersagen für Millionen von Beispielen, die aus seinen Trainingsdaten gezogen werden, und eine Verlustfunktion quantifiziert den Fehler jeder Vorhersage.

Durch einen iterativen Zyklus, in dem Vorhersagen getroffen und die Modellgewichte durch Backpropagation und Gradientenabstieg aktualisiert werden, „lernt“ das Modell, Vektoreinbettungen, Ausrichtungswerte und Aufmerksamkeitsgewichte zu erzeugen, die zu genauen Ausgaben führen.

Wie funktionieren Transformator-Modelle?

Transformer-Modelle wie relationale Datenbanken generieren Abfrage-, Schlüssel- und Wertvektoren für jeden Teil einer Datensequenz und verwenden sie, um die Aufmerksamkeitsgewichte durch eine Reihe von Matrixmultiplikationen zu berechnen.

Relationale Datenbanken sollen die Speicherung und den Abruf relevanter Daten vereinfachen: Sie weisen jedem Datenelement eine eindeutige Kennung („Schlüssel“) zu, und jeder Schlüssel ist mit einem entsprechenden Wert verknüpft. Im Artikel „Attention is All You Need“ wurde der Framework auf die Verarbeitung der Beziehungen zwischen jedem Token in einer Textfolge angewendet.

Der Abfragevektor stellt die Informationen dar, nach denen ein bestimmtes Token sucht. Mit anderen Worten: Der Abfragevektor eines Tokens wird verwendet, um zu berechnen, wie andere Token seine Bedeutung, Konjugation oder Konnotationen im Kontext beeinflussen könnten.
Die Schlüsselvektoren stellen die Informationen dar, die jedes Token enthält. Die Übereinstimmung zwischen Abfrage und Schlüssel wird zur Berechnung von Aufmerksamkeitsgewichten verwendet, die widerspiegeln, wie relevant sie im Kontext dieser Textsequenz sind.
Der Wert (oder Wertevektor) „gibt“ die Informationen von jedem Schlüsselvektor zurück, skaliert nach seinem jeweiligen Aufmerksamkeitsgewicht. Beiträge von Schlüsseln, die stark auf eine Abfrage ausgerichtet sind, werden stärker gewichtet; Beiträge von Schlüsseln, die für eine Abfrage nicht relevant sind, werden näher an Null gewichtet.

Für ein LLM ist die „Datenbank“ des Modells das Vokabular der Token, die es aus den Textproben in seinem Trainingsdaten bestimmt hat. Sein Aufmerksamkeitsmechanismus nutzt Informationen aus dieser „Datenbank“, um den Kontext der Sprache zu verstehen.

Tokenisierung und Eingabe-Einbettungen

Während Zeichen, Buchstaben, Zahlen oder Satzzeichen, die Grundeinheit bilden, die wir Menschen zur Darstellung von Sprache verwenden, ist die kleinste Einheit der Sprache, die KI-Modelle verwenden, ein Token. Jedem Token wird eine ID-Nummer zugewiesen, und diese ID-Nummern (und nicht die Wörter oder gar die Token selbst) sind die Art und Weise, wie LLMs in ihrer Vokabeldatenbank navigieren. Diese Tokenisierung von Sprache reduziert die für die Verarbeitung von Text erforderliche Rechenleistung erheblich.

Um Abfrage- und Schlüsselvektoren zu erzeugen, die in die Aufmerksamkeitsebenen des Transformators eingespeist werden, benötigt das Modell eine anfängliche, kontextlose Einbetten für jedes Token. Diese anfänglichen Token-Einbettungen können entweder während des Trainings gelernt oder von einem vortrainierten Token-Einbettungsmodell übernommen werden.

Positionskodierung

Die Reihenfolge und Position von Wörtern können ihre Bedeutungen erheblich beeinflussen. Während die serialisierte Natur von RNNs von Natur aus Informationen über die Position jedes Tokens bewahrt, müssen Transformer-Modelle explizit Positionsinformationen hinzufügen, damit der Aufmerksamkeitsmechanismus sie berücksichtigen kann.

Bei der Positionscodierungfügt das Modell der Einbettung jedes Tokens einen Vektor von Werten hinzu, der von seiner relativen Position abgeleitet wird, bevor die Eingabe in den Aufmerksamkeitsmechanismus eintritt. Je näher die beiden Tokens beieinander liegen, desto ähnlicher werden sich ihre Positionsvektoren sein, und daher wird sich ihr Alignment-Score durch das Hinzufügen von Positionsinformationen erhöhen. Dadurch lernt das Modell, Token in der Nähe mehr Aufmerksamkeit zu schenken.

Generieren von Abfrage-, Schlüssel- und Wertvektoren

Wenn Positionsinformationen hinzugefügt wurden, wird jede aktualisierte Token-Einbettung verwendet, um drei neue Vektoren zu erzeugen. Diese Abfrage-, Schlüssel- und Wertvektoren werden erzeugt, indem die ursprünglichen Token-Einbettungen durch jede der drei parallelen Feedforward-Ebenen eines neuronalen Netzes geleitet werden, die der ersten Aufmerksamkeitsschicht vorausgehen. Jede parallele Teilmenge dieser linearen Schicht verfügt über eine einzigartige Gewichtungsmatrix, die durch selbstüberwachtes Vortraining anhand eines riesigen Datensatzes gelernt wurde.

Das Einbetten wird mit der Gewichtungsmatrix W_Q multipliziert, um die Abfragevektoren (Q) zu erhalten, die d_k Dimensionen haben
Die Einbettungen werden mit der Gewichtsmatrix W_K multipliziert, um den Schlüsselvektor (K) zu erhalten, ebenfalls mit den Abmessungen d_k
Die Einbettungen werden mit der Gewichtungsmatrix W_V multipliziert, um die Wertevektoren (V) zu erhalten, mit den Dimensionen d_v

Ein vereinfachtes Diagramm des Aufmerksamkeitsmechanismus des Transformators: Die ursprünglichen Vektoreinbettungen für die Token eines Eingabesatzes werden mit den Gewichtungsmatrizen W, K und V multipliziert, um ihre jeweiligen W-, K- und V-Vektoren zu erhalten.

Ein Diagramm des AttentIon-Mechanismus eines Transformer-Modells

Computergestützte Aufmerksamkeit

Die Hauptfunktion des Aufmerksamkeitsmechanismus des Transformers besteht darin, den Paaren des Abfragevektors jedes Tokens mit den Schlüsselvektoren aller anderen Token in der Sequenz genaue Aufmerksamkeitsgewichte zuzuweisen. Wenn diese erreicht ist, können Sie sich jedes Token vorstellen $x$ als einen entsprechenden Vektor von Aufmerksamkeitsgewichten, wobei jedes Element dieses Vektors das Ausmaß darstellt, in dem ein anderes Token es beeinflussen sollte.

Der Wertvektor jedes anderen Tokens wird jetzt mit seiner jeweiligen Aufmerksamkeitsgewichtung multipliziert.
Diese aufmerksamkeitsgewichteten Wertevektoren werden alle zusammengerechnet. Der resultierende Vektor stellt die gesammelten Kontextinformationen dar, die dem Token bereitgestellt werden. $x$ durch alle anderen Token in der Sequenz.
Schließlich wird der resultierende Vektor der aufmerksamkeitsgewichteten Änderungen von jedem Token dem Token hinzugefügt $x$ ursprüngliche postpositionale Codierungsvektor-Einbetten.

Im Wesentlichen $x$ die Vektoreinbettung wurde aktualisiert, um den Kontext besser widerzuspiegeln, der von den anderen Token in der Sequenz bereitgestellt wird.

Multi-Head-Attention

Um die vielfältigen Beziehungen zwischen den Token zu erfassen, implementieren Transformer-Modelle Multi-head Attention über mehrere Aufmerksamkeitsblöcke hinweg.

Vor der Einspeisung in die erste Feedforward-Ebene wird jede ursprüngliche Eingabe-Token-Einbettung in h gleich große Teilmengen aufgeteilt. Jedes Stück der Einbettung wird in eine von h parallelen Matrizen aus Q-, K - und V -Gewichten eingespeist, die jeweils als Abfrage kopf , Schlüsselkopf oder Wertkopf bezeichnet werden. Die Vektoren, die von jedem dieser parallelen Tripletts von Abfrage-, Schlüssel- und Wertköpfen erzeugt werden, werden anschließend in einen entsprechenden Teil der nächsten Aufmerksamkeitsschicht genannten Subsets eingespeist, der als Attention Head bezeichnet wird.

Das vereinfachte Multi-Head-Attention-Diagramm, das durch „Attention is All You Need“ berühmt wurde

In den letzten Ebenen jedes Aufmerksamkeitsblocks werden die Ausgaben dieser h parallelen Schaltungen schließlich wieder zusammengefügt, bevor sie an die nächste Feedforward-Schicht weitergeleitet werden. In der Praxis führt das Modelltraining dazu, dass jeder Schaltkreis unterschiedliche Gewichtungen lernt, die einen separaten Aspekt der Bedeutungen erfassen.

Verkettung in der Multi-Head-Aufmerksamkeit

Die Ausgabe „Z“ jedes Aufmerksamkeits-Heads werden miteinander verkettet. In diesem Beispiel ist h = 8.

Restliche Verbindungen und Ebenennormalisierung

In einigen Situationen kann die Weitergabe der kontextaktualisierten Ausgabe des Aufmerksamkeitsblocks zu einem inakzeptablen Verlust von Informationen aus der ursprünglichen Sequenz führen.

Um dies zu lösen, gleichen Transformer-Modelle häufig die vom Aufmerksamkeitsmechanismus bereitgestellten Kontextinformationen mit der ursprünglichen Bedeutung jedes Token ab. Nachdem die aufmerksamkeitsaktualisierten Teilmengen der Tokeneinbetten alle wieder miteinander verkettet wurden, wird der aktualisierte Vektor zur ursprünglichen (positionskodierten) Tokeneinbettung des Tokens hinzugefügt. Die ursprüngliche Token-Einbettung wird durch eine Restverbindung zwischen dieser Schicht und einer früheren Schicht des Netzes bereitgestellt.

Der resultierende Vektor wird in eine andere lineare Feedforward-Schicht eingespeist, wo er wieder auf eine konstante Größe normalisiert wird, bevor er an den nächsten Aufmerksamkeitsblock weitergeleitet wird. Zusammen tragen diese Maßnahmen dazu bei, die Stabilität beim Training zu bewahren und sicherzustellen, dass die ursprüngliche Bedeutung des Textes nicht verloren geht, wenn die Daten tiefer in das neuronale Netzwerk eindringen.

Generieren von Ausgaben

Eventuell verfügt das Modell über genügend Kontextinformationen, um in seine endgültigen Ausgaben Daten zu speisen. Die Art und Funktion der Ausgabenebene hängt von der spezifischen Aufgabe ab, für die das Transformator-Modell entwickelt wurde.

In autoregressiven LLMs verwendet die letzte Schicht eine Softmax-Funktion, um die Wahrscheinlichkeit zu bestimmen, dass das nächste Wort mit jedem Token in ihrer Vokabular- „Datenbank“ übereinstimmt. Abhängig von den spezifischen Stichprobenhyperparametern verwendet das Modell diese Wahrscheinlichkeiten, um das nächste Token der Ausgabesequenz zu bestimmen.

Transformer-Modelle in der Verarbeitung natürlicher Sprache (NLP)

Transformer-Modelle werden am häufigsten mit NLP in Verbindung gebracht, da sie ursprünglich für die maschinelle Übersetzung entwickelt wurden. Vor allem die Transformer-Architektur führte zu den großen Sprachmodellen (LLMs), die den Beginn der generativen KI einläuteten.

Die meisten der LLMs, mit denen die Öffentlichkeit am besten vertraut ist, von Closed-Source-Modellen wie der GPT-Serie von OpenAI und den Claude-Modellen von Anthropic bis hin zu Open-Source-Modellen wie Meta Llama oder IBM® Granite, sind autoregressive reine Decoder-LLMs.

Autoregressive LLMs wurden für die Texterstellung entwickelt, die sich natürlich auch auf angrenzende Aufgaben wie die Zusammenfassung und Beantwortung von Fragen erstreckt. Sie werden durch selbstüberwachtes Lernen trainiert, bei dem das Modell das erste Wort einer Textpassage erhält und die Aufgabe hat, iterativ das nächste Wort bis zum Ende der Sequenz vorherzusagen.

Die durch den Mechanismus der Selbstaufmerksamkeit bereitgestellten Informationen ermöglichen es dem Modell, den Kontext aus der Eingabesequenz zu extrahieren und die Kohärenz und Kontinuität seiner Ausgabe zu wahren.

Encoder-Decoder maskierte Sprachmodelle (MLMs) wie BERT und seine vielen Ableitungen stellen den anderen wichtigen Evolutionszweig der transformatorbasierten LLMs dar. Beim Training erhält ein MLM ein Textbeispiel mit einigen maskierten – versteckten –Token und soll die fehlenden Informationen vervollständigen.

Diese Trainingsmethode ist zwar für die Texterstellung weniger effektiv, hilft aber MLMs, bei Aufgaben, die solide Kontextinformationen erfordern, wie z. B. Übersetzung, Textklassifizierung und Einbetten, hervorragende Leistungen zu erbringen.

Transformatorenmodelle in anderen Bereichen

Obwohl Transformer-Modelle ursprünglich für Anwendungsfall entwickelt wurden und auch heute noch am häufigsten mit diesen in Verbindung gebracht werden, können sie in nahezu jeder Situation mit sequentiellen Daten verwendet werden. Dies hat zur Entwicklung von Transformer-basierten Modellen in anderen Bereichen geführt, von der Feinabstimmung von LLMs für multimodale Systeme bis hin zu dedizierten Prognose-Modellen und ViTs für Computer Vision.

Einige Datenmodalitäten eignen sich besser für eine Transformer-freundliche sequentielle Darstellung als andere. Zeitreihen-, Audio- und Videodaten sind von Natur aus sequentiell, Bilddaten hingegen nicht. Trotzdem haben ViTs und andere aufmerksamkeitsbasierte Modelle für viele Computer-Vision-Aufgaben technologisch ausgereifte Ergebnisse erzielt, einschließlich Bildunterschrift, Objekterkennung, Bildsegmentierung und visuelle Beantwortung von Fragen.

Die Verwendung von Transformer-Modellen für Daten, die üblicherweise nicht als „sequentiell“ betrachtet werden, erfordert eine konzeptionelle Umgehung, um diese Daten als Sequenz darzustellen. Um beispielsweise Aufmerksamkeitsmechanismen zum Verständnis visueller Daten zu nutzen, verwenden ViTs Einbetten,um Bilddaten als Sequenzen interpretierbar zu machen.

Zuerst wird ein Bild in ein Array von Patches aufgeteilt. Zum Beispiel kann ein Bild mit 224 x 224 Pixeln in 256 14x14-Pixel-Patches unterteilt werden, wodurch die Anzahl der Rechenschritte, die für die Verarbeitung des Bildes erforderlich sind, drastisch reduziert wird.
Als Nächstes ordnet eine lineare Projektionsebene jeden Patch einer Vektoreinbettung zu.
Jeder dieser Patch-Einbettungen werden Positionsinformationen hinzugefügt, ähnlich wie bei der weiter oben in diesem Artikel beschriebenen Positionskodierung.
Diese Patch-Einbettungen können nun im Wesentlichen als eine Folge von Token fungieren, sodass das Bild durch einen Aufmerksamkeitsmechanismus interpretiert werden kann.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

Neuronale Netzwerke von Grund auf neu

Verschaffen Sie sich ein umfassendes Verständnis von neuronalen Netzen, ihren grundlegenden Funktionen und den Grundlagen für den Aufbau eines solchen Netzes.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Der CEO-Leitfaden zu generativer KI

Erfahren Sie, wie CEOs den Wert, den generative KI schaffen kann, gegen die erforderlichen Investitionen und die damit verbundenen Risiken abwägen können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen