Selbstaufmerksamkeit ist eine Art von Aufmerksamkeitsmechanismus, der in Modellen des maschinellen Lernens verwendet wird. Dieser Mechanismus wird verwendet, um die Bedeutung von Token oder Wörtern in einer Eingabesequenz abzuwägen und so die Beziehungen zwischen ihnen besser zu verstehen. Es ist ein entscheidender Bestandteil von Transformer-Modellen, einer leistungsstarken Architektur der künstlichen Intelligenz, die für Aufgaben im Bereich Verarbeitung natürlicher Sprache (NLP) unerlässlich ist. Die Transformer-Architektur ist die Grundlage für die meisten modernen großen Sprachmodelle (LLMs).
Der Mechanismus der Selbstbeobachtung wurde mit Hilfe des Transformers eingeführt, einer von Forschern vorgeschlagenen neuronalen Netzwerkarchitektur-Modell. Ziel der vorgeschlagenen Architektur war es, die Herausforderungen traditioneller Modelle des maschinellen Lernens zu bewältigen, die Convolutional Neural Networks (CNNs) und rekurrente Neural Networks (RNNs) verwenden.1
Herkömmliche sequenzielle Modelle folgen der gleichen Encoder-Decoder-Architektur wie Transformatormodelle, verarbeiten die Daten jedoch Schritt für Schritt oder von Sequenz zu Sequenz (seq2seq). Diese Funktion stellt eine Herausforderung für die Parallelisierung dar, d. h. die Fähigkeit, die Rechenzeit zu verkürzen und die Output-Generierung zu verbessern, indem die Aufmerksamkeitsgewichte für alle Teile der Eingabesequenz gleichzeitig berechnet werden.
Die Selbstbeobachtung spielte eine Schlüsselrolle bei der Weiterentwicklung von LLMs, indem sie die Parallelisierung innerhalb von Trainingsbeispielen ermöglichte. Diese Methode ist nützlich, denn je länger die Sequenzlänge ist, desto mehr Speicherbeschränkungen schränken die Batch-Verarbeitung über die Trainingsbeispiele hinweg ein. Mithilfe der Selbstaufmerksamkeit können LLM-Trainingsdaten in Batches aufgeteilt und gleichzeitig auf mehreren GPUs verarbeitet werden.1 Die Selbstaufmerksamkeit reduziert die Rechenleistung, die zum Trainieren von maschinelles Lernen-Modellen mit effizienter Batchverarbeitung erforderlich ist, die parallel verarbeitet werden.
Die Selbstbeobachtung trägt nicht nur dazu bei, die Rechenlast effizient zu verteilen, sondern ermöglicht auch die Fähigkeit, Aufmerksamkeitsgewichte gleichzeitig zu verarbeiten. Diese Fähigkeit ermöglicht es dem Modell, sich auf relevante Teile einer Eingabesequenz zu konzentrieren, um die Bedeutung jedes Elements innerhalb einer Sequenz dynamisch vorherzusagen. Selbstaufmerksamkeit ist gut für NLP-Aufgaben wie maschinelle Übersetzung, Stimmungsanalyse und Zusammenfassung.
Die Selbstbeobachtung in Modellen des maschinellen Lernens ähnelt dem menschlichen Verhaltenskonzept, da sie beide die Konzentration auf relevante Elemente innerhalb eines größeren Kontexts beinhalten, um Informationen genau zu verarbeiten. In der Psychologie geht es darum, sich auf Ihre eigenen Gedanken oder Verhaltensweisen zu konzentrieren, während es beim Deep Learning darum geht, sich auf die relevanten Teile einer Eingabesequenz zu konzentrieren.
Die Transformer-Architektur enthält eine Schicht der Selbstbeobachtung, in die der Aufmerksamkeitsprozess integriert ist. Die Schritte werden so erklärt, wie sie in dem Artikel von Ashish Vaswani et al. vorgestellt werden. Dabei wird die Selbstaufmerksamkeitsebene „Aufmerksamkeit ist alles, was Sie brauchen“ eingeführt.
Eine Eingabesequenz ist eine Reihe von Datenpunkten, die in Einbettungen oder numerische Darstellungen vektorisiert werden, die der Algorithmus für maschinelles Lernen zur Berechnung der Aufmerksamkeitswerte verwenden kann, die zur Erzeugung einer Ausgabe benötigt werden.
Bei der maschinellen Übersetzung wird ein Satz als Eingabesequenz betrachtet, in der jeder Teil des Satzes als Datenpunkt oder Eingabetoken betrachtet wird. Token werden in Einbettungen umgewandelt, die als semantische Einheiten fungieren und vom Modell verarbeitet werden können.2 Die Einbettungen werden verwendet, um die Aufmerksamkeitsgewichte zu berechnen, die dem Modell helfen, die relevantesten Eingaben zu priorisieren (oder zu beachten).
Das Modell verwendet diese Einbettungen, um drei Schlüsselvektoren für jedes Token zu generieren: Abfrage (Q), Schlüssel (K) und Wert (V). Diese Werte werden verwendet, um dem Modell zu helfen, die stärksten semantischen Übereinstimmungen innerhalb des Eingabesatzes zu erzielen.
Matrixmultiplikationen werden durchgeführt, um die Abfrage-, Schlüssel- und Wertvektoren zu erhalten. Der Aufmerksamkeitsmechanismus berechnet eine gewichtete Summe der Werte auf der Grundlage der Gewichtungsmatrizen der jeweiligen Abfrage-, Schlüssel- und Wertkomponenten und der eingebetteten Eingaben.1 Dieser Prozess ist als lineare Transformation bekannt.
Nachdem die Einbettungen transformiert wurden, werden Aufmerksamkeitsscores für jedes Element in der Sequenz berechnet. Die Aufmerksamkeitswerte werden erhalten, indem die Aufmerksamkeitswerte des skalierten Punktprodukts zwischen den Abfragevektoren und Schlüsselvektoren verwendet werden. Diese Aufmerksamkeitsgewichte stellen dar, wie viel Fokus (oder Aufmerksamkeit) ein bestimmtes Token anderen Token in einer Sequenz zuweisen sollte.
Als nächstes wird der Aufmerksamkeitswert durch die Quadratwurzel der Dimensionalität der Schlüsselvektoren skaliert. Dieser Prozess trägt dazu bei, die Gradienten zu stabilisieren und zu verhindern, dass sie zu groß werden, um sie effizient zu berechnen, wenn die Dimensionalität der Vektoren zunimmt.
Die Aufmerksamkeitswerte, die durch das Punktprodukt der Abfragevektoren und Schlüsselvektoren erhalten werden, werden mit Hilfe der Softmax-Funktion in Wahrscheinlichkeiten umgewandelt. Dieser Prozess wird als Normalisierung bezeichnet.
Mit diesen normierten Wahrscheinlichkeiten ermöglicht der Softmax-Aufmerksamkeitsblock der Transformer-Architektur die Möglichkeit, die Bedeutung einzelner Eingabeelemente während der Ausgabeerzeugung zu bewerten.3 Diese Wahrscheinlichkeiten werden verwendet, um die relative Wichtigkeit jedes Elements in der Sequenz zu ermitteln. Das Aufmerksamkeitsmodell verwendet diese normalisierten Gewichtungen, um zu entscheiden, auf welche Teile des Inputs es sich konzentrieren soll.
Schließlich tragen die aus diesem Prozess abgeleiteten Aufmerksamkeitsgewichte zur endgültigen gewichteten Summe des Wertevektors bei. Je höher der Aufmerksamkeitswert ist, desto mehr Aufmerksamkeitsgewicht hat die Sequenz. Das bedeutet, dass sie einen größeren Einfluss auf die endgültige Ausgabe der gewichteten Summe des Wertevektors hat.
Aufmerksamkeitsmodelle sind effektiv bei der Erfassung weitreichender Abhängigkeiten, unabhängig von der Entfernung zwischen den einzelnen Elementen oder Token innerhalb einer Sequenz. Die mehrköpfige Aufmerksamkeit ist eine entscheidende Erweiterung der Selbstbeobachtung, die diese primäre Funktionalität verbessert, indem sie gleichzeitig auf verschiedene Elemente im Eingabedatensatz achtet. Modelle können verschiedene Aspekte oder Beziehungen in den Daten gleichzeitig berücksichtigen, sodass mehr Kontext zwischen Abhängigkeiten oder Tokens gezogen werden kann.
Frühe bidirektionale Modelle, wie z. B. bidirektionale Encoder-Repräsentationen von Transformatoren (BERT), verbesserten das Kontextverständnis, indem sie es dem Modell ermöglichten, Informationen sowohl aus der Vorwärts- als auch aus der Rückwärtssequenz zu berücksichtigen. Bei der bidirektionalen Aufmerksamkeit zielt das Modell darauf ab, die Bedeutung eines Wortes anhand der es umgebenden Wörter zu verstehen.4
GPT-Modelle haben die Selbstbeobachtung populär gemacht und den Vorteil eines erweiterten Kontextfensters für generative Aufgaben hervorgehoben. Die Fähigkeit, mehr Informationen auf einmal zu verarbeiten, führt zu einer verbesserten Genauigkeit und einem besseren Verständnis.
KI-Modelle nutzen die Selbstaufmerksamkeit, um lange Eingaben effizient zu verarbeiten, indem sie Aufmerksamkeitsinformationen in großem Maßstab austauschen und gleichzeitig den Speicherverbrauch reduzieren.5 Selbstaufmerksamkeit ermöglicht es dem Modell, ein tieferes kontextuelles Verständnis zu erlangen, indem es das Kontextfenster innerhalb des Modells verwendet. Je größer das Kontextfenster ist, desto größer ist die Anzahl der Tokens, auf die das Modell gleichzeitig achten kann.
NLP-Aufgaben: Der Selbstaufmerksamkeitsmechanismus verbessert die sprachlichen Funktionen von maschinelles Lernen durch die effiziente und vollständige Analyse eines gesamten Textes. Die Forschung hat Fortschritte bei der Klassifizierung von Stimmungen gezeigt.6 Modelle können NLP-Aufgaben gut ausführen, da die Aufmerksamkeitsschicht es ihnen ermöglicht, die Beziehung zwischen Wörtern unabhängig von der Entfernung zwischen ihnen zu berechnen.7
Computer Vision: Selbstaufmerksamkeitsmechanismen sind nicht nur auf NLP-Aufgaben beschränkt. Sie kann verwendet werden, um sich auf bestimmte Teile eines Bildes zu konzentrieren. Die Weiterentwicklungen von Bilderkennungsmodellen deuten darauf hin, dass Selbstaufmerksamkeit eine entscheidende Komponente zur Steigerung ihrer Robustheit und Generalisierbarkeit darstellt.8
1. „Attention Is All You Need“, Ashish Vaswani et al., Proceedings of the 31st International Conference on Neural Information Processing Systems, arXiv:1706.03762v7, überarbeitet am 2. August 2023.
2. „Tokenization“, Essay, in Introduction to Information Retrieval, Christopher Manning, Prabhakar Raghavan und Hinrich Schutze, 2008.
3. „Rethinking Softmax: Self-Attention with Polynomial Activations“, Hemanth Saratchandran et al., Australian Institute of Machine Learning, University of Adelaide, arXiv:2410.18613v1, 24. Oktober 2024
4. „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding“, Jacob Devlin et al., arXiv:1810.04805v2, überarbeitet am 24. Mai 2019.
5. „Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective“, Zhiyuan Zeng et al., arXiv:2412.14135, 18. Dezember 2024
6. „Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification“, Weijiang Li et al., Neurocomputing, Band 387, 28. April 2020.
7. „Parallel Scheduling Self-attention Mechanism: Generalization and Optimization“, Mingfei Yu und Masahiro Fujita, arXiv:2012.01114v1, 2. Dezember 2020.
8. „Exploring Self-attention for Image Recognition“, Hengshuang Zhao, Jiaya Jia und Vladlen Koltun, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020.
Erste Schritte
Erste Schritte
Erste Schritte
Erste Schritte