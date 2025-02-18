Selbstaufmerksamkeit ist eine Art von Aufmerksamkeitsmechanismus, der in Modellen des maschinellen Lernens verwendet wird. Dieser Mechanismus wird verwendet, um die Bedeutung von Token oder Wörtern in einer Eingabesequenz abzuwägen und so die Beziehungen zwischen ihnen besser zu verstehen. Es ist ein entscheidender Bestandteil von Transformer-Modellen, einer leistungsstarken Architektur der künstlichen Intelligenz, die für Aufgaben im Bereich Verarbeitung natürlicher Sprache (NLP) unerlässlich ist. Die Transformer-Architektur ist die Grundlage für die meisten modernen großen Sprachmodelle (LLMs).

Der Mechanismus der Selbstbeobachtung wurde mit Hilfe des Transformers eingeführt, einer von Forschern vorgeschlagenen neuronalen Netzwerkarchitektur-Modell. Ziel der vorgeschlagenen Architektur war es, die Herausforderungen traditioneller Modelle des maschinellen Lernens zu bewältigen, die Convolutional Neural Networks (CNNs) und rekurrente Neural Networks (RNNs) verwenden.1

Herkömmliche sequenzielle Modelle folgen der gleichen Encoder-Decoder-Architektur wie Transformatormodelle, verarbeiten die Daten jedoch Schritt für Schritt oder von Sequenz zu Sequenz (seq2seq). Diese Funktion stellt eine Herausforderung für die Parallelisierung dar, d. h. die Fähigkeit, die Rechenzeit zu verkürzen und die Output-Generierung zu verbessern, indem die Aufmerksamkeitsgewichte für alle Teile der Eingabesequenz gleichzeitig berechnet werden.



Die Selbstbeobachtung spielte eine Schlüsselrolle bei der Weiterentwicklung von LLMs, indem sie die Parallelisierung innerhalb von Trainingsbeispielen ermöglichte. Diese Methode ist nützlich, denn je länger die Sequenzlänge ist, desto mehr Speicherbeschränkungen schränken die Batch-Verarbeitung über die Trainingsbeispiele hinweg ein. Mithilfe der Selbstaufmerksamkeit können LLM-Trainingsdaten in Batches aufgeteilt und gleichzeitig auf mehreren GPUs verarbeitet werden.1 Die Selbstaufmerksamkeit reduziert die Rechenleistung, die zum Trainieren von maschinelles Lernen-Modellen mit effizienter Batchverarbeitung erforderlich ist, die parallel verarbeitet werden.

Die Selbstbeobachtung trägt nicht nur dazu bei, die Rechenlast effizient zu verteilen, sondern ermöglicht auch die Fähigkeit, Aufmerksamkeitsgewichte gleichzeitig zu verarbeiten. Diese Fähigkeit ermöglicht es dem Modell, sich auf relevante Teile einer Eingabesequenz zu konzentrieren, um die Bedeutung jedes Elements innerhalb einer Sequenz dynamisch vorherzusagen. Selbstaufmerksamkeit ist gut für NLP-Aufgaben wie maschinelle Übersetzung, Stimmungsanalyse und Zusammenfassung.