Aufmerksamkeitsmechanismen sind von der Fähigkeit des Menschen (und anderer Tiere) inspiriert, selektiv mehr auf hervorstechende Details zu achten und Details zu ignorieren, die im Moment weniger wichtig sind. Der Zugriff auf alle Informationen, aber die Konzentration auf die relevantesten Informationen trägt dazu bei, dass keine aussagekräftigen Details verloren gehen, und ermöglicht gleichzeitig eine effiziente Nutzung des begrenzten Speichers und der begrenzten Zeit.
Mathematisch ausgedrückt, berechnet ein Aufmerksamkeitsmechanismus Aufmerksamkeitsgewichtungen , die die relative Bedeutung jedes Teils einer Eingabesequenz für die anstehende Aufgabe widerspiegeln. Dann wendet er diese Aufmerksamkeitsgewichte an, um den Einfluss jedes Teils der Eingabe entsprechend seiner jeweiligen Bedeutung zu erhöhen (oder zu verringern). Ein Aufmerksamkeitsmodell, d. h. ein Modell der künstlichen Intelligenz, das einen Aufmerksamkeitsmechanismus verwendet, wird darauf trainiert, durch überwachtes Lernen oder selbstüberwachtes Lernen an einem großen Datensatz von Beispielen genaue Aufmerksamkeitsgewichte zuzuweisen.
Aufmerksamkeitsmechanismen wurden ursprünglich von Bahdanau et al.im Jahr 2014 eingeführt, um die Mängel der damals modernen Recurrent Neural Networks (RNN) für die maschinelle Übersetzung zu beheben. Nachfolgende Forschungen integrierten Aufmerksamkeitsmechanismen in die Konvolutionale neuronale Netze (CNNs), die für Aufgaben wie Bildunterschriften und visuelle Fragebeantwortungen verwendet werden.
Im Jahr 2017 wurde in der bahnbrechenden Arbeit „Attention is All You Need“ das Transformer-Modell vorgestellt, das auf Rekursion und Konvolutionen gänzlich verzichtet und stattdessen nur Aufmerksamkeitsschichten und standardmäßige Feedforward-Schichten verwendet. Die Transformator-Architektur ist seitdem zum Fundament der modernsten Modelle geworden, die die Ära der generativen KI bestimmen.
Während Aufmerksamkeitsmechanismen in erster Linie mit LLMs in Verbindung gebracht werden, die für Aufgaben der Verarbeitung natürlicher Sprache verwendet werden, wie z. B. Zusammenfassung, Beantwortung von Fragen, Texterzeugung und Stimmungsanalyse, werden aufmerksamkeitsbasierte Modelle auch in anderen Bereichen häufig eingesetzt. Führende Diffusionsmodelle, die für die Bilderzeugung verwendet werden, enthalten oft einen Aufmerksamkeitsmechanismus. Im Bereich der Computer Vision haben Vision Transformers (ViTs) bei Aufgaben wie der Erkennung,1 der Bildsegmentierung2 und der Beantwortung visueller Fragen hervorragende Ergebnisse erzielt.3