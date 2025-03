Ainslie et al. konzipierten die gruppierte Abfrageaufmerksamkeit als eine Optimierung der Multi-Head-Attention (MHA), dem innovativen Selbstbeobachtungsalgorithmus, der in der wegweisenden Arbeit „Attention is All You Need“ (2017) vorgestellt wurde, das neuronale Netze für Transformatoren einführte. Genauer gesagt wurde er als eine Verallgemeinerung und zurückhaltendere Anwendung von Multi Query Attention (MQA), einer früheren Optimierung von MHA, vorgestellt.

Obwohl die standardmäßige Multi-Head-Attention einen Evolutionssprung im maschinellen Lernen, in der Verarbeitung natürlicher Sprache (NLP) und in der generativen KI katalysiert hat, ist sie extrem anspruchsvoll in Bezug auf Rechenressourcen und Speicherbandbreite. Als die LLMs immer größer und ausgefeilter wurden, wurden diese Anforderungen an die Speichernutzung zu einem Hindernis für den Fortschritt, insbesondere für die autoregressiven LLMs, die nur für die Texterzeugung, die Zusammenfassung und andere generative KI-Aufgaben verwendet werden.

Die anschließende Forschung konzentrierte sich auf Techniken zur Verbesserung oder Optimierung der Multi-Head-Aufmerksamkeit. Einige, wie z. B. Flash Attention und Ring Attention, verbessern wie GPUs, die zum Trainieren und Ausführen von Modellen verwendet werden, Berechnungen und Speicher verarbeiten. Andere, wie GQA und MQA, erkunden Änderungen an der Art und Weise, wie Transformer-Architektur Token verarbeiten.

Die Grouped Query Attention zielt darauf ab, die Kompromisse zwischen der standardmäßigen Multi-Head-Attention und der Multi-Query-Attention auszugleichen. Erstere maximiert die Genauigkeit auf Kosten eines erhöhten Speicherbandbreiten-Overheads und geringerer Geschwindigkeit. Letztere maximiert die Geschwindigkeit und Effizienz auf Kosten der Genauigkeit.