Um zu verstehen, wie Grouped Query Attention Transformer-Modelle optimiert, ist es wichtig, zunächst zu verstehen, wie Multihead-Aufmerksamkeit im Allgemeinen funktioniert. Sowohl GQA als auch MQA verfeinern einfach die Kernmethodik von MHA, anstatt sie zu ersetzen.
Die treibende Kraft hinter LLMs und anderen Modellen, die die Transformer-Architektur verwenden, ist die Selbstbeobachtung, ein mathematischer Framework zum Verständnis der Beziehungen zwischen den verschiedenen Token in einer Sequenz. Die Selbstbeobachtung ermöglicht es einem LLM, Textdaten nicht nur durch statische Basisdefinitionen, sondern auch durch den Kontext anderer Wörter und Phrasen zu interpretieren.
In autoregressiven LLMs, die zur Textgenerierung verwendet werden, hilft der Beobachtungsmechanismus dem Modell, das nächste Token in einer Sequenz vorherzusagen, indem er bestimmt, welche vorherigen Token es in diesem Moment am meisten wert „beachtet zu werden“. Informationen von Token, die er als am relevantesten einstuft, erhalten eine größere Beobachtungsgewichtung, während Informationen von Token, die als irrelevant eingestuft werden, eine Aufmerksamkeitsgewichtung von nahezu 0 erhalten.
Der Multi-Head-Aufmerksamkeitsmechanismus, der Transformer-Modelle animiert, generiert umfangreiche Kontextinformationen, indem er die Selbstaufmerksamkeit viele Male parallel berechnet und dabei Aufmerksamkeitsebenen in mehrere Attention Heads aufteilt.