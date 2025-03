Ainslie et al hanno concepito la Grouped Query Attention come un'ottimizzazione della Multi-Head Attention (MHA), l'innovativo algoritmo di auto-attenzione introdotto nell'importante articolo del 2017 "Attention is All You Need" che ha introdotto le reti neurali dei trasformatori. Più specificamente, è stato proposto come un'applicazione più limitata e una generalizzazione della Multi-Query Attention (MQA), una precedente ottimizzazione dell'MHA.

Sebbene la Multi-Head Attention standard abbia rappresentato un balzo evolutivo in avanti nel machine learning, così come nell'elaborazione del linguaggio naturale (NLP) e nell'AI generativa, è estremamente esigente in termini di risorse di calcolo e larghezza di banda di memoria. Via via che gli LLM diventavano più grandi e sofisticati, questi requisiti di utilizzo della memoria sono diventati un ostacolo al progresso, specialmente per gli LLM decoder-only autoregressivi utilizzati per la generazione di testo, la sintesi e altre attività di AI generativa.

La ricerca successiva si è concentrata sulle tecniche per migliorare o semplificare la Multi-Head Attention. Alcune, come la Flash Attention e la Ring Attention, migliorano il modo in cui le GPU utilizzate per addestrare ed eseguire i modelli gestiscono i calcoli e lo storage. Altri, come GQA e MQA, hanno esplorato le modifiche al modo in cui le architetture trasformative elaborano i token.

La Grouped Query Attention punta a bilanciare i compromessi tra la Multi-Head Attention standard e la Multi-Query Attention. La prima aumenta al massimo l'accuratezza, a discapito di un maggiore sovraccarico della larghezza di banda della memoria e di una riduzione della velocità. La seconda invece aumenta al massimo la velocità e l'efficienza a discapito dell'accuratezza.