Ainslie et al. ont conçu l’attention par requêtes groupées comme une optimisation de l’attention multitête (MHA), l’algorithme innovant d’auto-attention introduit dans l’article fondateur de 2017 « Attention is All You Need » qui a posé les bases des réseaux neuronaux transformeurs. Plus précisément, le concept a été proposé comme une généralisation et une application plus restreinte de l’attention multirequête (MQA), une optimisation antérieure du MHA.

Bien que l’attention multitête standard ait provoqué un bond en avant du machine learning, du traitement automatique du langage naturel (NLP) et de l’IA générative, elle est extrêmement gourmande en ressources informatiques et en bande passante mémoire. Au fur et à mesure que les LLM ont gagné en taille et en sophistication, ces besoins de mémoire ont ralenti les progrès, en particulier pour les LLM autorégressifs à décodeur uniquement utilisés dans la génération de texte, la synthèse et d’autres tâches d’IA générative.

Les recherches ultérieures se sont concentrées sur les techniques permettant d’améliorer ou de rationaliser l’attention multitête. Certaines, telles que l’attention éclair et l’attention en anneau, améliorent la façon dont les GPU utilisés pour entraîner et exécuter les modèles gèrent les calculs et le stockage en mémoire. D’autres, comme la GQA et la MQA, modifient la façon dont les architectures transformatrices traitent les tokens.

L’attention par requêtes groupées vise à équilibrer les compromis entre l’attention multitête standard et l’attention multi-requêtes. Le premier optimise la précision au prix d’une augmentation de la bande passante mémoire et d’une diminution de la vitesse. Ce dernier maximise la vitesse et l’efficacité au détriment de la précision.