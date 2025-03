Ainslie et al concibieron la atención de consultas agrupadas como una optimización de la atención multicabezal (MHA), el innovador algoritmo de autoatención introducido en el artículo seminal de 2017 "Attention is All You Need" que estableció redes neuronales. Más concretamente, se propuso como una generalización y una aplicación más restringida de la atención a múltiples consultas (MQA), una optimización anterior de la MHA.

Aunque la atención multicabezal estándar catalizó un salto evolutivo en el machine learning, el procesamiento del lenguaje natural (PLN) y la IA generativa, es extremadamente exigente en recursos computacionales y ancho de banda de memoria. A medida que los LLM crecieron y se hicieron más sofisticados, estos requisitos de uso de memoria se convirtieron en un cuello de botella para el progreso, especialmente para los LLM de solo decodificador autorregresivo utilizados para la generación de texto, el resumen y otras tareas de IA generativa.

Las investigaciones posteriores se centraron en las técnicas para mejorar o agilizar la atención multicabezal. Algunas, como la atención flash y la atención en anillo, mejoran la forma en que las GPU utilizadas para entrenar y ejecutar los modelos gestionan los cálculos y el almacenamiento de la memoria. Otros, como GQA y MQA, exploraron cambios en la forma en que las arquitecturas del transformador procesan los tokens.

La atención de consultas agrupadas trata de equilibrar las ventajas y desventajas de la atención estándar a múltiples cabezas y la atención a múltiples consultas. La primera maximiza la precisión a costa de aumentar el ancho de banda de la memoria y reducir la velocidad. La segunda maximiza la velocidad y la eficiencia a expensas de la precisión.