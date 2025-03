Ainslie 等人将分组查询注意力设想为多头注意力 (MHA) 的优化,MHA 是 2017 年发表的开创性论文《Attention is All You Need》中提出的创新自注意力算法,它建立了转换器神经网络。更具体地说,它被认为是对多查询注意力 (MQA) 的泛化和更有限制的应用,MQA 是 MHA 的一种早期优化。

虽然标准多头注意力催化了机器学习、自然语言处理 (NLP) 和生成式 AI 的飞跃发展,但它对计算资源和内存带宽的要求极高。随着 LLM 越来越大、越来越复杂,这些内存使用要求成为制约进步的瓶颈,尤其是对于自回归仅解码器 LLM 而言(用于文本生成、摘要和其他生成式 AI 任务)。

后续的研究集中在增强或简化多头注意力的技术上。其中一些注意力机制(如 Flash 注意力和 Ring 注意力)改进了用于训练和运行模型的 GPU 处理计算和内存存储的方式。其他系统,例如 GQA 和 MQA,则探索了转换器架构处理词元的方式的改变。

分组查询注意力旨在平衡标准多头注意力和多查询注意力之间的权衡。前者以增加内存带宽开销和降低速度为代价,最大限度地提高了准确性。后者则以牺牲准确性为代价,最大限度地提高速度和效率。