طوَّر Ainslie وزملاؤه الانتباه بالاستعلام المُجمَّع كتحسين للشبكة العصبية، وهي خوارزمية الانتباه الذاتي المبتكرة التي تناولتها دراسة "Attention is All You Need" لعام 2017 والتي أرست أسس الشبكات العصبية للمحوِّلات. وبشكل أكثر تحديدا، يُعد GQA تحسينًا مقيَّدًا لمفهوم الانتباه متعدد الاستعلامات (MQA)، لذي كان محاولة سابقة لتعزيز كفاءة MHA.

على الرغم من أن الانتباه متعدد الرؤوس القياسي أحدث نقلة نوعية في مجالات التعلم الآلي ومعالجة اللغة الطبيعية (NLP) والذكاء الاصطناعي التوليدي، إلا أنه يستهلك كميات هائلة من الموارد الحسابية وعرض النطاق الترددي للذاكرة. ومع ازدياد حجم النماذج اللغوية الكبيرة (LLMs) وتعقيدها، أصبحت متطلبات استخدام الذاكرة عائقًا أما التطوير، خاصة في نماذج الانحدار الذاتي القائمة على أداة فك التشفير فقط المستخدمة في توليد النصوص والتلخيص وغيرها من مهام الذكاء الاصطناعي التوليدي.

ركزت الأبحاث اللاحقة على تقنيات تعزيز أو تبسيط الانتباه متعدد الرؤوس. بعض هذه التقنيات، مثل الانتباه الوميضي (Flash Attention) والانتباه الحلقي (Ring Attention)، على تحسين الطرق التي تتعامل بها وحدات معالجة الرسوميات المستخدمة لتدريب النماذج وتشغيلها مع العمليات الحسابية والذاكرة التخزين. بينما استكشفت تقنيات أخرى، مثل GQA وMQA، تغييرات في الطريقة التي تعالج بها بنى المحولات الرموز المميزة.

يهدف الانتباه بالاستعلامات المجمّعة إلى تحقيق التوازن الأمثل بين الانتباه متعدد الرؤوس القياسي والانتباه متعدد الاستعلامات. حيث يركز الأول على تحقيق أقصى دقة، ولكن على حساب زيادة استهلاك عرض النطاق الترددي للذاكرة وانخفاض السرعة. في المقابل، يهدف الثاني إلى تعزيز السرعة والكفاءة، لكنه يأتي على حساب الدقة.