لا يتمثل الجانب السلبي للانتباه متعدد الرؤوس القياسي في وجود بعض العيوب الجوهرية، وإنما في غياب أي تحسينا. كانت خوارزمية MHA أول خوارزمية من نوعها وتمثل أكثر عمليات التنفيذ تعقيدًا لآليتها العامة لحساب الانتباه.
تنشأ عدم كفاءة الانتباه متعدد الرؤوس (MHA) بشكل أساسي من العدد الكبير من العمليات الحسابية ومعلمات النموذج. في انتباه MHA القياسي، لكل رأس استعلام ورأس مفتاح ورأس قيمة في كل طبقة انتباه مصفوفة أوزان مستقلة. لذا، على سبيل المثال، إذا كان هناك 8 رؤوس انتباه في كل طبقة انتباه—وهو عدد أقل بكثير مما تستخدمه معظم النماذج اللغوية الكبيرة (LLMs) الحديثة—فإن كل طبقة ستحتاج إلى 24 مصفوفة وزن فريدة لرؤوس Q و K و V فقط. وهذا يستلزم عددًا كبيرًا من العمليات الحسابية الوسيطة في كل طبقة.
تتمثل إحدى النتائج المترتبة على هذا التكوين في ارتفاع التكلفة الحسابية. تتزايد متطلبات الحوسبة في الانتباه متعدد الرؤوس بمعدل تربيعي مع طول التسلسل: حيث إن مضاعفة عدد الرموز المميزة في تسلسل الإدخال يؤدي إلى زيادة التعقيد الحسابي بمقدار أربعة أضعاف. هذا يضع قيودًا عملية صارمة على حجم نوافذ السياق.
يشكل الانتباه متعدد الرؤوس عبئًا كبيرا على ذاكرة النظام. إذ أن وحدات معالجة الرسوميات (GPUs) تمتلك سعة ذاكرة مدمجة محدودة، مما يجعلها غير قادرة على تخزين الكمية الهائلة من العمليات الحسابية الوسيطة التي يجب استرجاعها عند كل خطوة معالجة لاحقة. بدلا من ذلك، يتم تخزين هذه النتائج الوسيطة في ذاكرة ذات نطاق ترددي عال(HBM)، والتي لا توجد على شريحة GPU نفسها. يستلزم ذلك زمن انتقال طفيف في كل مرة يجب فيها قراءة المفاتيح والقيم من الذاكرة. ومع توسّع نماذج المحولات إلى عدة مليارات من المعلمات، أصبحت متطلبات الوقت والحوسبة اللازمة لتدريب الاستدلال وتشغيله عائقًا يحدُّ من أداء النموذج.
لتحقيق مزيد من التقدم، كان لا بد من تطوير أساليب تقلل عدد العمليات الحسابية دون التأثير على قدرة نماذج المحولات على تعلم الأنماط اللغوية المعقدة وإعادة إنتاجها بدقة. في هذا السياق، تم تقديم آلية الانتباه متعدد الاستعلامات، والتي أعقبها لاحقًا الانتباه بالاستعلامات المجمعة.