الانتباه بالاستعلامات المجمعة (GQA) هو أسلوب يهدف إلى زيادة كفاءة آلية الانتباه في نماذج المحوِّلات، وتستخدم عادةً لتسريع عمليات الاستدلال في النماذج اللغوية الكبيرة (LLMs).
طوَّر Ainslie وزملاؤه الانتباه بالاستعلام المُجمَّع كتحسين للشبكة العصبية، وهي خوارزمية الانتباه الذاتي المبتكرة التي تناولتها دراسة "Attention is All You Need" لعام 2017 والتي أرست أسس الشبكات العصبية للمحوِّلات. وبشكل أكثر تحديدا، يُعد GQA تحسينًا مقيَّدًا لمفهوم الانتباه متعدد الاستعلامات (MQA)، لذي كان محاولة سابقة لتعزيز كفاءة MHA.
على الرغم من أن الانتباه متعدد الرؤوس القياسي أحدث نقلة نوعية في مجالات التعلم الآلي ومعالجة اللغة الطبيعية (NLP) والذكاء الاصطناعي التوليدي، إلا أنه يستهلك كميات هائلة من الموارد الحسابية وعرض النطاق الترددي للذاكرة. ومع ازدياد حجم النماذج اللغوية الكبيرة (LLMs) وتعقيدها، أصبحت متطلبات استخدام الذاكرة عائقًا أما التطوير، خاصة في نماذج الانحدار الذاتي القائمة على أداة فك التشفير فقط المستخدمة في توليد النصوص والتلخيص وغيرها من مهام الذكاء الاصطناعي التوليدي.
ركزت الأبحاث اللاحقة على تقنيات تعزيز أو تبسيط الانتباه متعدد الرؤوس. بعض هذه التقنيات، مثل الانتباه الوميضي (Flash Attention) والانتباه الحلقي (Ring Attention)، على تحسين الطرق التي تتعامل بها وحدات معالجة الرسوميات المستخدمة لتدريب النماذج وتشغيلها مع العمليات الحسابية والذاكرة التخزين. بينما استكشفت تقنيات أخرى، مثل GQA وMQA، تغييرات في الطريقة التي تعالج بها بنى المحولات الرموز المميزة.
يهدف الانتباه بالاستعلامات المجمّعة إلى تحقيق التوازن الأمثل بين الانتباه متعدد الرؤوس القياسي والانتباه متعدد الاستعلامات. حيث يركز الأول على تحقيق أقصى دقة، ولكن على حساب زيادة استهلاك عرض النطاق الترددي للذاكرة وانخفاض السرعة. في المقابل، يهدف الثاني إلى تعزيز السرعة والكفاءة، لكنه يأتي على حساب الدقة.
لفهم كيفية تحسين الانتباه بالاستعلامات المجمعة (GQA) لنماذج المحولات، من المهم أولًا فهم كيفية عمل الانتباه متعدد الرؤوس (MHA) بشكل عام. يعمل كل من الانتباه بالاستعلامات المجمعة (GQA) والانتباه متعدد الاستعلامات (MQA) على تحسين المنهجية الأساسية للانتباه متعدد الرؤوس (MHA) بدلاً من استبدالها.
تتمثل القوة الدافعة وراء النماذج اللغوية الكبيرة (LLMs) والنماذج الأخرى التي تعتمد على بنية المحول في آلية الانتباه الذاتي، وهي إطار رياضي يُستخدم لفهم العلاقات بين الرموز المميزة المختلفة في تسلسل معين. تسمح آلية الانتباه الذاتي للنموذج اللغوي الكبير بفهم البيانات النصية ليس فقط استنادًا إلى التعريفات الثابتة، ولكن أيضًا من خلال السياق الذي توفره الكلمات والعبارات الأخرى.
في نماذج الانحدار الذاتي المستخدمة في توليد النصوص، تساعد آلية الانتباه النموذج على التنبؤ بالرمز المميز التالي في التسلسل من خلال تحديد الرموز المميزة السابقة الأكثر أهمية في اللحظة الحالية. تُمنح المعلومات المستخلصة من الرموز المميزة الأكثر صلة أوزان انتباه أعلى، بينما تُمنح المعلومات المستخلصة من الرموز المميزة الأقل صلة أوزان انتباه تقترب من الصفر.
تعتمد آلية الانتباه متعدد الرؤوس، التي تشغّل نماذج المحوِّلات، على توليد معلومات سياقية غنية عبر حساب الانتباه الذاتي عدة مرات بالتوازي، من خلال تقسيم طبقات الانتباه إلى عدة رؤوس انتباه مستقلة.
أوضح مؤلفو دراسة "Attention is All You Need" آلية الانتباه الخاصة به باستخدام مصطلحات قاعدة البيانات العلائقية: الاستعلامات والمفاتيح والقيم. صُممت قواعد البيانات العلائقية لتبسيط تخزين واسترجاع البيانات ذات الصلة: فهي تقوم بتعيين معرف فريد ("مفتاح") لكل جزء من البيانات، ويرتبط كل مفتاح بقيمة مقابلة. ويتمثل الهدف من قاعدة البيانات العلائقية في مقارنة كل استعلام بالمفتاح المناسب.
بالنسبة لكل رمز مميز في التسلسل، يتطلب الانتباه متعدد الرؤوس إنشاء 3 متجهات.
تتمثل التفاعلات الرياضية بين هذه المتجهات الثلاثة، التي تتم بوساطة آلية الانتباه، في كيفية تعديل النموذج لفهمه الخاص بكل رمز مميز ضمن السياق.
لإنشاء هذه المتجهات الثلاثة لكل رمز، يبدأ النموذج باستخدام تمثيل المتجه الأصلي لذلك الرمز، وهو ترميز عددي حيث يرتبط كل بُعد من أبعاد المتجه بعنصر مجرد من المعنى الدلالي للرمز المميز. يتم تحديد عدد الأبعاد في هذه المتجهات مسبقًا باعتبارها معلمة فائقة.
يتم إنشاء متجه استعلام Q ومتجه مفتاح K ومتجه قيمة V لكل رمز مميز عن طريق تمرير تمثيل الرمز المميز الأصلي عبر طبقة خطية تسبق أول طبقة انتباه. تُقسَّم هذه الطبقة الخطية إلى 3 مصفوفات مميزة من أوزان النموذج: WQ وWK وWV. يتم تعلم القيم المحددة لهذه الأوزان من خلال التدريب الذاتي غير الخاضع للإشراف على مجموعة بيانات ضخمة من الأمثلة النصية.
ينتج ضرب تمثيل المتجه الأصلي للرمز المميز في المصفوفات WQ وWK وWV المتجه المقابل لهذا الرمز، أي متجه الاستعلام والمتجه الرئيسي ومتجه القيمة. يعتمد عدد الأبعاد d لكل متجه على حجم مصفوفة الأوزان الخاصة به. وسيكون لكل من Q وK نفس عدد الأبعاد، ويُرمز له بالرمز dk.
ثم يتم تمرير هذه المتجهات الثلاثة إلى طبقة الانتباه.
في طبقة الانتباه، تُستخدم المتجهات Q وK وV لحساب درجة المحاذاة بين كل رمز مميز في كل موضع ضمن التسلسل. ثم يتم تطبيع درجات المحاذاة إلى أوزان انتباه باستخدام دالة Softmax.
لكل رمز مميز x في تسلسل معين، يتم حساب درجات المحاذاة عن طريق حساب حاصل الضرب النقطي بين متجه استعلام هذا الرمز المميز Qx والمتجه الرئيسي K لكل من الرموز المميزة الأخرى: أي بضربها معًا. إذا كانت هناك علاقة ذات معنى بين رمزين مميزين، فسيظهر ذلك من خلال التشابه بين متجهاتهما، وبالتالي، فإن ضربهما معا سينتج عنه قيمة كبيرة. إذا لم تتم محاذاة المتجهين، فإن ضربهما معا سينتج عنه قيمة صغيرة أو سالبة. تستخدم معظم نماذج المحولات متغيرًا من آلية الانتباه يُعرف باسم الانتباه بالضرب النقطي المُقَيَّس، حيث يتم تعديل حاصل ضرب QK - أي بضربه - في لتحسين استقرار التدريب.
يتم بعد ذلك تمرير درجات المحاذاة بين متجه المفتاح ومتجه الاستعلام إلى دالة softmax. تقوم Softmax بتطبيع جميع المدخلات إلى قيمة بين 0 و 1 بحيث يكون مجموعها 1. تمثل مخرجات دالة softmax أوزان الانتباه، حيث يشير كل وزن إلى النسبة (من 1) التي يخصصها رمز مميز x للانتباه إلى كل من الرموز الأخرى. إذا كان وزن انتباه الرمز المميز قريبًا من 0، فسيتم تجاهله. إذا كان وزن الانتباه يساوي 1، فذلك يعني أن الرمز يحصل على انتباه x بالكامل، بينما سيتم تجاهل جميع الرموز الأخرى.
أخيرا، يتم ضرب متجه القيمة لكل رمز مميز في وزنه الخاص بالانتباه. ثم يتم حساب متوسط هذه المساهمات المُرجحة بالانتباه من كل رمز مميز سابق معا وإضافتها إلى تمثيل المتجه الأصلي للرمز المميز x. وبهذا، يتم تحديث تمثيل الرمز المميز x ليعكس السياق الذي توفره الرموز المميزة الأخرى في التسلسل ذي الصلة به.
يتم بعد ذلك إرسال التمثيل المتجهي المُحدَّث إلى طبقة خطية أخرى تحتوي على مصفوفة الأوزان الخاصة بها WZ، حيث يتم تطبيع المتجه المُحدَّث بالسياق لإعادته إلى عدد أبعاد ثابت، ثم يُرسل إلى طبقة الانتباه التالية. تجمع كل طبقة انتباه متتابعة تفاصيل سياقية أكثر دقة.
يُعد استخدام متوسطات المساهمات المُرجّحة بالانتباه من الرموز المميزة الأخرى، بدلاً من معالجة كل جزء من السياق المُرجّح بالانتباه بشكل فردي، أكثر كفاءة من الناحية الرياضية، لكنه يؤدي إلى فقدان بعض التفاصيل.
لتعويض ذلك، تقوم شبكات المحولات بتقسيم تمثيل المتجه الأصلي للرمز إلى h أجزاء متساوية الحجم. كما يتم بتقسيم مصفوفات الأوزان WQ و WK و WV إلى h مجموعات أصغر تسمى رؤوس متجه الاستعلام ورؤوس متجه المفتاح ورؤوس متجه القيمة، على التوالي. يتلقى كل رأس استعلام ورأس مفتاح ورأس قيمة جزءا من متجه الرمز المميز الأصلي. يتم تمرير المتجهات التي تنتجها كل مجموعة من هذه الثلاثيات المتوازية من رؤوس الاستعلام ورؤوس المفاتيح ورؤوس القيم إلى رأس انتباه مُناظِر. بعد إجراء عمليات الانتباه على كل رأس بشكل مستقل، يتم دمج مخرجات هذه الدوائر المتوازية h معًا مرة أخرى لتحديث تمثيل الرمز المميز الكامل.
أثناء التدريب، تتعلم كل دائرة أوزاناً مميزة تلتقط جانباً منفصلاً من المعاني الدلالية. هذا بدوره يساعد النموذج على فهم الطرق المختلفة التي يمكن أن تتأثر بها دلالات الكلمة بسياق الكلمات الأخرى المحيطة بها.
لا يتمثل الجانب السلبي للانتباه متعدد الرؤوس القياسي في وجود بعض العيوب الجوهرية، وإنما في غياب أي تحسينا. كانت خوارزمية MHA أول خوارزمية من نوعها وتمثل أكثر عمليات التنفيذ تعقيدًا لآليتها العامة لحساب الانتباه.
تنشأ عدم كفاءة الانتباه متعدد الرؤوس (MHA) بشكل أساسي من العدد الكبير من العمليات الحسابية ومعلمات النموذج. في انتباه MHA القياسي، لكل رأس استعلام ورأس مفتاح ورأس قيمة في كل طبقة انتباه مصفوفة أوزان مستقلة. لذا، على سبيل المثال، إذا كان هناك 8 رؤوس انتباه في كل طبقة انتباه—وهو عدد أقل بكثير مما تستخدمه معظم النماذج اللغوية الكبيرة (LLMs) الحديثة—فإن كل طبقة ستحتاج إلى 24 مصفوفة وزن فريدة لرؤوس Q و K و V فقط. وهذا يستلزم عددًا كبيرًا من العمليات الحسابية الوسيطة في كل طبقة.
تتمثل إحدى النتائج المترتبة على هذا التكوين في ارتفاع التكلفة الحسابية. تتزايد متطلبات الحوسبة في الانتباه متعدد الرؤوس بمعدل تربيعي مع طول التسلسل: حيث إن مضاعفة عدد الرموز المميزة في تسلسل الإدخال يؤدي إلى زيادة التعقيد الحسابي بمقدار أربعة أضعاف. هذا يضع قيودًا عملية صارمة على حجم نوافذ السياق.
يشكل الانتباه متعدد الرؤوس عبئًا كبيرا على ذاكرة النظام. إذ أن وحدات معالجة الرسوميات (GPUs) تمتلك سعة ذاكرة مدمجة محدودة، مما يجعلها غير قادرة على تخزين الكمية الهائلة من العمليات الحسابية الوسيطة التي يجب استرجاعها عند كل خطوة معالجة لاحقة. بدلا من ذلك، يتم تخزين هذه النتائج الوسيطة في ذاكرة ذات نطاق ترددي عال(HBM)، والتي لا توجد على شريحة GPU نفسها. يستلزم ذلك زمن انتقال طفيف في كل مرة يجب فيها قراءة المفاتيح والقيم من الذاكرة. ومع توسّع نماذج المحولات إلى عدة مليارات من المعلمات، أصبحت متطلبات الوقت والحوسبة اللازمة لتدريب الاستدلال وتشغيله عائقًا يحدُّ من أداء النموذج.
لتحقيق مزيد من التقدم، كان لا بد من تطوير أساليب تقلل عدد العمليات الحسابية دون التأثير على قدرة نماذج المحولات على تعلم الأنماط اللغوية المعقدة وإعادة إنتاجها بدقة. في هذا السياق، تم تقديم آلية الانتباه متعدد الاستعلامات، والتي أعقبها لاحقًا الانتباه بالاستعلامات المجمعة.
الانتباه متعدد الاستعلامات (MQA) هو آلية انتباه أكثر كفاءة من الناحية الحوسبية، حيث تعمل على تبسيط الانتباه متعدد الرؤوس لتقليل استهلاك الذاكرة وتقليص الحسابات الوسيطة. فبدلاً من تدريب رأس متجه مفتاح ورأس متجه قيمة مستقل لكل رأس انتباه، يستخدم MQA رأس متجه مفتاح واحد فقط ورأس قيمة واحد فقط في كل طبقة. وبالتالي، يتم حساب متجهات المفتاح ومتجهات القيمة مرة واحدة فقط؛ ثم تتم مشاركة هذه المجموعة الموحدة من متجهات المفتاح والقيمة عبر جميع رؤوس الانتباه h .
يؤدي هذا التبسيط إلى تقليل عدد الإسقاطات الخطية التي يجب على النموذج حسابها وتخزينها في ذاكرة ذات نطاق ترددي عال. وبحسب البحث المنشور عام 2019 الذي قدم انتباه MQA، يسمح انتباه MQA بتقليل سعة تخزين أزواج القيم والمفاتيح (أو KV cache) بمقدار 10 إلى 100 مرة، كما يوفر سرعة استدلال أعلى بمقدار 12 مرة لأداة فك التشفير. بالإضافة إلى ذلك، يؤدي انخفاض استهلاك الذاكرة في MQA إلى تسريع التدريب بشكل ملحوظ من خلال تمكين استخدام حجم دفعة (Batch Size) أكبر.
على الرغم من مزاياه، فإن الانتباه متعدد الاستعلامات (MQA) يعاني من عدة عيوب لا يمكن تجنبها.
الانتباه بالاستعلامات المجمعة هو صياغة أكثر عمومية ومرونة للانتباه متعدد الاستعلامات (MQA). في GQA، يتم تقسيم رؤوس الاستعلام إلى عدة مجموعات، بحيث تشارك كل مجموعة مجموعة مستقلة من متجهات المفتاح والقيمة، بدلاً من مشاركة مجموعة واحدة من متجهات المفتاح والقيمة عبر جميع رؤوس الاستعلام.
بعد نشر البحث "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints" في مايو 2023، سرعان ما تبنّت العديد من النماذج اللغوية الكبيرة (LLMs) الانتباه بالاستعلامات المجمعة. على سبيل المثال، اعتمدت Meta لأول مرة GQA في نماذجها Llama 2 في يوليو 2023 واحتفظت به في نماذج Llama 3 التي تم إصدارها عام 2024. استخدمت Mistral AI آلية GQA في نموذج Mistral 7B الذي أصدرته في سبتمبر 2023. وبالمثل، تبنّت IBM آلية GQA في نماذجها Granite 3.0 لضمان تنفيذ استدلال أسرع.
من الناحية النظرية، يمكن اعتبار الانتباه بالاستعلامات المجمعة تعميمًا للطيف الممتد بين الانتباه متعدد الرؤوس القياسي القياسي والانتباه متعدد الاستعلامات الكامل. عندما يكون عدد مجموعات رؤوس المفتاح-القيمة في GQA مساويًا لعدد رؤوس الانتباه، فإن ذلك يعادل MHA القياسي. عندما يحتوي GQA على مجموعة رؤوس واحدة فقط، فإنه يعادل MQA بالكامل.
في الممارسة العملية، يشير الانتباه بالاستعلامات المجمعة عادةً إلى نهج وسيط، حيث يكون عدد المجموعات معلمة فائقة مهمة بحد ذاتها.
يوفر الانتباه بالاستعلامات المجمعة العديد من المزايا التي ساهمت في اعتماده على نطاق واسع إلى حدٍّ ما في النماذج اللغوية الكبيرة الرائدة.
تعلّم كيف يمكن للمديرين التنفيذيين تحقيق التوازن بين القيمة التي يمكن أن يقدمها الذكاء الاصطناعي مقابل الاستثمار الذي يتطلبه والمخاطر التي يثيرها.
تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.
تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك
هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
يُعَد IBM Granite مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي، وهي مصممة خصيصًا للأعمال ومُحسَّنة لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وضوابط الحماية.
تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.
تعمّق في العناصر الثلاثة الهامة لاستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.