ما هو مفهوم الخبراء المتعددين (MoE)؟

5 أبريل 2024

المؤلفين

Dave Bergmann

Senior Writer, AI Models

IBM

ما هو مفهوم الخبراء المتعددين (MoE)؟

الخبراء المتعددين (MoE) هو نهج تعلُّم آلي يقسِّم نموذج الذكاء الاصطناعي (AI) إلى شبكات فرعية منفصلة (أو "خبراء")، يتخصص كل منها في مجموعة فرعية من بيانات المُدخلات، لأداء مهمة مشتركة.

تُتيح بُنى الخبراء المتعددين للنماذج واسعة النطاق، بما في ذلك تلك التي تتألف من مليارات المُعامِلات، تقليل تكاليف الحوسبة بشكل ملحوظ أثناء مرحلة ما قبل التدريب وتحقيق أداء أسرع خلال وقت الاستدلال. بصفة عامة، يُحقِّق ذلك هذه الكفاءة من خلال تفعيل الخبراء المُحدَّدين المطلوبين لمهمة مُعيَّنة بشكل انتقائي، بدلاً من تفعيل الشبكة العصبية بأكملها لكل مهمة على حدة.

مع أن الكثير من التطبيقات الحديثة لإعدادات الخبراء المتعددين قد تطورت خلال العقد الماضي (تقريبًا)، فإن المبدأ الأساسي وراء نماذج MoE يرجع إلى دراسة نُشرت عام 1991 بعنوان "Adaptive Mixture of Local Experts". طرحت الدراسة فكرة تدريب نظام ذكاء اصطناعي يتألف من شبكات منفصلة، يتخصص كل منها في مجموعة فرعية مختلفة من حالات التدريب. شمل ذلك تدريب كلٍ من "شبكات الخبراء" نفسها وشبكة التوجيه الديناميكي تحدد الخبير الذي يجب استخدامه لكل مهمة فرعية. بمقارنة النموذج التجريبي بنموذج تقليدي مشابه، وجد الباحثون أن نموذجهم التجريبي كان أسرع بكثير في التدريب: فقد حقَّق عتبة الدقة المستهدفة في نصف عدد حلقات التدريب التي حققها النموذج التقليدي1

في الآونة الأخيرة، ومع التوسُّع المُطرد في حجم نماذج التعلُّم العميق المُتقدِّمة المُستخدمة في مجال الذكاء الاصطناعي التوليدي، وما يترتَّب على ذلك من ازدياد في مُتطلبات الحوسبة، يُقدِّم خليط الخبراء حلاً للتوفيق بين السعة الاستيعابية الكبيرة للنماذج الأكبر والكفاءة التشغيلية العالية للنماذج الأصغر. وقد تم تناول هذا الجانب بشكل ملحوظ في مجال معالجة اللغة الطبيعية (NLP): فقد وظّفت بعض النماذج اللغوية الكبيرة (LLMs) الرائدة مثل Mistral's Mixtral 8x7B و(كما ورد في بعض التقارير) GPT-4،2 من OpenAI بنية MoE.

نماذج الخبراء المتعددين في التعلُّم العميق

تُبنى نماذج التعلم العميق الحديثة من شبكات عصبية اصطناعية، تتألف من طبقات متعددة من العقد المترابطة (أو "الخلايا العصبية"). كل خلية عصبية تحتوي على دالة تنشيط: وهي عملية حسابية تُجرى على البيانات المُستَقبلة من الطبقة السابقة، وتُحدِّد مُخرجاتها المُدخَلات التي تُمرَّر إلى الطبقة التالية. تعالج الشبكة العصبية التقليدية للتغذية إلى الأمام (FFNs) المعلومات عن طريق تمرير بيانات المُدخلات تدريجياً من الخلايا العصبية في طبقة معينة إلى الخلايا العصبية في الطبقة التالية حتى تصل إلى طبقة خارجية حيث تُجرى التنبؤات النهائية. تشمل بعض بنى الشبكات العصبية عناصر إضافية، مثل آليات الانتباه الذاتي في نماذج المُحوِّل، التي تستخلص أنماطًا واعتماديات إضافية في بيانات المُدخَلات.

تُحدِّد الروابط بين الطبقات والخلايا العصبية المختلفة مُعامِلات النموذج القابلة للتعلم: الأوزان المتغيرة (والتحيزات) التي تزيد أو تُنقِص من تأثير جزء معين من مخرجات الشبكة على أجزاء أخرى من الشبكة. يتعلَّم نموذج التعلُّم العميق من خلال ضبط هذه المُعامِلات، باستخدام خوارزميات التحسين مثل خوارزمية انحدار التدرُّج، بشكل يزيد من دقة تنبُّؤاته.

بينما يُؤدِّي ارتفاع عدد المُعامِلات إلى زيادة سعة النموذج - أي قدرته على استيعاب المعلومات والأنماط الموجودة فيها - فإنه يزيد أيضًا من الموارد الحسابية اللازمة لتدريب النموذج وتشغيله. في نموذج التعلم العميق التقليدي - وهو ما يشار إليه في هذا السياق بالنموذج الكثيف - يتم تشغيل الشبكة بأكملها لمعالجة أي مُدخلات. يُؤدِّي هذا إلى مُفاضلة بين سعة النموذج والتطبيق العملي.

على عكس النماذج التقليدية الكثيفة، يستخدم نموذج الخبراء المتعددين الحوسبة الشرطية لفرض تخفيف الكثافة: فبدلا من استخدام الشبكة بأكملها لكل مُدخل، تتعلَّم نماذج MoE دالة تعيين منخفضة التكلفة الحسابية تُحدِّد أي أجزاء من الشبكة - أي الخبراء - هي الأكثر فعالية لمعالجة مُدخَل مُحدَّد، مثل رمز مفرد يُستخدم لتمثيل كلمة أو جزء من الكلمة في مهام مُعالجة اللغة الطبيعية.

وهذا يسمح بزيادة سعة النموذج (عن طريق زيادة العدد الإجمالي للمُعامِلات) دون زيادة مقابلة في العبء الحسابي المطلوب لتدريب النموذج وتشغيله (لأنه ليس بالضرورة أن تُستخدم جميع هذه المعاملات في أي وقت معين).

كيف يعمل نموذج الخبراء المتعددين؟

تعمل نماذج MoE على معالجة البيانات عن طريق تعيين عدد من"الخبراء"، حيث يمثّل كل منهم شبكة فرعية خاصة به ضمن شبكة عصبية الأكبر، وتدريب شبكة التوجيه الديناميكي (أو المُوجِّه) لتنشيط الخبراء الأنسب لمُدخل معين فقط.

تتمثل الفائدة الأساسية لنهج MoE في أنه من خلال فرض تخفيف الكثافة،، بدلاً من تنشيط الشبكة العصبية لكل رمز إدخال، يمكن زيادة سعة النموذج مع الحفاظ على ثبات التكاليف الحسابية بشكل أساسي.

على المستوى الهيكلي، يتم تحقيق ذلك من خلال استبدال طبقات شبكة التغذية الأمامية التقليدية الكثيفة بطبقات (أو وحدات) منخفضة الكثافة من نماذج MoE. في لغة الشبكات العصبية، تشير "الوحدة" إلى عنصر هيكلي متكرر يؤدي وظيفة محددة. في نموذج MoE منخفض الكثافة (SMoE)، يمكن أن تكون هذه الوحدات المكونة من الخبراء عبارة عن طبقات فردية، أو شبكات (FFN) قائمة بذاتها، أو نماذج MoE متداخلة مع بعضها.

على سبيل المثال، في النموذج اللغوي Mixtral 8x7B من شركة Mistral، تتألف كل طبقة من 8 كتل أمامية - تُعرَف أيضًا بالخبراء - يمتلك كل منها 7 مليارات مُعامِل. لكل رمز مُدخل، في كل طبقة، تختار شبكة الموجِّه خبيرين من هؤلاء الخبراء الثمانية لمعالجة البيانات. بعد ذلك، تجمع شبكة الموجِّه مُخرجات هذين الخبيرين وتُحوِّل النتيجة إلى الطبقة التالية. يُمكن أن يختلف الخبراء الذين يختارهم المُوجِّه في طبقة مُحدَّدة عن الخبراء الذين تم اختيارهم في الطبقة السابقة أو التالية.3.3

عدد مُعامِلات نموذج MoE

يُمكن أن يتكوَّن نموذج SMoE بشكل كامل من طبقات MoE منخفضة الكثافة، لكن العديد من بُنى نماذج MoE تشمل كلاً من الوحدات الكثيفة ومنخفضة الكثافة. ينطبق هذا أيضًا على Mixtral، حيث يتم استخدام الوحدات المسؤولة عن آلية الانتباه الذاتي للنموذج بشكل مُشترك بين جميع الخبراء الثمانية. من الناحية العملية، يجعل هذا الأمر تسميات مثل 8x7B مُضلِّلة: بما أن العديد من مُعامِلات النموذج مُشتركة بين كل شبكة فرعية من الخبراء تتكوَّن من 7 مليارات مُعامِل، فإن إجمالي مُعامِلات Mixtral يبلغ حوالي 47 مليار مُعامِل - وليس 56 مليار مُعامِل، كما قد يظن البعض من خلال عملية الضرب البسيطة.

يُشار عادةً إلى هذا العدد الإجمالي للمُعامِلات باسم عدد المُعامِلات منخفضة الكثافة ويُمكن اعتباره عمومًا مقياسًا لسعة النموذج. يُعرَف عدد المُعامِلات التي ستُستخدَم فعليًا لمعالجة رمز واحد (عند مروره عبر بعض وحدات الخبراء وتجاوزه للبعض الآخر) باسم عدد المُعامِلات النشطة، ويُمكن فهمه كمقياس للتكاليف الحسابية للنموذج. على الرغم من أن كل رمز مُدخل إلى نموذج Mixtral لديه إمكانية الوصول إلى 46.7 مليار مُعامِل، لا يُستخدم سوى 12.9 مليار مُعامِل نشط لمعالجة مثال معين.

يُشكِّل فهم هذا الاستغلال الأمثل لأعداد المُعامِلات عاملاً أساسيًا لفهم المزايا التي تُقدِّمها نماذج MoE. على سبيل المثال، يتفوَّق نموذج Mixtral على مُتغيِّر Llama 2 من Meta الذي يحتوي على 70 مليار مُعامِل في مُعظم المعايير القياسية - بسرعة فائقة - على الرغم من امتلاكه ثُلثًا أقل من إجمالي المُعامِلات واستخدامه أقل من 20٪ من المُعامِلات النشطة خلال وقت الاستدلال.3

لكن تجدر الإشارة إلى أن العدد الإجمالي للمُعامِلات في نموذج MoE مُخفَّف ليس غير ذي أهمية بالكلية بالمُتطلبات الحسابية. على الرغم من استخدام مجموعة فرعية فقط من المُعامِلات أثناء الاستدلال، يجب تحميل جميع مُعامِلات النموذج في الذاكرة، ما يعني أن الكفاءة الحسابية التي تتميَّز بها نماذج SMoE في مُعظم الجوانب لا تسري على مُتطلبات ذاكرة الوصول العشوائي (RAM)/ذاكرة الوصول العشوائي للبطاقة الرسومية (VRAM).

تخفيف الكثافة

يكمن جوهر مفهوم (وكفاءة) نماذج MoE في أن عددًا مُحدَّدًا فقط من الخبراء (وبالتالي المُعامِلات) في طبقة منخفضة الكثافة سيتم تنشيطه في أي وقت مُعيَّن، ما يُؤدِّي إلى تقليل مُتطلبات الحوسبة النشطة.

وعلى الرغم من أن الحوسبة الشرطية قد اقترحت منذ مُدَّةٍ طويلةٍ كوسيلة نظرية لفصل متطلبات الحوسبة عن زيادة سعة النموذج، إلا أنه لم يتم تجاوز التحديات الخوارزمية وتحديات الأداء التي تواجه تنفيذها بنجاح إلا بعد نشر دراسة Shazeer وزملاؤه في عام 2017 بعنوان "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer"4.

تتجلى مزايا الطبقات منخفضة الكثافة على الطبقات الكثيفة بشكل خاص عند التعامل مع البيانات عالية الأبعاد، حيث تكون الأنماط والاعتماديات معقدة وغير خطية: على سبيل المثال، في مهام معالجة اللغة الطبية التي تتطلب نموذجًا لمعالجة تسلسل نصي طويل، ترتبط كل كلمة عادةً فقط بمجموعة فرعية صغيرة من الكلمات الأخرى في هذا التسلسل. وهذا يجعل نماذج SMoE مجالًا يتمتَّع بإمكانات هائلة في ميدان النماذج اللغوية الكبيرة (LLMs)، حيث تستطيع نماذج MoE المُعايرة بدقة الاستفادة من مزايا التخفيف دون التضحية بمستوى الأداء. كما تم استخدام نماذج MoE ذات شبكات التوجيه الديناميكي منخفضة الكثافة بنجاح في مهام رؤية الكمبيوتر، 5 6 وتظل مجالًا للدراسة الفعَّالة في هذا المجال.

يتحقق هذا التخفيف في الكثافة من خلال الحوسبة الشرطية: التنشيط الديناميكي لمُعامِلات محددة استجابةً لمُدخَلاتٍ محددة. وبالتالي فإن التصميم الفعال لشبكة التوجيه الديناميكي (أو "الموجِّه")، الذي يفعِّل هذه الحوسبة الشرطية، عاملًا حاسمًا لنجاح نماذج MoE.

التوجيه

يمكن استخدام عدد من آليات التوجيه لتحديد الخبراء الذين يتم استخدامهم في موقف معين. تُعد وظيفة التوجيه الصحيحة عاملاً حاسمًا لأداء النموذج، حيث يمكن أن تُؤدِّي استراتيجية التوجيه غير المُناسبة إلى عدم تدريب بعض الخبراء بشكل كافٍ أو تخصصهم بشكل مُفرط وتقلل من فعالية الشبكة بأكملها.

تعتمد آلية التوجيه التقليدية في نموذج الخبراء المتعددين (MoE)، التي أُشار إليها Shazeer في دراسته، على دالة Softmax: حيث يتنبأ المُوجِّه بقيم احتمالية لكل خبير (استنادًا إلى أوزانه وعلاقته بالمدخل الحالي) لتحديد الخبير الأكثر ملاءمة لإنتاج أفضل مخرجات لمدخل معين. بدلاً من حساب مخرجات جميع الخبراء، يقوم المُوجِّه بحساب مخرجات أفضل k خبراء فقط حسب توقعاته. وفقًا لما سبق، يستخدم Mixtral استراتيجية التوجيه top-k التقليدية: وبالأخص، يعتمد على توجيه top-2 (حيث k=2)، لاختيار أفضل خبيرين من بين 8 خبراء.

في الدراسة الشهيرة لعام 2021 بعنوان "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficiency Sparsity"، استعرض Fedus وزملاؤه تطبيقًا مكثفًا لاستراتيجية top-k: حيث استبدلوا طبقات FFN في نموذج T5 من Google بعدد 128 خبيرًا، واعتمدوا k=1، الذي يُطلق عليه التوجيه الحتميّ "hard routing". حتى مع توسيع النموذج ليشمل تريليون مُعامِل، حسّنت هذه الإعدادات سرعات التدريب المسبق بنسبة 400%..6

توزيع الأحمال

بالرغم من فوائدها العديدة، تضيف نماذج MoE تعقيدًا كبيرًا إلى عملية التدريب. أحد الجوانب السلبية الرئيسية لاستراتيجية التوجيه التقليدية التقليدية top-k هو ميل آلية التوجيه إلى الاعتماد على عدد قليل فقط من الخبراء. تُعتبر هذه مشكلة ذات طابع تراكمي: عندما يتم اختيار مجموعة صغيرة من الخبراء بشكل متكرر في المراحل الأولى، يتم تدريبهم بشكل أسرع من غيرهم، مما يؤدي إلى زيادة الاعتماد عليهم لأنهم يُنتجون تنبؤات أكثر دقة مقارنةً بالخبراء الآخرين الأقل تدريبًا. هذا التوزيع غير المتوازن يؤدي في النهاية إلى أن يصبح بقية الخبراء مجرد "أعباء ميتة" من الناحيتين المجازية والعملية.

لمعالجة هذه المشكلة، قدم Shazeer وزملاؤه مفهوم التوجيه noisy top-k: حيث يتم إضافة ضوضاء غاوسية (Gaussian Noise) إلى القيم الاحتمالية المتوقعة لكل خبير، مما يُدخل عنصرًا من العشوائية ويُساعد على توزيع أكثر توازنًا لتنشيط الخبراء. كما أضافوا مصطلحين منتظمين قابلين للتدريب لتحسين اختيار الخبراء: تقليل فقدان توازن الحمل (Load Balancing Loss) يفرض عقوبة على الاعتماد المفرط على أي خبير محدد، في حين أن تقليل فقدان تنوع الخبراء (Expert Diversity Loss) يكافئ التوزيع المتساوي لاستخدام جميع الخبراء.

في دراسة نشرتها Google عام 2020 بعنوان "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding"، طُرحت وسيلتان إضافيتان لتحقيق توازن الأحمال:

  • التوجيه العشوائي: يتم اختيار "الخبير الأول" في إعداد top-2 باستخدام دالة Softmax التقليدية، في حين يتم اختيار "الخبير الثاني" بشكل شبه عشوائي، حيث تكون احتمالية اختيار أي خبير متناسبة مع وزن اتصاله. وبهذا، تزداد احتمالية اختيار الخبير الثاني الأعلى ترتيبًا، ولكن لا يتم ضمان ذلك تمامًا.

  • سعة الخبراء: وضع الباحثون حدًا يُعرّف العدد الأقصى من الرموز التي يمكن لكل خبير معالجتها. إذا تجاوز أي من الخبيرين المختارين في إعداد top-2 الحد الأقصى لسعته، يُصنف الرمز على أنه "متجاوز السعة"، ويتم تمريره مباشرة إلى الطبقة التالية في الشبكة.7

ضبط نماذج MoE

بالرغم من فوائد النماذج منخفضة الكثافة، فإن تعقيدها قد يقلل من فعاليتها. تظهر تحديات تنفيذ نماذج الخبراء المتعددين (MoEs) بشكل أوضح أثناء عملية الضبط الدقيق. حيث تكون النماذج المتفرقة أكثر عرضة للإفراط في التخصيص مقارنة بالنماذج الكثيفة التقليدية. كما أن وجود كل من طبقات MoE منخفضة الكثافة وطبقات FFN الكثيفة يزيد من صعوبة اتباع نهج موحد.

تم اقتراح العديد من الملاحظات والأساليب لتقليل عدم الاستقرار عند ضبط نماذج MoE. أشار الباحثون في دراسة Switch Transformers إلى أن تقليل عدد الخبراء في النماذج أدى إلى ضبط دقيق أكثر استقرارًا، مما يوضح أن زيادة عدد الخبراء تُفيد التدريب المسبق، لكنها قد تُعيق التخصص في المهام المستقبلية.

في دراسة لعام 2022 "ST-MoE: Designing Stable and Transferable Sparse Expert Models"، قارن Zoph وزملاؤه نتائج 5 مناهج لعملية الضبط الدقيق: ضبط جميع المُعامِلات ("All")، وضبط مُعامِلات النموذج باستثناء مُعامِلات نماذج MoE ("Non MoE")، وضبط مُعامِلات نماذج MoE فقط ("MoE")، وضبط مُعامِلات الانتباه الذاتي وانتباه المُشفِّر-مُفكِّك التشفير فقط ("الانتباه")، وضبط مُعامِلات طبقات الشبكة الأمامية (FFN) غير التابعة لنماذج MoE فقط ("FFN").

  • لم يُلاحظ أي اختلاف تقريبًا بين ضبط جميع المُعامِلات ("All") وضبط مُعامِلات النموذج باستثناء مُعامِلات نماذج MoE ("Non MoE").

  • أدى الضبط الدقيق لمعلمات الانتباه فقط إلى انخفاض طفيف في الأداء.

  • في المقابل، تحديث معلمات الخبراء المتعددين فقط تسبب في تدهور كبير في أداء النموذج، على الرغم من أن حوالي 80% من معلمات النموذج كانت موجودة في طبقات MoE منخفضة الكثافة.

  • كانت طبقات الشبكة الأمامية (FFN) هي النهج الوحيد الذي حقق تحسينًا في الأداء مقارنة بخط الأساس "All".

وقد افترض الباحثون أن السبب وراء ذلك هو أن طبقات الخبراء تمثل ربع إجمالي طبقات النموذج فقط، ومع ذلك، لا يرى الرمز سوى خبيرين فقط لكل طبقة. لذلك، عزل معلمات MoE يؤدي إلى تحديثات أقل شمولًا للأوزان، (مما يزيد من خطر الإفراط في التخصيص وخسارة التدريب)..8

ضبط التعليمات لنماذج الخبراء المتعددين

نُشرت دراسة في يوليو 2023 بعنوان "Mixture-of-Experts Meets Instruction Tuning" تناولت تأثير  ضبط التعليمات على نماذج MoE. استخدمت الدراسة نماذج مكافئة لنموذجي T5 وFlan-T5 من Google، حيث يمثل Flan-T5 نسخة مضبوطة التعليمات من T5 باستخدام بروتوكول Flan من Google . استندت الدراسة إلى النماذج اللغوية الكبيرة كمعيار لقياس الأداء. وتضمنت التجربة مقارنة أربعة إعدادات: ضبط نموذج T5 كثيف، وضبط نموذج Flan-T5 كثيف، وضبط نموذج MoE، وضبط نموذج Flan-MoE المضبوط بالتعليمات.

كما هو متوقع، تفوق النموذج الكثيف T5 المكافئ على نموذج MoE بعد عملية الضبط الدقيق. لكن، على العكس من ذلك، تفوق نموذج Flan-MoE المضبوط بدقة بشكل كبير على نموذج Flan-T5 المضبوط بدقة. علاوة على ذلك، كان التحسن الذي حققه Flan-MoE مقارنة بنموذج MoE أكبر من التحسن الذي حققه Flan-T5 مقارنة بالنموذج الأساسي T5.

تشير هذه النتائج إلى أنه على الرغم من التحديات المرتبطة بالضبط الدقيق التقليدي، فإن نماذج MoE تستفيد أكثر من ضبط التعليمات مقارنة بنظائرها الكثيفة. تم التوصل إلى هذا الاكتشاف من خلال إصدار Mixtral 8x7B Instruct، وهو إصدار مضبوط بالتعليمات من Mixtral، يُقدَّم كنموذج أساس في IBM watsonx.ai™.

الحواشي