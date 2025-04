يمكن استخدام عدد من آليات التوجيه لتحديد الخبراء الذين يتم استخدامهم في موقف معين. تُعد وظيفة التوجيه الصحيحة عاملاً حاسمًا لأداء النموذج، حيث يمكن أن تُؤدِّي استراتيجية التوجيه غير المُناسبة إلى عدم تدريب بعض الخبراء بشكل كافٍ أو تخصصهم بشكل مُفرط وتقلل من فعالية الشبكة بأكملها.

تعتمد آلية التوجيه التقليدية في نموذج الخبراء المتعددين (MoE)، التي أُشار إليها Shazeer في دراسته، على دالة Softmax: حيث يتنبأ المُوجِّه بقيم احتمالية لكل خبير (استنادًا إلى أوزانه وعلاقته بالمدخل الحالي) لتحديد الخبير الأكثر ملاءمة لإنتاج أفضل مخرجات لمدخل معين. بدلاً من حساب مخرجات جميع الخبراء، يقوم المُوجِّه بحساب مخرجات أفضل k خبراء فقط حسب توقعاته. وفقًا لما سبق، يستخدم Mixtral استراتيجية التوجيه top-k التقليدية: وبالأخص، يعتمد على توجيه top-2 (حيث k=2)، لاختيار أفضل خبيرين من بين 8 خبراء.

في الدراسة الشهيرة لعام 2021 بعنوان "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficiency Sparsity"، استعرض Fedus وزملاؤه تطبيقًا مكثفًا لاستراتيجية top-k: حيث استبدلوا طبقات FFN في نموذج T5 من Google بعدد 128 خبيرًا، واعتمدوا k=1، الذي يُطلق عليه التوجيه الحتميّ "hard routing". حتى مع توسيع النموذج ليشمل تريليون مُعامِل، حسّنت هذه الإعدادات سرعات التدريب المسبق بنسبة 400%..6