ما مَعلمات النماذج اللغوية الكبيرة؟

المؤلفون

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

تعريف مَعلمات النماذج اللغوية الكبيرة

مَعلمات النماذج اللغوية الكبيرة هي الإعدادات التي تتحكم في إخراج وسلوك نموذج لغوي كبير (LLM) وتحسينه. تشمل المَعلمات القابلة للتدريب الأوزان والانحيازات، ويتم ضبطها أثناء تعلم النموذج اللغوي الكبير (LLM) من مجموعة بيانات التدريب الخاصة به. المعلمات الفائقة هي إعدادات خارجية عن النموذج، وتوجِّه عملية تعلمه، وتحدِّد بنيته، وتشكِّل مخرجاته.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

أنواع مَعلمات النماذج اللغوية الكبيرة

يمكن تصنيف مَعلمات النماذج اللغوية الكبيرة إلى ثلاث فئات: 

  • الأوزان 

  • الانحيازات 

  • المعلمات الفائقة

الأوزان

الأوزان هي قيم رقمية تمثل مدى أهمية المدخلات التي يخصِّصها النموذج اللغوي الكبير لكل إدخال محدد. لا يتم التعامل مع جميع المدخلات على قدم المساواة من قِبَل نموذج الذكاء الاصطناعي (AI) عند توليد الردود. كلما كانت قيمة وزن الإدخال أعلى، زادت أهميته بالنسبة لمخرجات النموذج. 

يتم ضبط إعدادات المَعلمات القابلة للتدريب، مثل الأوزان، بواسطة خوارزمية التعلم الخاصة بالنموذج أثناء عملية التدريب. تعمل خوارزمية التعلم على قياس أداء نموذج التعلم الآلي (ML) باستخدام دالة الخسارة، التي تحاول تقليل الخطأ عبر تحسين مَعلمات النموذج

داخل الشبكات العصبية، الأوزان هي مضاعِفات تحدِّد قوة الإشارة من طبقة واحدة من الخلايا العصبية إلى الطبقة التالية. يجب أن تصل الإشارات إلى عتبة قوة دالة التنشيط لتتمكن من الانتقال عبر الشبكة. على هذا النحو، تؤثِّر الأوزان بشكل مباشر في كيفية نشر الشبكة للبيانات إلى الأمام عبر طبقاتها. 

يُستخدَم الانتشار الخلفي لحساب كيفية تأثير التغيير في قيم الوزن على الأداء.

التحيزات

مثل الأوزان، يتم أيضًا ضبط الانحيازات تلقائيًا أثناء تدريب نماذج الذكاء الاصطناعي. الانحيازات هي قيم ثابتة تُضاف إلى قيمة الإشارة القادمة من الطبقات السابقة. تستخدم النماذج الانحيازات لتمكين الخلايا العصبية من التفعيل في الحالات التي قد لا تكون فيها الأوزان وحدها كافية لعبور دالة التنشيط. 

تُتيح الانحيازات للنماذج أن تكون أكثر مرونة. يمكن للنماذج أن تتعلم من البيانات حتى لو لم تصل المدخلات الموزونة إلى عتبة التنشيط. مثل الأوزان، يتم تعديل الانحيازات باستخدام الانتشار الخلفي أثناء التدريب لتحسين أداء النموذج وتقليل الأخطاء. 

يمكن أن يؤدي الجمع بين الأوزان والانحيازات في النماذج اللغوية الكبيرة إلى إنشاء نماذج تحتوي على مليارات المَعلمات. خلال عملية الضبط الدقيق -عندما يتم تدريب نموذج لغوي كبير مُسبق التدريب لمهام محددة- يتم تعديل الأوزان والانحيازات باستخدام بيانات تدريب متخصصة في المجال.

المعلمات الفائقة

المَعلمات الفائقة هي إعدادات خارجية تحدِّد سلوك النموذج وشكله وحجمه واستخدام الموارد وخصائصه الأخرى. تستخدم عملية ضبط المَعلمات الفائقة أو ضبط النموذج خوارزميات للكشف عن المجموعة المُثلى من المَعلمات الفائقة للحصول على أداء أفضل. إلى جانب هندسة المطالبات، يُعَد ضبط المَعلمات الفائقة أحد طرق تخصيص النماذج اللغوية الكبيرة الأساسية. 

  • تحدِّد المَعلمات الفائقة للبنية، مثل عدد الطبقات وأبعاد الطبقات المخفية، حجم النموذج وشكله. 

  • توجِّه المَعلمات الفائقة للتدريب، مثل معدل التعلم وحجم الدفعة، عملية تدريب النموذج. تؤثِّر المعلمات الفائقة للتدريب بشكل كبير في أداء النموذج وما إذا كان يفي بمعايير النماذج اللغوية الكبيرة المطلوبة. 

  • توازن المَعلمات الفائقة للذاكرة والحوسبة، مثل نافذة السياق والحد الأقصى لعدد الرموز في تسلسل المخرجات وتسلسلات الإيقاف، بين أداء النموذج وقدراته ومتطلبات الموارد. 

  • تساعد المَعلمات الفائقة لجودة المخرجات، مثل عقوبة الظهور وعقوبة التردد، النماذج اللغوية الكبيرة على توليد مخرجات أكثر تنوعًا وإثارة للاهتمام، مع التحكم في التكاليف.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

معلمات النماذج اللغوية الكبيرة البارزة

يمكن أن يصل عدد المَعلمات في النماذج الأكبر -وهي شبكات عصبية معقدة مثل GPT-4 وGPT-3، وLlama، وGemini وغيرها من نماذج المحولات- إلى المليارات. تحتوي النماذج الأصغر على عدد أقل من المَعلمات، ما يجعلها أقل استهلاكًا للحوسبة، لكنها أيضًا أقل قدرة على التعرُّف على الأنماط والعلاقات المعقدة. 

تساعد جميع المَعلمات على تحديد كيفية فهم النموذج لبيانات العالم الحقيقي التي يواجهها. لكن المَعلمات الأكثر تأثيرًا بشكل مباشر على مخرجات النموذج هي مَعلماته الفائقة. من فوائد النماذج مفتوحة المصدر أن إعدادات المَعلمات الفائقة الخاصة بها تكون واضحة ومرئية. 

يُعَد ضبط المَعلمات الفائقة ركيزة مهمة في تخصيص النماذج اللغوية الكبيرة (LLM): وهو تعديل النموذج لمهام محددة. 

من بين أهم المَعلمات الفائقة للنموذج ما يلي: 

  • عدد الطبقات 

  • نافذة السياق

  • درجة الحرارة 

  • الاختيار من أعلى الاحتمالات التراكمية (Top-p أو العينة النواة) 

  • اختيار من أعلى k احتمالات (Top-k) 

  • عدد الرموز المميزة (الحد الأقصى للرموز المميزة) 

  • معدل التعلم 

  • عقوبة التردد 

  • عقوبة الظهور

  • تسلسل الإيقاف

عدد الطبقات

يُعَد عدد الطبقات في الشبكة العصبية مَعلمة فائقة حاسمة لتحديد حجم النموذج وتعقيده. تتكون الشبكات العصبية من طبقات من الخلايا العصبية أو العُقد. كلما زاد عدد الطبقات بين طبقة الإدخال الأوَّلية وطبقة الإخراج النهائية، زاد تعقيد النموذج. 

لكن التعقيد ليس جيدًا دائمًا. النموذج الذي يحتوي على عدد كبير من الطبقات لمهمة لا تحتاج إليها قد يعاني من الإفراط في التخصيص ويهدر الموارد الحاسوبية. في المقابل، النموذج ذو الطبقات القليلة لن يتمكن من استيعاب الأنماط والعلاقات والتوزيعات في مجموعات البيانات المعقدة.

نافذة السياق

تُعَد مَعلمة نافذة السياق مهمة لأي نموذج مبني على بنية المحولات، مثل النموذج اللغوي الكبير مفتوح المصدر Llama-2. تُشير نافذة السياق إلى الحد الأقصى لعدد الرموز التي يمكن للنموذج التعامل معها مع الحفاظ على التماسك عبر تسلسل المدخلات بأكملها. 

تحدِّد نافذة السياق أيضًا طول المحادثة التي يمكن للنموذج الاحتفاظ بسياقها دون فقدان المحتوى السابق. تؤدي نوافذ السياق الأكبر إلى دقة أعلى، وتقليل الهلوسات، وتمكين النموذج من معالجة مستندات أكبر أو إجراء محادثات أطول. 

ومع ذلك، تتطلب نوافذ السياق الكبيرة قدرًا أكبر من الموارد الحاسوبية، وقد تطيل وقت معالجة توليد الردود.

درجة الحرارة

تُشبه مَعلمة درجة حرارة النموذج اللغوي الكبير (LLM) قرص ضبط العشوائية أو الإبداع. يؤدي رفع درجة الحرارة إلى توسيع توزيع الاحتمالات للكلمات التالية التي يظهرها النموذج في مخرجاته أثناء توليد النصوص

يستخدم ضبط درجة الحرارة عند 1 توزيع الاحتمالات القياسي للنموذج. القيم الأعلى من 1 لدرجة الحرارة تعمل على تسطيح توزيع الاحتمالات، ما يشجع النموذج على اختيار مجموعة أوسع من الرموز المميزة. بالمقابل، درجات الحرارة الأقل من 1 توسِّع توزيع الاحتمالات، ما يجعل النموذج أكثر ميلًا لاختيار الرموز المميزة التالية الأكثر احتمالًا. 

تشير قيمة درجة الحرارة الأقرب إلى 1.0، مثل 0.8، إلى أن النموذج اللغوي الكبير يصبح أكثر إبداعًا في استجاباته، مع إمكانية انخفاض مستوى التنبؤ بها. في المقابل، درجة الحرارة المنخفضة بقيمة 0.2 ستنتج ردودًا أكثر حتمية. النموذج ذو درجة الحرارة المنخفضة يقدِّم مخرجات متوقعة، وإن كانت رتيبة. بينما درجات الحرارة الأعلى الأقرب إلى 2.0 قد تبدأ بإنتاج مخرجات غير منطقية. 

توفِّر حالة الاستخدام معلومات عن قيمة درجة الحرارة المثالية للنموذج اللغوي الكبير. يحتاج روبوت المحادثة المصمم ليكون مسليًا ومبدعًا، مثل ChatGPT، إلى درجة حرارة أعلى لإنشاء نص يشبه النص البشري. ويتطلب تطبيق تلخيص النصوص في مجال منظم للغاية مثل القانون أو السلامة أو التمويل العكس - يجب أن تلتزم الملخصات النصية التي يتم إنشاؤها بمتطلبات صارمة.

أعلى p (أخذ عينات من النواة)

مثل درجة الحرارة، تؤثِّر مَعلمة أخذ العينات من أعلى p أيضًا في تنوع الكلمات في مخرجات النص التي تم إنشاؤها. تعمل مَعلمة Top-p عن طريق تعيين حد احتمال p للرمز المميز التالي في تسلسل الإخراج. وتُتيح للنموذج إنشاء استجابات باستخدام الرموز المميزة ضمن حد الاحتمالية. 

في طريقة Top-p sampling، يتم ترتيب الرموز حسب احتمالية ظهورها. الرموز التي يحتمل ظهورها لاحقًا في التسلسل بدرجة أكبر تحصل على درجات أعلى، والعكس صحيح للرموز الأقل احتمالًا. يعمل النموذج على تجميع مجموعة من الرموز المميزة المحتملة التالية حتى يصل مجموع الاحتمالات التراكمي p إلى الحد المحدد، ثم يختار النموذج رمزًا بشكل عشوائي من تلك المجموعة. 

تؤدي القيم الأعلى للحد التراكمي p إلى مخرجات أكثر تنوعًا، بينما تساعد القيم الأقل في الحفاظ على الدقة والتماسك.

درجة الحرارة مقابل اختيار أعلى الاحتمالات التراكمية (Top-p sampling)

يكمُن الفرق بين درجة الحرارة وTop-p sampling في أن درجة الحرارة تعدِّل توزيع الاحتمالات للرموز المحتملة، بينما يقتصر اختيار الرموز في Top-p sampling على مجموعة محددة.

أفضل k احتمالات (Top-k)

تُعَد معلمة Top-k الفائقة إعدادًا آخر يركِّز على زيادة تنوع المخرجات. تحدِّد قيمة k الحد الأقصى لعدد الرموز التي يمكن اعتبارها التالية في التسلسل. يتم ترتيب المصطلحات وفقًا لاحتمالاتها، ويتم اختيار أعلى مصطلحات k كمرشحين.

Top-p مقابل Top-k

تحدِّد Top-p مجموعة الرموز المميزة حتى يصل المجموع التراكمي للاحتمالات إلى قيمة p معينة، بينما تقتصر Top-k على أعلى k من المصطلحات من حيث الاحتمالية.

عدد الرموز المميزة (الحد الأقصى للرموز المميزة)

تحدِّد مَعلمة عدد الرموز أو الحد الأقصى للرموز المميزة الحد الأعلى لطول مخرجات الرموز. تُعَد القيم الصغيرة لعدد الرموز المميزة مثالية للمهام السريعة مثل محادثات الدردشة وتلخيص النصوص - وهي مهام يمكن التعامل معها بواسطة نماذج لغوية صغيرة وكذلك النماذج اللغوية الكبيرة. 

تكون القيم الأعلى لعدد الرموز المميزة أفضل عند الحاجة إلى مخرجات أطول، مثل محاولة استخدام نموذج لغوي كبير للبرمجة العفوية (vibe coding).

معدل التعلم

يُعَد معدل التعلم مَعلمة فائقة حاسمة تؤثِّر في سرعة تعديل النموذج لأوزانه وانحيازاته أثناء التدريب والضبط الدقيق للأداء. غالبًا ما تستخدم هذه العمليات خوارزمية تعلم تُعرف باسم الانحدار التدريجي (gradient descent).

تحاول خوارزمية الانحدار التدريجي تقليل دالة الخسارة التي تقيس خطأ تنبؤات النموذج. في كل تكرار من التدريب، تعمل الخوارزمية على تحديث أوزان النموذج لتحسين الأداء بشكل مثالي مع الدفعة التالية من البيانات. 

يتحكم معدل التعلم في الدرجة التي يتم بها تحديث الأوزان. يؤدي معدل التعلم المرتفع إلى زيادات أكبر، ما يؤدي إلى تسريع التدريب مع خطر تجاوز الحد الأدنى المحلي. تعمل معدلات التعلم المنخفضة على إجراء تعديلات أكثر دقة ولكنها تتطلب المزيد من التكرارات للوصول إلى الحد الأدنى ويمكن أن تتوقف. 

تتمثل إحدى الطرق الفعَّالة لإدارة معدل التعلم في بدء التدريب بقيمة أعلى وخفض معدل التعلم حيث يقترب النموذج من الحد الأدنى المحلي لدالة الخسارة.

عقوبة التردد (Frequency penalty)

تساعد المَعلمة الفائقة لعقوبة التردد على منع النماذج من الإفراط في استخدام المصطلحات ضمن المخرجات نفسها. بمجرد ظهور مصطلح في الإخراج، تُثني عقوبة التردد النموذج عن إعادة استخدامه مرة أخرى لاحقًا. 

يخصّص النموذج لكل رمز درجات تُعرف باسم logits، ويستخدم هذه القيم لحساب احتمالات الرموز. تقوم عقوبات التردد بخفض قيمة logit لكل مصطلح بشكل خطي في كل مرة يُعاد استخدامها، ما يجعل احتمالية اختياره في المرة التالية أقل تدريجيًا. تؤدي قيم عقوبة التردد الأعلى إلى خفض قيمة logit بمقدار أكبر عند كل تطبيق. 

نظرًا لأن النموذج يُمنع من تكرار المصطلحات، فإنه يضطر لاختيار مصطلحات أخرى، ما يؤدي إلى تنوع أكبر في الكلمات المستخدمة في النص الناتج.

عقوبة التكرار (Repetition penalty)

تشبه عقوبة التكرار عقوبة التردد إلا إنها أُسيّة وليست خطية. تقلل عقوبة التكرار قيمة logit للمصطلح بشكل أسّي في كل مرة يُعاد استخدامها، ما يجعلها أكثر قوة في منع التكرار مقارنةً بعقوبة التردد. لهذا السبب، يُوصى باستخدام قيم عقوبة تكرار أقل. 

عقوبة الظهور (Presence penalty)

تُعَد مَعلمة عقوبة الظهور من المَعلمات الفائقة ذات الصلة، وتعمل بطريقة مشابهة لعقوبة التردد، لكنها تُطبَّق مرة واحدة فقط. تقلل عقوبة الظهور قيمة logit للمصطلح بمقدار ثابت بغض النظر عن عدد مرات ظهوره في المخرجات، ما دام قد ظهر مرة واحدة على الأقل. 

إذا ظهرت كلمة دب في المخرجات 10 مرات، وظهرت كلمة ثعلب مرة واحدة، فإن دب تخضع لعقوبة تكرار أعلى من ثعلب. ومع ذلك، كل من دب وثعلب يخضعان لنفس عقوبة الظهور.

تسلسل الإيقاف

تسلسل الإيقاف هو مجموعة محددة مسبقًا من الرموز المميزة، والتي عند ظهورها تتسبب في إنهاء النموذج لتسلسل المخرجات. على سبيل المثال، إذا تم تصميم نموذج لإخراج جملة واحدة في كل مرة، فقد يكون تسلسل الإيقاف هو النقطة. 

تحافظ تسلسلات الإيقاف على إيجاز الاستجابة دون التأثير في طريقة توليد النموذج للمخرجات حتى نقطة الإيقاف. ونظرًا لأنها تقطع مخرجات النموذج، فإن تسلسلات الإيقاف تساعد أيضًا على تقليل تكلفة الرموز عند استخدام النماذج اللغوية الكبيرة عبر واجهات برمجة التطبيقات.

تحسين مَعلمات النماذج اللغوية الكبيرة

يُعَد تحسين المَعلمات الداخلية القابلة للتدريب للنموذج -الأوزان والانحيازات- أمرًا أساسيًا لتحقيق أداء قوي. بمجرد تجهيز النموذج بأفضل القيم للمَعلمات الفائقة، يمتلك المصممون مجموعة من الطرق لتشكيل المَعلمات الداخلية للنموذج اللغوي الكبير. 

  • يُعَد التعلم بالنقل (Transfer learning) مجموعة واسعة من تقنيات تحسين النماذج، التي تتركز جميعها حول استخدام المعرفة السابقة للنموذج لتحسين الأداء على مهام جديدة. 

  • تساعد عملية التكميم (Quantization) على تبسيط جميع العمليات الحسابية داخل النموذج، ما يجعله أصغر وأكثر كفاءة مع الحفاظ على تمثيل البيانات نفسها. 

  • يعمل الإيقاف المبكر على منع الإفراط في التعلم عن طريق إيقاف عملية التدريب عندما يتوقف النموذج عن تحقيق تحسينات ملحوظة في الأداء.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا