ما المقصود بضبط المعلمات الفائقة؟

المؤلفون

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

ما المقصود بضبط المَعلمات الفائقة؟

ضبط المَعلمات الفائقة هو ممارسة تحديد واختيار أفضل المَعلمات الفائقة لاستخدامها في تدريب نموذج التعلم الآلي. وإذا ما نجح إجراؤه بشكل صحيح، يقلل ضبط المَعلمات الفائقة من دالة الخسارة في نموذج التعلم الآلي، ما يعني أن النموذج يتم تدريبه على الأداء ليكون دقيقًا قدر الإمكان. 

يُعَد ضبط المَعلمات الفائقة ممارسة تجريبية، حيث يتم اختبار قيم مَعلمات فائقة مختلفة في كل تكرار حتى يتم تحديد أفضلها. وتشكِّل هذه العملية أهمية كبيرة في أداء النموذج حيث تتحكم المَعلمات الفائقة في عملية تعلُّمهِ. عدد الخلايا العصبية في الشبكة العصبية، ومعدل التعلم لنموذج الذكاء الاصطناعي التوليدي وحجم نواة آلة متجه الدعم كلها أمثلة على المَعلمات الفائقة.

يدل الضبط الجيد للمَعلمات الفائقة على الأداء الأقوى بشكل عام من جانب نموذج التعلم الآلي وفقًا للمقاييس المخصصة لمهمته المقصودة. وهذا هو السبب في أن ضبط المَعلمات الفائقة يُعرَف أيضًا باسم تحسين المَعلمات الفائقة.

صورة فوتوغرافية لأوركسترا مع قائد أوركسترا

ما المقصود بالمعلمات الفائقة؟

المَعلمات الفائقة هي متغيّرات تكوين يعمل على تعيينها علماء البيانات مسبقًا لإدارة عملية تدريب نموذج التعلم الآلي. وتطبِّق نماذج الذكاء الاصطناعي التوليدي والنماذج الاحتمالية الأخرى ما تعلمته من بيانات التدريب للتنبؤ بالنتيجة الأكثر احتمالًا للمهمة. ويُعَد العثور على التركيبة الصحيحة من المَعلمات الفائقة أمرًا ضروريًا لاستخلاص أفضل أداء من نماذج التعلم الخاضع للإشراف ونماذج التعلم غير الخاضع للإشراف

المعلمات الفائقة للتنظيم 

تتحكم المَعلمات الفائقة للتنظيم في سعة أو مرونة النموذج، وتعني درجة الحرية التي يمتلكها عند تفسير البيانات. أدخِل تعديلات طفيفة جدًا، ولن يتمكن النموذج من الحصول على معلومات محددة بما يكفي لوضع تنبؤات جيدة. أدخِل تعديلات كثيرة جدًا، وسيعاني النموذج من فرط التخصيص: عندما يتكيف بشكل مفرط مع بيانات تدريبه وينتهي به الأمر إلى أن يكون متخصصًا جدًا لدرجة لا تُتيح استخدامه في العالم الحقيقي. 

المَعلمات الفائقة مقابل مَعلمات النموذج

يتمثّل الفرق الأساسي بين المَعلمات الفائقة ومَعلمات النموذج في علم البيانات في أنه بينما تتعلم النماذج المَعلمات، أو تقدِّرها، من مجموعات البيانات التدريبية التي تستوعبها، يعمل علماء البيانات على تحديد المَعلمات الفائقة لخوارزمية النموذج قبل بدء عملية التدريب. وتعمل النماذج باستمرار على تحديث المَعلمات في أثناء عملها، في حين يتم تحديد القيم المُثلى للمَعلمات الفائقة للنموذج وتعيينها مسبقًا.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

ما أهمية ضبط المعلمات الفائقة؟

يُعَد ضبط المَعلمات الفائقة مهمًا لأنه يضع الأساس لهيكل النموذج وكفاءة التدريب والأداء. وتؤدي تكوينات المَعلمات الفائقة المُثلى إلى أداء قوي للنموذج في العالم الحقيقي. تُشدِّد عمليات النماذج اللغوية الكبيرة على جانب الكفاءة في الضبط الجيد، مع التركيز على تقليل متطلبات الطاقة الحسابية.

الانحياز والتباين

يتمثل الهدف من ضبط المَعلمات الفائقة في تحقيق التوازن بين التحيز والتباين. التحيز هو الاختلاف بين تنبؤات النموذج والواقع. كما تفشل النماذج غير المضبوطة أو غير الملائمة في تمييز العلاقات الرئيسية بين نقاط البيانات ولا تستطيع استخلاص الاستنتاجات المطلوبة اللازمة لتحقيق الأداء الدقيق.

التباين هو حساسية النموذج للبيانات الجديدة. وينبغي أن يقدِّم النموذج الموثوق به نتائج متسقة عند الانتقال من بيانات التدريب إلى مجموعات بيانات أخرى. ومع ذلك، تكون النماذج شديدة التباين معقدة للغاية، فهي تتناسب بشكل مفرط مع بيانات التدريب الأصلية وتواجه صعوبات في استيعاب البيانات الجديدة.

تكون النماذج منخفضة الانحياز دقيقة، بينما تكون النماذج منخفضة التباين متسقة. ويعمل الضبط الجيد للمَعلمات الفائقة على تحسين كِلا الأمرين لإنشاء أفضل نموذج للمهمة مع زيادة كفاءة الموارد الحسابية أثناء التدريب. 

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أمثلة على المعلمات الفائقة

تفضّل كل خوارزمية من خوارزميات التعلم الآلي مجموعة المعلمات الفائقة الخاصة بها، وليس من الضروري دائمًا أن تكون في أعلى قيمة لها في جميع الحالات. في بعض الأحيان، سيؤدي اتباع نهج أكثر تحفظًا عند ضبط المعلمات الفائقة إلى تحسين الأداء.

المعلمات الفائقة للشبكة العصبية

تُستلهم الشبكات العصبية من الدماغ البشري وتتكون من عُقَد مترابطة ترسل إشارات بعضها إلى بعض. وبشكل عام، فيما يلي بعض المَعلمات الفائقة الأكثر شيوعًا لتدريب نموذج الشبكة العصبية:

  • معدل التعلم

  • تضاؤل معدل التعلم

  • حجم الدفعة

  • عدد الطبقات المخفية

  • عدد العُقد أو الخلايا العصبية في الطبقة الواحدة

  • الزخم

  • الدورات

  • دالة التنشيط

معدل التعلم

يعمل معدل التعلم على تحديد السرعة التي يضبط بها النموذج مَعلماته في كل تكرار. وتُعرَف هذه التعديلات بالخطوات. ومن ثمَّ، يعني معدل التعلم المرتفع أن النموذج سيتكيف بسرعة أكبر، لكن مع خطر الأداء غير المستقر وانحراف البيانات. في الوقت نفسه، بينما يكون معدل التعلم المنخفض أكثر استهلاكًا للوقت ويتطلب المزيد من البيانات، فإنه يزيد أيضًا من قدرة علماء البيانات على تحديد أدنى خسارة للنموذج. ويُعَد تحسين النزول المتدرج مثالًا على مقياس تدريب يتطلب معدل تعلُّم محددًا.

تضاؤل معدل التعلم

يعمل تضاؤل معدل التعلم على تحديد المعدل الذي ينخفض فيه معدل تعلم الشبكة مع مرور الوقت، ما يسمح للنموذج بسرعة تعلم المزيد. يُعرف تقدم تدريب الخوارزمية من تنشيطها الأولي إلى تحقيق الأداء المثالي باسم التقارب.

حجم الدفعة

يحدد حجم الدفعة عدد العينات التي سيقوم النموذج بحسابها قبل تحديث معلماته. ويتميز بتأثيره الكبير في كل من كفاءة الحساب ودقة عملية التدريب. وبمفرده، يؤدي حجم الدفعة الأكبر إلى التسبب في ضعف الأداء العام، ولكن تعديل معدل التعلم بالإضافة إلى حجم الدفعة يمكن أن يخفف من هذه الخسارة.

عدد الطبقات المخفية

يحدِّد عدد الطبقات المخفية في الشبكة العصبية عمقها، وهو ما يؤثِّر في تعقيدها وقدرتها على التعلم. ويؤدي انخفاض عدد الطبقات إلى الحصول على نموذج يتميز بالبساطة والسرعة، ولكن تؤدي زيادة عدد الطبقات -كما هو الوضع في شبكات التعلم العميق- إلى تصنيف بيانات الإدخال. ويتعلق تحديد القيمة المُثلى للمَعلمات الفائقة هنا من بين جميع التوليفات الممكنة بالمفاضلة بين السرعة والدقة.

عدد العُقد أو الخلايا العصبية في الطبقة الواحدة

يعمل عدد العُقد أو الخلايا العصبية في الطبقة الواحدة على تحديد عمق النموذج. وكلما زاد عدد العُقد أو الخلايا العصبية في الطبقة الواحدة، زادت سعة النموذج، وزادت قدرته على تصوير العلاقات المعقدة بين نقاط البيانات.

الزخم

الزخم هو الدرجة التي تحدِّد مدى تحديث النماذج لمَعلماتها في نفس الاتجاه الذي اتخذته التكرارات السابقة، بدلًا من عكس المسار. ويبدأ معظم علماء البيانات بقيمة مَعلمة فائقة أقل للزخم ثم يضبطونها إلى الأعلى حسب الحاجة للحفاظ على مسار النموذج أثناء استيعابه لبيانات التدريب. 

الدورات

الدورات هي مَعلمة فائقة تحدِّد عدد المرات التي يتعرّض فيها النموذج لمجموعة بيانات التدريب بأكملها خلال عملية التدريب. ويمكن أن يؤدي التعرّض الأكبر إلى تحسين الأداء، ولكن ينطوي على خطر فرط التخصيص.

دالة التنشيط

تعمل دالة التنشيط على إدخال اللاخطية في النموذج، وهو ما يمكِّنه من التعامل مع بيانات أكثر تعقيدًا. ويمكن للنماذج غير الخطية التعميم والتكيف مع مجموعة أكبر من البيانات المتنوعة.

المعلمات الفائقة لآلة المتجهات الداعمة (SVM)

آلة المتجهات الداعمة (SVM) عبارة عن خوارزمية تعلُّم آلي متخصصة في تصنيف البيانات والانحدار واكتشاف القيمة الخارجية. ولها معلماتها الفائقة الأساسية الخاصة بها:

    المعلمة الفائقة لآلة المتجهات الداعمة: C

    تُعَد C النسبة بين هامش الخطأ المقبول وعدد الأخطاء الناتجة عندما يعمل النموذج كمصنِّف بيانات. وعند تخفيض قيمة C، تصبح حدود القرار أكثر بساطة وسلاسة، وهو ما يسمح للنموذج بمزيد من التسامح مع الأخطاء وأداء أكثر عمومية، لكن هذا قد يؤدي إلى المخاطرة بتصنيف البيانات بطريقة غير صحيحة. وفي الوقت نفسه، باستخدام قيمة C مرتفعة، تصبح حدود القرار مُتقنة للحصول على نتائج تدريب أكثر دقةً، ولكن مع احتمال وقوع فرط التخصيص.

    المعلمة الفائقة لآلة المتجهات الداعمات: النواة

    النواة (kernel) عبارة عن دالة تحدِّد طبيعة العلاقات بين نقاط البيانات وتقسمها إلى مجموعات وفقًا لذلك. واعتمادًا على النواة المستخدمة، ستُظهر نقاط البيانات علاقات مختلفة، وهو ما قد يؤثِّر بشدة في الأداء الكلي لنموذج آلة المتجهات الداعمة (SVM). وتُعَد الدالة الخطية، والدالة متعددة الحدود، ودالة القاعدة الشعاعية (RBF)، ودالة سيجمويد عددًا قليلًا من النوى الأكثر استخدامًا. وتُعَد النوى الخطية أبسط وأفضل للبيانات القابلة للفصل بسهولة، في حين تُعَد النوى غير الخطية أفضل لمجموعات البيانات الأكثر تعقيدًا.

    المعلمة الفائقة لآلة المتجهات الداعمة: جاما

    تحدِّد جاما (Gamma) مستوى تأثير المتجهات الداعمة في حدود القرار. والمتجهات الداعمة هي نقاط البيانات الأقرب إلى المستوى الفائق: الحد الفاصل بين مجموعات البيانات. وتسحب القيم الأعلى تأثيرًا قويًا من المتجهات القريبة، بينما تعمل القيم الأدنى على تقييد التأثير من المتجهات البعيدة. يمكن أن يؤدي تعيين قيمة جاما عالية جدًا إلى فرط التخصيص في تحديد قيمة جاما إلى الإفراط في التخصيص، بينما يمكن أن تؤدي القيمة المنخفضة جدًا إلى تعكير حدود القرار. 

    المعلمات الفائقة لخوارزمية XGBoost

    يرمز XGBoost إلى " التعزيز المتدرّج القوي" وهو خوارزمية تجميع تمزج تنبؤات نماذج متعددة أضعف، تُعرَف باسم أشجار القرار، للحصول على نتائج أكثر دقةً. وتتفوّق الخوارزميات ذات التعزيز المتدرّج في العادة على نماذج الغابة العشوائية، وهي نوع آخر من خوارزميات التجميع التي تضم أشجار قرار متعددة.

    أهم المَعلمات الفائقة لخوارزمية XGBoost هي:

    • learning_rate

    • n_estimators

    • max_depth

    • min_child_weight

    • subsample

    learning_rate

    learning_rate تتشابه مع المَعلمة الفائقة لمعدل التعلم التي تستخدمها الشبكات العصبية. وتتحكم هذه الدالة في مستوى التصحيح الذي يتم إجراؤه خلال كل جولة من التدريب. تتراوح القيم المحتملة بين 0 و1، مع 0.3 كقيمة افتراضية.

    n_estimators

    n_estimators تحدِّد عدد الأشجار في النموذج. وتُعرَف هذه المعلمة الفائقة باسم num_boost_rounds في XGBoost الأصلي، في حين أن واجهة برمجة تطبيقات Python الشهيرة scikit-learn قدمتها باسم n_estimators.

    max_depth

    تحدِّد max_depth بنية شجرة القرارات، حيث تحدِّد الحد الأقصى لعدد العُقَد من الشجرة إلى كل ورقة - المصنِّف النهائي. وتؤدي زيادة العُقد إلى تصنيف البيانات بشكل أكثر دقةً، بينما تؤدي الأشجار الأصغر حجمًا إلى تجنُّب فرط التخصيص.

    min_child_weight

    min_child_weight هو الحد الأدنى للوزن -أي أهمية فئة معينة في عملية تدريب النموذج الكلي- اللازم لإنتاج شجرة جديدة. يؤدي خفض الأوزان الأدنى إلى زيادة عدد الأشجار، ولكن تظل احتمالية فرط التخصيص قائمة، بينما تقلل الأوزان الأكبر من التعقيد من خلال طلب بيانات إضافية لتقسيم الأشجار.

    subsample

    تعمل subsample على تحديد النسبة المئوية لعيّنات البيانات المستخدمة خلال كل جولة تدريب، بينما تعمل olsample_bytree على إصلاح النسبة المئوية لعيّنات البيانات المستخدمة في بناء الشجرة.

    ما طريقة عمل ضبط المعلمات الفائقة؟

    يتمحور ضبط المعلمات الفائقة حول دالة الهدف، التي تحلل مجموعة، أو تجميعة، من المعلمات الفائقة وتحسب الخسارة المتوقعة. ويعمل ضبط المعلمات الفائقة الأمثل على تقليل الخسارة وفقًا للمقاييس المختارة لأدنى حد. ويتم تأكيد النتائج عن طريق التحقق من الصحة التبادلي الذي يقيس مدى تعميمها على مجموعة بيانات أخرى خارج مثيل التدريب المحدد.

    طرق ضبط المَعلمات الفائقة

    تتوفر لدى علماء البيانات مجموعة متنوعة من طرق ضبط المَعلمات الفائقة تحت تصرّفهم، ولكل منها نقاط قوة وضعف. ويمكن إجراء ضبط المَعلمات الفائقة يدويًّا أو آليًّا كجزء من استراتيجية AutoML (التعلم الآلي المؤتمت).

    • البحث الشبكي

    • البحث العشوائي

    • التحسين البايزي

    • خوارزمية Hyperband

    البحث الشبكي

    البحث الشبكي عبارة عن طريقة شاملة ودقيقة لضبط المَعلمات الفائقة. وبعد أن يحدِّد علماء البيانات كل قيمة ممكنة لكل مَعلمة فائقة، يُنشئ البحث الشبكي نماذج لكل تكوين ممكن لقيم المَعلمات الفائقة المنفصلة هذه. ويتم تقييم كل نموذج من هذه النماذج بالنسبة إلى الأداء ومقارنة بعضها ببعض، مع اختيار أفضل نموذج في النهاية للتدريب.

    وبهذه الطريقة، يكون البحث الشبكي مشابهًا لمحاولة إدخال رقم التعريف الشخصي بالقوة من خلال إدخال كل تركيبة محتملة من الأرقام حتى يتم اكتشاف التسلسل الصحيح. وعلى الرغم من أن هذا البحث يمكّن علماء البيانات من النظر في جميع التكوينات الممكنة في مساحة المعلمات الفائقة، إلا إن البحث الشبكي غير فعال ويستهلك موارد الحوسبة بكثافة.

    البحث العشوائي

    يختلف البحث العشوائي عن البحث الشبكي في أن البيانات العالمية توفِّر توزيعات إحصائية بدلًا من القيم المنفصلة لكل مَعلمة فائقة. يسحب البحث العشوائي عيّنات من كل نطاق ويُنشئ نماذج لكل تركيبة. وعلى مدار عدة تكرارات، يتم تقييم النماذج بعضها مقابل بعض حتى يتم العثور على أفضل نموذج.

    يكون البحث العشوائي أفضل من البحث الشبكي في الحالات التي تحتوي فيها مساحة البحث عن المعلمة الفائقة على توزيعات كبيرة—حيث سيتطلب الأمر جهدًا كبيرًا لاختبار كل قيمة منفصلة. ويمكن أن تعيد خوارزميات البحث العشوائي نتائج مشابهة للبحث الشبكي في وقت أقل بكثير، رغم أنه ليس مضمونًا أنها ستكتشف التكوين الأمثل للمعلمة الفائقة.

    التحسين البايزي

    التحسين البايزي هو خوارزمية تحسين متسلسل قائمة على النموذج (SMBO) حيث يحسِّن كل تكرار من الاختبار طريقة أخذ العيّنات للتكرار التالي. ويمكن إجراء كلٍّ من عمليات البحث الشبكي والبحث العشوائي بشكل متزامن، ولكن يتم إجراء كل اختبار بشكل منفصل عن الآخر - لا يمكن لعلماء البيانات استخدام ما تعلَّموه لإثراء الاختبارات اللاحقة.

    استنادًا إلى الاختبارات السابقة، يقوم التحسين البايزي احتماليًّا بتحديد مجموعة جديدة من قيم المَعلمات الفائقة التي من المحتمل أن تقدِّم نتائج أفضل. ويُشار إلى النموذج الاحتمالي على أنه بديل لدالة الهدف الأصلية. ونظرًا إلى أن النماذج البديلة تتسم بالكفاءة في الحوسبة، فعادةً ما يتم تحديثها وتحسينها في كل مرة يتم فيها تنفيذ دالة الهدف.

    وكلما كان البديل أفضل في التنبؤ بالمَعلمات الفائقة الأمثل، أصبحت العملية أسرع، مع الحاجة إلى عدد أقل من اختبارات دالة الهدف. وهذا يجعل التحسين البايزي أكثر كفاءةً بكثير من الطرق الأخرى، حيث لا يضيع أي وقت على مجموعات غير مناسبة من قيم المَعلمات الفائقة.

    تُعرف عملية تحديد العلاقة إحصائيًّا بين النتيجة—في هذه الحالة، أفضل أداء للنموذج—ومجموعة من المتغيرات باسم تحليل الانحدار. وتعد العمليات الغاوسية أحد الأمثلة الشائعة بين علماء البيانات على التحسين المتسلسل القائم على النموذج (SMBO).

    خوارزمية Hyperband

    تم تقديم Hyperband في عام 2016، وهو مصمم لتحسين البحث العشوائي من خلال تقليل استخدام تكوينات التدريب التي تفشل في تحقيق نتائج قوية مع تخصيص المزيد من الموارد للتكوينات الإيجابية.

    ويتم تحقيق هذا "التوقف المبكر" من خلال عملية التنصيف المتتابع، وهي عملية تقلل من مجموعة التكوينات عن طريق إزالة النصف الأضعف أداءً بعد كل جولة من التدريب. ويتم نقل أعلى 50% من كل دفعة إلى التكرارات التالية حتى يتبقى تكوين واحد من المَعلمات الفائقة المُثلى.

    حلول ذات صلة
    IBM watsonx.ai

    تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

    اكتشف watsonx.ai
    حلول الذكاء الاصطناعي

    استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

    استكشف حلول الذكاء الاصطناعي
    الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

    أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

    استكشف خدمات الذكاء الاصطناعي
    اتخِذ الخطوة التالية

    احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

    استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا