تاريخ النشر: 23 يوليو 2024
المساهمون: إيفان بيلسيتش، وكول سترايكر
ضبط المعلمات الفائقة عبارة عن ممارسة تحديد واختيار أفضل المعاملات الفائقة لاستخدامها في تدريب نموذج التعلم الآلي. وإذا ما نجح إجراؤه بشكل صحيح، يقلل ضبط المعلمات الفائقة من دالة الخسارة في نموذج التعلم الآلي، ما يعني أن النموذج يتم تدريبه على الأداء ليكون دقيقًا قدر الإمكان.
يعد ضبط المعلمات الفائقة ممارسة تجريبية، حيث يتم اختبار قيم معلمات فائقة مختلفة في كل تكرار حتى يتم تحديد أفضلها. وتشكل هذه العملية أهمية كبيرة في أداء النموذج حيث تتحكم المعلمات الفائقة في عملية تعلُّمهِ. ومن أمثلة المعلمات الفائقة كمية الخلايا العصبية الموجودة في الشبكة العصبية، ومعدل تعلم نموذج الذكاء الاصطناعي التوليدي، وحجم نواة آلة المتجهات الداعمة.
يدل الضبط الجيد للمعلمات الفائقة على الأداء الأقوى بشكل عام من جانب نموذج التعلم الآلي وفقًا للمقاييس المخصصة لمهمته المقصودة. وهذا هو السبب في أن ضبط المعلمات الفائقة يُعرف أيضًا باسم تحسين المعلمات الفائقة.
اكتشف كيفية اختيار النهج الصحيح في إعداد مجموعات البيانات وتوظيف نماذج الذكاء الاصطناعي.
المعلمات الفائقة هي متغيرات تكوين يقوم بتعيينها علماء البيانات مسبقًا لإدارة عملية تدريب نموذج التعلم الآلي. وتطبق نماذج الذكاء الاصطناعي التوليدي والنماذج الاحتمالية الأخرى ما تعلمته من بيانات التدريب للتنبؤ بالنتيجة الأكثر احتمالاً للمهمة. ويعد العثور على التركيبة الصحيحة من المعلمات الفائقة أمرًا ضروريًا لاستخلاص أفضل أداء من نماذج التعلم الخاضع للإشراف ونماذج التعلم غير الخاضع للإشراف.
تتحكم المعلمات الفائقة للتنظيم في سعة أو مرونة النموذج، وتعني درجة الحرية التي يمتلكها عند تفسير البيانات. أدخل تعديلات طفيفة جدًا، ولن يتمكن النموذج من الحصول على معلومات محددة بما يكفي لوضع تنبؤات جيدة. أدخل تعديلات كثيرة جدًا، وسيعاني النموذج من فرط التخصيص: عندما يتكيف بشكل مفرط مع بيانات تدريبه وينتهي به الأمر إلى أن يكون متخصصًا جدًا لدرجة لا تتيح استخدامه في العالم الحقيقي.
يتمثل الفرق الأساسي بين المعلمات الفائقة ومعلمات النموذج في علم البيانات في أنه بينما تتعلم النماذج المعلمات، أو تُقدِّرها، من مجموعات البيانات التدريبية التي تستوعبها، يقوم علماء البيانات بتحديد المعلمات الفائقة لخوارزمية النموذج قبل بدء عملية التدريب. وتعمل النماذج باستمرار على تحديث المعلمات أثناء عملها، في حين يتم تحديد القيم المثلى للمعلمات الفائقة للنموذج وتعيينها مسبقًا.
يعد ضبط المعلمات الفائقة مهمًا لأنه يضع الأساس لهيكل النموذج وكفاءة التدريب والأداء. وتؤدي تكوينات المعلمات الفائقة المثلى إلى أداء قوي للنموذج في العالم الحقيقي. تُشدد عمليات النماذج اللغوية الكبيرة على جانب الكفاءة في الضبط الجيد، مع التركيز على تقليل متطلبات الطاقة الحسابية.
يتمثل الهدف من ضبط المعلمات الفائقة في تحقيق التوازن بين الانحياز والتباين. الانحياز هو الاختلاف بين تنبؤات النموذج والواقع. كما تفشل النماذج غير المضبوطة أو غير الملائمة في تمييز العلاقات الرئيسية بين نقاط البيانات ولا تستطيع استخلاص الاستنتاجات المطلوبة اللازمة لتحقيق الأداء الدقيق.
التباين هو حساسية النموذج للبيانات الجديدة. وينبغي أن يقدم النموذج الموثوق به نتائج متسقة عند الانتقال من بيانات التدريب إلى مجموعات بيانات أخرى. ومع ذلك، تكون النماذج شديدة التباين معقدة للغاية، فهي تتناسب بشكل مفرط مع البيانات التدريب الأصلية وتواجه صعوبات في استيعاب البيانات الجديدة.
تكون النماذج منخفضة الانحياز دقيقة، بينما تكون النماذج منخفضة التباين متسقة. ويعمل الضبط الجيد للمعلمات الفائقة على تحسين كلا الأمرين لإنشاء أفضل نموذج للمهمة مع زيادة كفاءة الموارد الحسابية أثناء التدريب.
تفضّل كل خوارزمية من خوارزميات التعلم الآلي مجموعة المعلمات الفائقة الخاصة بها، وليس من الضروري دائمًا أن تكون في أعلى قيمة لها في جميع الحالات. في بعض الأحيان، سيؤدي اتباع نهج أكثر تحفظًا عند ضبط المعلمات الفائقة إلى تحسين الأداء.
تُستلهم الشبكات العصبية من الدماغ البشري وتتكون من عقد مترابطة ترسل إشارات بعضها إلى بعض. وبشكل عام، فيما يلي بعض المعلمات الفائقة الأكثر شيوعًا لتدريب نموذج الشبكة العصبية:
يعمل معدل التعلم على تحديد السرعة التي يضبط بها النموذج معلماته في كل تكرار. وتُعرف هذه التعديلات بالخطوات. ومن ثمَّ، يعني معدل التعلّم المرتفع أن النموذج سوف يتكيف بسرعة أكبر، لكن مع خطر الأداء غير المستقر وانحراف البيانات. في الوقت نفسه، بينما يكون معدل التعلم المنخفض أكثر استهلاكًا للوقت ويتطلب المزيد من البيانات، فإنه يزيد أيضًا من قدرة علماء البيانات على تحديد أدنى خسارة للنموذج. ويُعد تحسين النزول المتدرج مثالاً على مقياس تدريب يتطلب معدل تعلم محددًا.
يعمل تضاؤل معدل التعلم على تحديد المعدل الذي ينخفض فيه معدل تعلم الشبكة مع مرور الوقت، ما يسمح للنموذج بسرعة تعلم المزيد. يُعرف تقدم تدريب الخوارزمية من تنشيطها الأولي إلى تحقيق الأداء المثالي باسم التقارب.
يحدد حجم الدفعة عدد العينات التي سيقوم النموذج بحسابها قبل تحديث معلماته. ويتميز بتأثيره الكبير في كل من كفاءة الحساب ودقة عملية التدريب. وبمفرده، يؤدي حجم الدفعة الأكبر إلى التسبب في ضعف الأداء العام، ولكن تعديل معدل التعلم بالإضافة إلى حجم الدفعة يمكن أن يخفف من هذه الخسارة.
يحدد عدد الطبقات المخفية في الشبكة العصبية عمقها، وهو ما يؤثر في تعقيدها وقدرتها على التعلم. ويؤدي انخفاض عدد الطبقات إلى الحصول على نموذج يتميز بالبساطة والسرعة، ولكن تؤدي زيادة عدد الطبقات —كما هو الوضع في شبكات التعلم العميق—إلى تصنيف بيانات الإدخال. ويتعلق تحديد القيمة المثلى للمعلمات الفائقة هنا من بين جميع التوليفات الممكنة بالمفاضلة بين السرعة والدقة.
يعمل عدد العُقد أو الخلايا العصبية في الطبقة الواحدة على تحديد عمق النموذج. وكلما زاد عدد العُقد أو الخلايا العصبية في الطبقة الواحدة، زادت سعة النموذج، وزادت قدرته على تصوير العلاقات المعقدة بين نقاط البيانات.
الزخم هو الدرجة التي تحدد مدى تحديث النماذج لمعلماتها في نفس الاتجاه الذي اتخذته التكرارات السابقة، بدلًا من عكس المسار. ويبدأ معظم علماء البيانات بقيمة معلمة فائقة أقل للزخم ثم يضبطونها إلى الأعلى حسب الحاجة للحفاظ على مسار النموذج أثناء استيعابه للبيانات التدريبية.
الدورات هي معلمة فائقة تحدد عدد المرات التي يتعرض فيها النموذج لمجموعة بيانات التدريب بأكملها خلال عملية التدريب. ويمكن أن يؤدي التعرض الأكبر إلى تحسين الأداء، ولكن ينطوي على خطر فرط التخصيص.
تعمل دالة التنشيط على إدخال اللاخطية في النموذج، وهو ما يمكّنه من التعامل مع بيانات أكثر تعقيدًا. ويمكن للنماذج غير الخطية التعميم والتكيف مع مجموعة أكبر من البيانات المتنوعة.
آلة المتجهات الداعمة (SVM) عبارة عن خوارزمية تعلُّم آلي متخصصة في تصنيف البيانات والانحدار واكتشاف القيمة الخارجية. ولها معلماتها الفائقة الأساسية الخاصة بها:
تعد C النسبة بين هامش الخطأ المقبول وعدد الأخطاء الناتجة عندما يعمل النموذج كمصنِّف بيانات. وعند تخفيض قيمة C، تصبح حدود القرار أكثر بساطة وسلاسة، وهو ما يسمح للنموذج بمزيد من التسامح مع الأخطاء وأداء أكثر عمومية، لكن هذا قد يؤدي إلى المخاطرة بتصنيف البيانات بطريقة غير صحيحة. وفي الوقت نفسه، باستخدام قيمة C مرتفعة، تصبح حدود القرار مُتقنة للحصول على نتائج تدريب أكثر دقةً، ولكن مع احتمال وقوع فرط التخصيص.
النواة (kernel) عبارة عن دالة تحدد طبيعة العلاقات بين نقاط البيانات وتقسمها إلى مجموعات وفقًا لذلك. واعتمادًا على النواة المستخدمة، ستُظهر نقاط البيانات علاقات مختلفة، وهو ما قد يؤثر بشدة في الأداء الكلي لنموذج آلة المتجهات الداعمة (SVM). وتعد الدالة الخطية، والدالة متعددة الحدود، ودالة القاعدة الشعاعية (RBF)، ودالة سيجمويد عددًا قليلاً من النوى الأكثر استخدامًا. وتُعد النوى الخطية أبسط وأفضل للبيانات القابلة للفصل بسهولة، في حين تُعد النوى غير الخطية أفضل لمجموعات البيانات الأكثر تعقيدًا.
تحدد جاما مستوى تأثير المتجهات الداعمة في حدود القرار. والمتجهات الداعمة هي نقاط البيانات الأقرب إلى المستوى الفائق: الحد الفاصل بين مجموعات البيانات. وتسحب القيم الأعلى تأثيرًا قويًا من المتجهات القريبة، بينما تعمل القيم الأدنى على تقييد التأثير من المتجهات البعيدة. يمكن أن يؤدي تعيين قيمة جاما عالية جدًا إلى فرط التخصيص في تحديد قيمة جاما إلى الإفراط في التركيب، بينما يمكن أن تؤدي القيمة المنخفضة جدًا إلى تعكير حدود القرار.
يرمز XGBoost إلى " التعزيزالمتدرج القوي" وهو عبارة عن خوارزمية تجميع تمزج تنبؤات نماذج متعددة أضعف، تُعرف باسم أشجار القرار، للحصول على نتائج أكثر دقةً. وتتفوّق الخوارزميات ذات التعزيز المتدرج في العادة على نماذج الغابة العشوائية، وهي نوع آخر من خوارزميات التجميع التي تضم أشجار قرار متعددة.
أهم المعلمات الفائقة لخوارزمية XGBoost هي:
learning_rate تتشابه مع المعلمة الفائقة لمعدل التعلم التي تستخدمها الشبكات العصبية. وتتحكم هذه الدالة في مستوى التصحيح الذي يتم إجراؤه خلال كل جولة من التدريب. تتراوح القيم المحتملة بين 0 و1، مع 0.3 كقيمة افتراضية.
n_estimators تحدد عدد الأشجار في النموذج. وتُعرف هذه المعلمة الفائقة باسم num_boost_rounds في XGBoost الأصلي، في حين أن واجهة برمجة تطبيقات Python الشهيرة scikit-learn قدمتها باسم n_estimators.
تحدد max_depth بنية شجرة القرارات، حيث تحدد الحد الأقصى لعدد العقد من الشجرة إلى كل ورقة—المُصنِّف النهائي. وتؤدي زيادة العُقد إلى تصنيف البيانات بشكل أكثر دقةً، بينما تؤدي الأشجار الأصغر حجمًا إلى تجنب فرط التخصيص.
min_child_weight هو الحد الأدنى للوزن—أي أهمية فئة معينة في عملية تدريب النموذج الكلي—اللازم لإنتاج شجرة جديدة. يؤدي خفض الأوزان الأدنى إلى زيادة عدد الأشجار، ولكن تظل احتمالية فرط التخصيص قائمة، بينما تقلل الأوزان الأكبر من التعقيد من خلال طلب بيانات إضافية لتقسيم الأشجار.
تعمل subsample على تحديد النسبة المئوية لعينات البيانات المستخدمة خلال كل جولة تدريب، بينما تعمل olsample_bytree على إصلاح النسبة المئوية لعينات البيانات المستخدمة في بناء الشجرة.
يتمحور ضبط المعلمات الفائقة حول دالة الهدف، التي تحلل مجموعة، أو تجميعة، من المعلمات الفائقة وتحسب الخسارة المتوقعة. ويعمل ضبط المعلمات الفائقة الأمثل على تقليل الخسارة وفقًا للمقاييس المختارة لأدنى حد. ويتم تأكيد النتائج عن طريق التحقق من الصحة التبادلي الذي يقيس مدى تعميمها على مجموعة بيانات أخرى خارج مثيل التدريب المحدد.
تتوفر لدى علماء البيانات مجموعة متنوعة من طرق ضبط المعلمات الفائقة تحت تصرفهم، ولكل منها نقاط قوة وضعف. ويمكن إجراء ضبط المعلمات الفائقة يدويًّا أو آليًّا كجزء من استراتيجية AutoML (التعلم الآلي المؤتمت).
البحث الشبكي عبارة عن طريقة شاملة ودقيقة لضبط المعلمات الفائقة. وبعد أن يحدد علماء البيانات كل قيمة ممكنة لكل معلمة فائقة، ينشئ البحث الشبكي نماذج لكل تكوين ممكن لقيم المعلمات الفائقة المنفصلة هذه. ويتم تقييم كل نموذج من هذه النماذج بالنسبة إلى الأداء ومقارنة بعضها ببعض، مع اختيار أفضل نموذج في النهاية للتدريب.
وبهذه الطريقة، يكون البحث الشبكي مشابهًا لمحاولة إدخال رقم التعريف الشخصي بالقوة من خلال إدخال كل تركيبة محتملة من الأرقام حتى يتم اكتشاف التسلسل الصحيح. وعلى الرغم من أن هذا البحث يمكّن علماء البيانات من النظر في جميع التكوينات الممكنة في مساحة المعلمات الفائقة، إلا إن البحث الشبكي غير فعال ويستهلك موارد الحوسبة بكثافة.
يختلف البحث العشوائي عن البحث الشبكي في أن البيانات العالمية توفر توزيعات إحصائية بدلًا من القيم المنفصلة لكل معلمة فائقة. يقوم البحث العشوائي بسحب عينات من كل نطاق وإنشاء نماذج لكل تركيبة. وعلى مدار عدة تكرارات، يتم تقييم النماذج بعضها مقابل بعض حتى يتم العثور على أفضل نموذج.
يكون البحث العشوائي أفضل من البحث الشبكي في الحالات التي تحتوي فيها مساحة البحث عن المعلمة الفائقة على توزيعات كبيرة—حيث سيتطلب الأمر جهدًا كبيرًا لاختبار كل قيمة منفصلة. ويمكن أن تعيد خوارزميات البحث العشوائي نتائج مشابهة للبحث الشبكي في وقت أقل بكثير، رغم أنه ليس مضمونًا أنها ستكتشف التكوين الأمثل للمعلمة الفائقة.
التحسين البايزي عبارة عن خوارزمية تحسين متسلسل قائمة على النموذج (SMBO) حيث يحسن كل تكرار من الاختبار طريقة أخذ العينات للتكرار التالي. ويمكن إجراء كل من عمليات البحث الشبكي والبحث العشوائي بشكل متزامن، ولكن يتم إجراء كل اختبار بشكل منفصل عن الآخر— لا يمكن لعلماء البيانات استخدام ما تعلموه لإثراء الاختبارات اللاحقة.
استنادًا إلى الاختبارات السابقة، يقوم التحسين البايزي احتماليًّا بتحديد مجموعة جديدة من قيم المعلمات الفائقة التي من المحتمل أن تقدم نتائج أفضل. ويُشار إلى النموذج الاحتمالي على أنه بديل لدالة الهدف الأصلية. ونظرًا إلى أن النماذج البديلة تتسم بالكفاءة في الحوسبة، فعادةً ما يتم تحديثها وتحسينها في كل مرة يتم فيها تنفيذ دالة الهدف.
وكلما كان البديل أفضل في التنبؤ بالمعلمات الفائقة الأمثل، أصبحت العملية أسرع، مع الحاجة إلى عدد أقل من اختبارات دالة الهدف. وهذا يجعل التحسين البايزي أكثر كفاءةً بكثير من الطرق الأخرى، حيث لا يضيع أي وقت على مجموعات غير مناسبة من قيم المعلمات الفائقة.
تُعرف عملية تحديد العلاقة إحصائيًّا بين النتيجة—في هذه الحالة، أفضل أداء للنموذج—ومجموعة من المتغيرات باسم تحليل الانحدار. وتعد العمليات الغاوسية أحد الأمثلة الشائعة بين علماء البيانات على التحسين المتسلسل القائم على النموذج (SMBO).
في عام 2016 تم اعتماد خوارزمية Hyperband (يؤدي الرابط إلى صفحة خارج ibm.com)، وتم تصميمها بهدف تحسين البحث العشوائي من خلال اقتطاع استخدام تكوينات التدريب التي تفشل في تقديم نتائج قوية مع تخصيص المزيد من الموارد للتكوينات الإيجابية.
ويتم تحقيق هذا "التوقف المبكر" من خلال عملية التنصيف المتتابع، وهي عملية تقلل من مجموعة التكوينات عن طريق إزالة النصف الأضعف أداءً بعد كل جولة من التدريب. ويتم نقل أعلى 50% من كل دفعة إلى التكرارات التالية حتى يتبقى تكوين واحد من المعلمات الفائقة المثلى.
متوفر الآن استوديو مؤسسة من الجيل التالي لمنشئي الذكاء الاصطناعي لتدريب نماذج الذكاء الاصطناعي، والتحقق منها، وضبطها، ونشرها
استكشف مكتبة نماذج الأساس من IBM على منصة Watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.
IBM® Granite™ هو سلسلة من نماذج الذكاء الاصطناعي (AI) المصممة خصوصًا للأعمال، مبنية من الصفر بغرض المساعدة في ضمان توفير الثقة وقابلية التوسع في التطبيقات المستندة إلى الذكاء الاصطناعي. نماذج Granite مفتوحة المصدر متاحة اليوم.
في عصر الذكاء الاصطناعي التوليدي، يزداد الأثر المتوقع لهذه التقنية يومًا بعد يوم حيث تكشف المؤسسات عن إمكاناتها الجديدة. ومع ذلك، فإن المقياس الحقيقي لتقدم الذكاء الاصطناعي يتجاوز القدرات التقنية.
الذكاء الاصطناعي هو التقنية التي تمكّن أجهزة الكمبيوتر والآلات من محاكاة الذكاء البشري وقدرات حل المشكلات.
في سباق الهيمنة على الذكاء الاصطناعي، عادةً ما تكون النماذج الأكبر حجمًا هي الأفضل على الإطلاق. يؤدي تزايد البيانات والمعلمات إلى إنشاء أنظمة ذكاء اصطناعي أكبر حجمًا، والتي لا تكون أكثر قوةً فحسب، بل أكثر كفاءةً وسرعةً أيضًا، وتكون الأخطاء الناتجة عنها أقل بشكل عامّ من الأنظمة الأصغر حجمًا.