ما هو معدل التعلم في التعلم الآلي؟

27 نوفمبر 2024

المؤلفين

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Gather

ما هو معدل التعلم في التعلم الآلي؟

معدل التعلم هو أحد المعلمات الفائقة التي تتحكم في مقدار تعديل نموذج التعلم الآلي لمعلماته في كل خطوة من خطوات خوارزمية التحسين الخاصة به. يمكن لمعدل التعلم أن يحدد ما إذا كان النموذج سيحقق أداءً مثاليًا أم سيخفق في التعلم أثناء عملية التدريب.

تهدف خوارزمية التحسين إلى تقليل دالة الفقد التي تقيس الفجوة بين تنبؤات النموذج والنتائج المتحققة. في كل مرة يقوم فيها النموذج بتشغيل خوارزمية التحسين الخاصة به، فإنه يحدّث معلماته بناء على النتائج. يُعرف معدل التعلم أيضًا باسم حجم الخطوة، ويُرمز له بالحرف اليوناني η، حيث يحدد مقدار التغيير المسموح به في تحديثات النموذج. 

يضمن معدل التعلم أن يكتسب النموذج المعرفة الكافية من التدريب لإجراء تعديلات فعالة على معلماته دون أن يؤدي ذلك إلى تصحيحات مفرطة. يمكن تشبيه هذه العملية بالنزول من على تل. لوصول إلى أسفل التل بأمان، يجب أن يتحرك الشخص بسرعة كافية لتحقيق تقدم ملموس، ولكن ليس بسرعة كبيرة بحيث يفقد توازنه ويتعثر. معدل فالتعلم الأمثل هو الذي يحدد سرعة نزول آمنة لتحقيق الأداء الأمثل دون فقدان التوازن. 

تمثل كل خطوة تدريبية عملية يقوم فيها النموذج بتحديث فهمه السابق لمجموعة البيانات الخاصة به. تكتسب الشبكة العصبية المزيد من المعرفة عن بيانات التدريب الخاصة بها مع كل تكرار لخوارزمية التحسين الخاصة بها. 

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما أهمية معدل التعلم؟

تتمثل أهمية معدل التعلم في أنه يوجه نماذج الذكاء الاصطناعي في التعلم الفعال من بيانات التدريب الخاصة بها. 

عندما يكون معدل التعلم منخفضًا، لا يتمكن النموذج من التعلم بشكل كافٍ عند كل خطوة. يؤدي ذلك إلى تحديث المعلمات ببطء شديد، مما يجعل النموذج يستغرق وقتًا طويلًا للوصول إلى التقارب. لكن هذا لا يعني أن معدل التعلم المرتفع هو الحل. 

عند استخدام معدل تعلم مرتفع، قد تقع الخوارزمية في مشكلة التجاوز (Overshooting)، حيث تبالغ في تصحيح أخطائها، مما يجعلها غير قادرة على الاستقرار عند القيم المثلى. في هذه الحالة، تحتاج الخوارزمية إلى معدل تعلم أصغر، ولكن ليس صغيرًا جدًا لدرجة يصبح فيها التعلم غير فعّال.

على سبيل المثال، تخيل كائنًا فضائيًا جاء إلى الأرض ليتعلم عن الحياة فيها. في البداية، يرى المخلوق الفضائي القطط، والكلاب، والخيول، والخنازير، والأبقار، ويستنتج أن جميع الحيوانات لها أربع أرجل. ثم يرى الكائن الفضائي دجاجة. وهنا يطرح سؤالًا: هل هذا المخلوق حيوان أيضاً؟ بناءً على معدل تعلم الكائن الفضائي، يمكن أن يصل إلى أحد الاستنتاجات الثلاثة التالية: 

  • عند معدل التعلم الأمثل، سيتمكن الكائن الفضائي من التوصل إلى استنتاجات صحيحة، مثل استنتاج أن الدجاج أيضًا من الحيوانات، مما يعني أن عدد الأرجل ليس المحدد الأساسي لما إذا كان الكائن حيًا أم لا. 

  • إذا كان معدل التعلم لدى الكائن الفضائي منخفضًا، فلن يتمكن من اكتساب المعرفة الكافية من عينة واحدة فقط. سيستنتج الكائن الفضائي أن الدجاج ليس حيوانًا لأنه لا يمتلك أربع أرجل. لا يسمح معدل التعلم الصغير لدى الكائن الفضائي بتحديث تفكيره إلى أن يرى المزيد من الدجاج.

  • عند معدل تعلم مرتفع، سوف يبالغ الكائن الفضائي في التصحيح. حيث قد يستنتج أنه نظرا لأن الدجاج من الحيوانات، ولأن الدجاج له ساقان، يجب أن تمتلك جميع الحيوانات ساقين. يعني معدل التعلم المرتفع أن النموذج تعلم "الكثير" في وقت واحد.

يؤدي اختلاف معدلات التعلم إلى نتائج تعلم مختلفة. فأفضل معدل تعلم هو الذي يسمح لخوارزمية التحسين بتحديث معلمات النموذج في الوقت المناسب دون تجاوز نقطة التقارب. 

ما هي المعلمات في التعلم الآلي؟

المعلمات هي متغيرات تكوين تتحكم في كيفية عمل نموذج التعلم العميق. يمكن تشبيه المعلمات بإعدادات النموذج من حيث أنها تحدد سلوكه ويمكن تعديلها لتحسين أداء النموذج.

المعلمات المكتسبة من النموذج

المعلمات التي يتعلمها النموذج، أو ما يسمى "أوزان النموذج"، هي عناصر داخلية في النموذج يتم تعلمها أثناء التدريب. في كل خطوة تدريبية، يقوم النموذج بتحديث معلماته الداخلية لتحسين الأداء. ويتم تحديد حجم التغييرات التي يجريها النموذج من خلال معدل التعلّم. وبالتالي، فإن طريقة ضبط معلمات النموذج تؤثر بشكل مباشر على أدائه.

عند الضبط الدقيق للنموذج، يتطلب إجراء تعديلات أصغر لأن النموذج قد خضع للتدريب مسبقًا. ويتطلب الضبط الدقيق عادة معدل تعلم أقل مقارنة بتدريب النموذج من البداية.

المعلمات الفائقة

المعلمات الفائقة هي قواعد خارجية تشكل بنية النموذج وعملية تدريبه. يتولى تكوين هذه المعلمات الأشخاص المسؤولون عن تدريب النموذج. ويمثّل معدل التعلم أحد هذه المعلمات الفائقة، وعادةً ما تتراوح قيمته بين 0.0 و1.0. 

توجد معلمتان فائقتان أساسيتان أخريان هما: 

  • الحلقة التدريبية: تشير إلى عدد المرات التي تمر فيها مجموعة البيانات التدريبية بالكامل عبر النموذج أثناء التدريب. تكتمل الحلقة التدريبية عندما يعالج النموذج كل عينة في بيانات التدريب الخاصة به مرة واحدة. وتحدد المعلمة الفائقة في الحلقة التدريبية عدد الحلقات التدريبية في عملية التدريب

    .
  • حجم الدفعة: يمكن تقسيم الحلقات التدريبية إلى أجزاء أصغر تسمى الدفعات. يقوم النموذج بتحديث أوزانه بعد كل دُفعة تدريبية.

الحلقة التدريبية، التي تحدد المدة الزمنية لعملية التدريب، وحجم الدُفعات، الذي يحدد عدد مرات تحديث أوزان النموذج أثناء التدريب. يتحكم معدل التعلم في حجم التعديلات التي يجريها النموذج بعد كل دفعة تدريبية. 

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

ما هي خوارزمية التحسين؟

خوارزمية التحسين، أو خوارزمية التعلم، هي عملية برمجية ُستخدم لتعليم نموذج التعلم العميق كيفية التعلم من بيانات التدريب الخاصة به وتحديث أوزانه. تتكون خوارزميات التعلم من دالة الفقد- المعروفة أيضا باسم دالة التكلفة أو دالة الخطأ - وطريقة لتحسين أوزان النموذج.

مع كل تكرار لخوارزمية التعلم، يزداد تحسين النموذج. وعندما يتعذر تحسين النموذج عل الرغم من استمرار التدريب، يقال إنه قد وصل إلى التقارب

الانحدار المتدرج

الانحدار المتدرج هو خوارزمية تحسين تُستخدم في تدريب نماذج التعلم الآلي، حيث تعتمد على دالة الفقد لحساب الفرق بين تنبؤات خوارزمية التعلم الآلي والقيم الفعلية. يشير التدرج إلى ميل الدالة، الذي يمثل قيمها المحتملة. 

الهدف من خوارزمية التحسين هو النزول على طول المنحدر إلى أدنى نقطة محلية له، حيث تُنتج الدالة أقل ناتج لها. لكن النقاط المحلية الدنيا ليست بالضرورة النقطة الدنيا العالمية الوحيدة للدالة، أو قيمتها الدنيا الشاملة. يستخدم علماء البيانات أساليب تكميلية، مثل الخوارزميات الأخرى والتنظيم، لمنع نموذج من التعثر عند نقطة دنيا محلية دون المستوى الأمثل حيث ينخفض ناتج دالة الفقد.

تشير عملية تحديث أوزان النموذج من خلال تقليل دالة الفقد إلى الانتشار العكسي (Backpropagation)، ويُعد الانحدار المتدرج طريقة شائعة لتنفيذ تقنية الانتشار العكسي.

في كل مرة تُحدِّث فيها الخوارزمية معلمات النموذج لتقليل دالة الفقد والانحدار على طول المنحدر، يقترب النموذج قليلًا من التقارب. يتحكم مُعدل التعلّم في هذا الانحدار عن طريق تحديد سرعة تحديث الخوارزمية لأوزان النموذج. 

هناك ثلاثة أنواع من الانحدار المتدرج: 

  • الانحدار المتدرج الدُفعي (Batch Gradient Descent) يقوم بحساب معدل الفقد لجميع العينات داخل مجموعة البيانات قبل تنفيذ تحديث الأوزان. يتميز هذا النوع بالاستقرار العالي، ولكنه ليس الأفضل دائمًا في تحقيق التقارب الأمثل.

  • يختار الانحدار المتدرج العشوائي (SGD) نقطة بيانات واحدة لكل تكرار، مما يسرّع عملية التدريب ويضيف درجة عالية من الدقة، لكنه قد يؤدي إلى عدم الاستقرار بسبب التحديثات المتكررة. يحتوي انحدار SGD على العديد من المتغيرات، مثل Adam و AdaGrad و RMSProp.

  • الانحدار المتدرج الدُفعي المصغر هو طريقة وسطية بين الانحدار المتدرج العشوائي والانحدار المتدرج الدفعي، حيث يختار مجموعة صغيرة من البيانات في كل تكرار بدلاً من نقطة بيانات واحدة. يوفر هذا الأسلوب توازنًا جيدًا بين تكرار التحديث، والسرعة، والاستقرار.

    كيفية تحديد معدل التعلم الأمثل

    يُعد تحديد مُعدل تعلّم جيد عملية تعتمد إلى حد كبير على التجربة والخطأ. لا توجد تقنية علم بيانات مضمونة تضمن مُعدل تعلّم أولي أمثل دون تقييم التقدم أثناء التدريب.

    تشمل الطرق الشائعة لتحديد معدل التعلم ما يلي: 

    • البحث الشبكي 

    • جداول معدل التعلم

    • معدل التعلم التكيفي

    • تحسين المعلمات الفائقة

    يعتمد تحسين مُعدل التعلّم بشكل كبير على المبادئ الأساسية للتضاؤل (decay) والزخم (momentum). تحسب العديد من مكتبات التعلم العميق التضاؤل والزخم نيابة عن المستخدمين. إحدى هذه المكتبات هي Keras API مفتوحة المصدر، المكتوبة بلغة Python مع دعم لـ TensorFlow و JAX و PyTorch

    • يؤدي التضاؤل إلى إبطاء معدل التعلم تدريجيًا مع تقدم التدريب. يسمح استخدام التضاؤل بفعالية للنموذج بالتعلم بسرعة في البداية، ثم يتم تقليل معدل التعلم بشكل تدريجي لتجنب تجاوز التقارب. 

    • الزخم هو القصور الذاتي لخوارزمية التحسين، حيث يزيد من معدل التعلم عندما يكون التدرج في نفس الاتجاه، مما يشير إلى أن النموذج لم يصل إلى التقارب بعد. كما يساعد على تجاوز الحدود الدنيا المحلية لمواصلة البحث عن الحل الأمثل. الزخم المرتفع يمكن أن يؤدي إلى تقارب أسرع لكنه قد يتجاوز النقاط المثلى، بينما قد يؤدي الزخم المنخفض إلى توقف التدريب عند نقاط غير مثالية. 

    البحث الشبكي

    البحث الشبكي هو أسلوب حسابي مكثف يُستخدم لتحديد معدل التعلم. يقوم علماء البيانات بإنشاء شبكة تحتوي على جميع معدلات التعلم المحتملة، ثم يتم اختبار كل معدل تعلم والتحقق منه. تُستخدم عملية التحقق لاختبار النموذج المدرب على مجموعة بيانات جديدة، مما يسمح بتحديث المعلمات الفائقة الخاصة به

    .

    على الرغم من أن البحث الشبكي يُسهِّل عملية تقييم شاملة لمعدل التعلم، إلا أنه يستهلك الكثير من الوقت ويتطلب قدرًا كبيرًا من الموارد الحوسبية.

    جداول معدل التعلم

    تقوم جداول معدل التعلم بتحديث معدل التعلم أثناء عملية التدريب وفقًا لإحدى الخطط العديدة المحددة مسبقًا. تتضمن جداول معدل التعلم الشائعة ما يلي: 

    • معدل التعلم الثابت

    • التضاؤل المعتمد على الزمن

    • التضاؤل المتدرج

    • التضاؤل الأُسِّي

    • التضاؤل متعدد الحدود

    معدل التعلم الثابت

    معدل التعلم الثابت هو معدل لا يتغير طوال مُدَّة التدريب. عند استخدام معدل التعلم الثابت، تبقى قيمة الزخم والتضاؤل ثابتة أيضًا أثناء التدريب. يُستخدم معدل التعلم الثابت باعتباره معيارًا مرجعيًا لاختبار استراتيجيات معدل التعلم الأخرى ومقارنتها.

    التضاؤل المعتمد على الزمن

    يقوم جدول التعلم المعتمد على الزمن بتخفيض معدل التعلّم بعد عدد محدد مسبقًا من حلقات التدريب (epochs) أو في حلقات محددة. يعتمد مقدار تضاؤل معدل التعلم على معدل التعلم في الدورة السابقة. يستند جدول التعلم النموذجي المستند إلى الوقت إلى عامل يتناسب عكسيًا مع عدد الحلقات التدريبية.

    التضاؤل المتدرج

    يقلل التضاؤل المتدرج من معدل التعلم بعامل محدد مسبقًا، مثل النصف، بعد عدد محدد من حلقات التدريب.

    التضاؤل الأُسِّي

    في الجدول الزمني للتضاؤل الأسي، تتناقص معدلات التعلم وفق نمط أسي بعد عدد محدد من الحلقات التدريبية. بخلاف ذلك، فإن هذه الجداول الزمنية تشبه إلى حد كبير الجداول الزمنية للتضاؤل المتدرج."

    التضاؤل متعدد الحدود

    أما في الجدول الزمني للتضاؤل متعدد الحدود، فيتم تحديد معدل التضاؤل من خلال دالة متعددة الحدود تعتمد على الحلقة التدريبية الحالية. يؤدي ضرب الحلقة التدريبية في أسٍ أعلى إلى زيادة معدل التضاؤل، في حين يحافظ الأس الأصغر على معدل تضاؤل أكثر استقرارًا.

    جدول معدل التعلم الدوري

    الجدول الزمني الدوري لمعدل التعلم يحدد حدًا أدنى وحدًا أقصى لمعدل التعلم، ثم يقوم بالتبديل بينهما. على سبيل المثال، يزيد الجدول الزمني المثلثي معدل التعلم خطيًا من الحد الأدنى إلى الحد الأقصى ثم يعود إلى الحد الأقصى مرةً أخرى وفقًا لقيمة ثابتة. في حين تعتمد بعض الجداول الأخرى على دالة جيب التمام، أو دالة الجيب أو الدالة القطعية.

    معدل التعلم التكيفي

    تقوم خوارزميات التعلم التكيفي بضبط المعلمات الفائقة ديناميكيًا استجابةً للظروف الحالية أو التكرارات السابقة. على النقيض من ذلك، فإن الجداول الزمنية لمعدلات التعلم تعتمد جميعها على المعلمات الفائقة المحددة مسبقًا. 

    تعتمد العديد من أساليب التعلم التكيفي على متغيرات خوارزمية الانحدار المتدرج العشوائي (SGD). ومن بين أبرز خوارزميات التعلم التكيفي: 

    • AdaGrad: تعمل عائلة AdaGrad (التدرج التكيفي) من الخوارزميات، التي تم تقديمها في عام 2011، على تحديث معدل التعلم لكل معلمة بشكل منفصل. عادةً ما تنشئ علاقة عكسية بين معدل التعلم وتكرار الميزات، مما يسمح للنموذج بالتركيز على الميزات الأكثر صلة في مجموعة البيانات.

    • RMSProp: تعمل خوارزمية RMSProp (انتشار متوسط الجذر التربيعي) على ضبط معدل التعلم لكل معلمة وفقًا للمتوسط المتحرك لمربعات كل انحدار متدرج. تحسن هذه الخوارزمية أداء AdaGrad من خلال تجاهل القيم القديمة للانحدار المتدرج، مما يزيد من الاستقرار ويؤدي إلى تقارب أسرع.

    • Adam: تعمل خوارزمية Adam (تقدير العزم التكيفي)، التي تم تقديمها في عام 2014، على الجمع بين الزخم وانتشار متوسط الجذر التربيعي (RMSProp) لضبط معدل التعلم لكل معلمة استنادًا إلى الانحدارات المتدرجة السابقة. أضافت الإصدارات اللاحقة من Adam ميزة البدء التدريجي، حيث يزداد معدل التعلم تدريجيًا في بداية التدريب.

    تحسين المعلمات الفائقة

    تشير

    تحسين المعلمة الفائقة، أو ضبط المعلمة الفائقة، إلى عملية تحديد التكوين الأمثل لجميع المعلمات الفائقة، بما في ذلك معدل التعلم. تعمل خوارزميات ضبط المعلمات الفائقة على أتمتة عملية تكوين المعلمات الفائقة المثلى، حيث تفضل كل خوارزمية معلمات فائقة معينة على غيرها. 

    يتيح البحث عن التكوين الأمثل الشامل للمعلمات الفائقة إمكانية النظر في كيفية تأثير كل معلمة فائقة على الأخرى. ومع ذلك، يمكن أن يصبح هذا النهج مكلفًا من الناحية الحسابية، خاصةً عند التعامل مع عدد كبير من المعلمات الفائقة.

    حلول ذات صلة
    ®IBM® watsonx.ai

    تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

    اكتشف watsonx.ai
    حلول الذكاء الاصطناعي

    استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

    استكشف حلول الذكاء الاصطناعي
    الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

    أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

    استكشف خدمات الذكاء الاصطناعي
    اتخِذ الخطوة التالية

    احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

    استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا