ما الذي يعنيه ضبط النموذج؟

منظر خلفي لمهندس الصوت يتلاعب بلوحة المزج

المؤلفين

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

ما الذي يعنيه ضبط النموذج؟

يعمل ضبط النموذج على تحسين المعلمات الفائقة لنموذج التعلم الآلي للحصول على أفضل أداء تدريبي. تتضمن العملية إجراء تعديلات حتى يتم العثور على المجموعة المثلى من قيم المعلمات الفائقة، مما يؤدي إلى تحسين الدقة وجودة التوليد ومقاييس الأداء الأخرى.

نظرا لأن ضبط النموذج يحدد المعلمات الفائقة المثلى للنموذج، فإنه يُعرف أيضًا باسم تحسين المعلمات الفائقة، أو بدلًا من ذلك، ضبط المعلمات الفائقة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما المقصود بالمعلمات الفائقة؟

المعلمات الفائقة هي متغيرات تكوين النموذج التي لا يمكن اشتقاقها من بيانات التدريب. تحدد هذه المتغيرات السمات الرئيسية وسلوك النموذج. تتحكم بعض المعلمات الفائقة، مثل معدل التعلم، في سلوك النموذج أثناء التدريب. يحدد البعض الآخر طبيعة النموذج نفسه، مثل المعلمات الفائقة التي تحدد عدد الطبقات في الشبكة العصبية.

يجب أن يقوم علماء البيانات بتكوين قيم المعلمات الفائقة لنموذج التعلم الآلي (ML) قبل بدء التدريب. يعد اختيار المجموعة الصحيحة من المعلمات الفائقة في وقت مبكر أمرًا ضروريًا لتدريب نموذج التعلم الآلي (ML) الناجح.

المعلمات الفائقة مقابل معلمات النموذج

معلمات النموذج، أو أوزان النموذج، هي المتغيرات التي تكتشفها نماذج الذكاء الاصطناعي (AI) أثناء التدريب. تتعلم خوارزميات الذكاء الاصطناعي العلاقات والأنماط والتوزيعات الأساسية لمجموعات بيانات التدريب الخاصة بها، ثم تطبق هذه النتائج على البيانات الجديدة لإجراء تنبؤات ناجحة.

عندما تخضع خوارزمية التعلم الآلي للتدريب، فإنها تقوم بتعيين وتحديث معلماتها. تمثل هذه المعلمات ما يتعلمه النموذج من مجموعة البيانات الخاصة به والتي تتغير بمرور الوقت مع كل تكرار لخوارزمية التحسين الخاصة به.

لماذا يعتبر ضبط النموذج مهمًا؟

يعد ضبط النموذج مهمًا بسبب كيفية تأثير قيم المعلمات الفائقة بشكل مباشر على أداء النموذج. يؤدي التكوين الجيد للمعلمات الفائقة إلى تعلم النماذج بشكل أفضل أثناء التدريب.

بدون ضبط جيد، يمكن أن يصبح النموذج عرضة لفرط التخصيص—عندما يلتصق بشكل وثيق ببيانات التدريب الخاصة به ولا يستطيع التكيف مع مجموعات بيانات جديدة. يمكن أن تتضمن أوجه القصور الأخرى التحيز المفرط للنموذج أو التباين.

لكل خوارزمية تعلم آلي مجموعتها المثلى من المعلمات الفائقة، بعضها يؤثر على الأداء أكثر من البعض الآخر. تقييد ضبط النموذج على مجموعة أساسية من المعلمات الفائقة الأكثر تأثيرًا يمكن أن يقلل من متطلبات الوقت والموارد الحاسوبية.

      فرط التخصيص

      يحدث فرط التخصيص عندما يكون النموذج معقدًا للغاية بالنسبة لبيانات التدريب الخاصة به. تخلق معلماته الفائقة شبكة عصبية بها طبقات كثيرة جدًا أو بها عدد كبير جدًا من المعلمات القابلة للتدريب. مع فرط التخصيص، يتكيف النموذج بشكل محكم للغاية مع مجموعة بيانات التدريب الخاصة به. لا يمكن للنموذج المفرط التخصيص أن يتكيف مع البيانات الجديدة لأنه فشل في التعميم من بيانات التدريب الخاصة به.

      تخيل طالبين في فصل دراسي. يتعلم أحد الطلاب من خلال حفظ الحقائق، والآخر من خلال فهم المفاهيم الأساسية التي يتم تدريسها. حتى الآن، حقق كلاهما أداءً جيدًا في الاختبارات التي تغطي مادة المقرر الدراسي. ولكن ماذا يحدث عندما يحتاجون إلى تطبيق تعلمهم على مواضيع جديدة؟

      الطالب الذي يمكنه التعميم سينقل بنجاح ما تعلمه، بينما قد يكافح الطالب الذي يعتمد على الذاكرة لفعل الشيء نفسه. لقد "بالغوا في مطابقة" فهمهم لتفاصيل محتوى الفصل الدراسي بشكل مفرط، بينما فشلوا في استيعاب المبادئ الأساسية.

      التحيز

      التحيز هو الفجوة بين تنبؤات النموذج والنتائج الفعلية في العالم الحقيقي. بينما يمكن أن ينشأ التحيز من مجموعات بيانات تدريبية معيبة، ينتج التحيز أيضًا عن ضبط النموذج بشكل غير مثالي—النموذج غير قادر على التعلم بشكل جيد، حتى عندما تكون بيانات التدريب قابلة للتطبيق.

      تتجاهل النماذج ذات التحيز العالي التفاصيل الدقيقة في بيانات التدريب ويمكن أن تفشل في إنشاء تنبؤات دقيقة أثناء التدريب. تكون الخوارزميات الأكثر بساطة، مثل الانحدار، أكثر عرضة للتحيز العالي لأنها لا تستطيع التقاط علاقات أكثر تعقيدًا في بيانات التدريب الخاصة بها.

      إن اختيار الخوارزمية المناسبة لمهمة معينة هو الخطوة الأولى نحو الحصول على أداء جيد، حتى قبل البدء في ضبط النموذج.

      التباين

      يصور التباين بشكل عكسي اتساق تنبؤات النموذج. يعني التباين الأكبر أن النموذج لديه تنبؤات أقل اتساقًا مع البيانات غير المرئية، على الرغم من أنه غالبًا ما يكون أداؤه جيدًا مع مجموعات بيانات التدريب. تعاني النماذج ذات التباين العالي من فرط التخصيص—لا يمكنها نقل ما تعلمته من بيانات التدريب إلى بيانات جديدة.

      التنظيم هو أسلوب يقلل من فرط التخصيص عن طريق تحويل نسبة التحيز والتباين لصالح تحيز أكبر. يدير ضبط النموذج الجيد المفاضلة بين التحيز والتباين للحصول على تنبؤات مثالية في العالم الحقيقي.

      Mixture of Experts | 28 أغسطس، الحلقة 70

      فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

      انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

      ما طريقة عمل ضبط النموذج؟

      يعمل ضبط النموذج من خلال اكتشاف تكوين المعلمات الفائقة التي تؤدي إلى أفضل النتائج التدريبية. في بعض الأحيان، عند إنشاء نماذج أصغر وبسيطة، يمكن لعالم البيانات تكوين المعلمات الفائقة يدويًا مسبقًا. لكن المحولات والنماذج المعقدة الأخرى يمكن أن تحتوي على آلاف التركيبات الممكنة للمعلمات الفائقة.

      في ظل وجود العديد من الخيارات، يمكن لعلماء البيانات الحد من مساحة البحث في المعلمات الفائقة لتغطية جزء من التركيبات المحتملة التي من المرجح أن تحقق أفضل النتائج. ويمكنهم أيضًا استخدام أساليب آلية لاكتشاف المعلمات الفائقة المثلى خوارزميًا لحالة الاستخدام المقصودة.

        طرق ضبط النموذج

        تشمل طرق ضبط النموذج الأكثر شيوعًا ما يلي:

        • البحث الشبكي

        • البحث العشوائي

        • التحسين البايزي

        • خوارزمية Hyperband

        البحث الشبكي

        البحث الشبكي هو طريقة ضبط النموذج "بالقوة الغاشمة". يقوم علماء البيانات بإنشاء مساحة بحث تتكون من كل قيمة ممكنة من قيم المعلمات الفائقة. بعد ذلك، تنتج خوارزمية البحث الشبكي جميع مجموعات المعلمات الفائقة المتاحة. يتم تدريب النموذج والتحقق من صحته لكل مجموعة من المعلمات الفائقة، مع اختيار النموذج الأفضل أداءً للاستخدام.

        نظرًا لأنه يختبر جميع قيم المعلمات الفائقة المحتملة بدلًا من مجموعة فرعية أصغر، فإن البحث الشبكي هو طريقة ضبط شاملة. الجانب السلبي لهذا النطاق الموسع هو أن البحث الشبكي يستغرق وقتًا طويلًا ويحتاج إلى الكثير من الموارد.

          البحث العشوائي

          بدلاً من اختبار كل تكوين ممكن للمعلمات الفائقة، تختار خوارزميات البحث العشوائي قيم المعلمات الفائقة من توزيع إحصائي للخيارات المحتملة. يقوم علماء البيانات بتجميع قيم المعلمات الفائقة الأكثر احتمالاً، مما يزيد من فرص الخوارزمية في اختيار خيار قابل للتطبيق.

          البحث العشوائي أسرع وأسهل في التنفيذ من البحث الشبكي. ولكن نظرًا لعدم اختبار كل مجموعة، فليس هناك ما يضمن أنه سيتم العثور على أفضل تكوين فردي للمعلمة الفائقة.

          التحسين البايزي

          على عكس عمليات البحث الشبكي والعشوائي، يختار التحسين البايزي قيم المعلمات الفائقة بناءً على نتائج المحاولات السابقة. تستخدم الخوارزمية نتائج اختبار قيم المعلمات الفائقة السابقة للتنبؤ بالقيم التي من المحتمل أن تؤدي إلى نتائج أفضل.

          يعمل التحسين البايزي من خلال بناء نموذج احتمالي لدالة الهدف. تصبح هذه الدالة البديلة أكثر كفاءة بمرور الوقت مع تحسن نتائجها—فهي تتجنب تخصيص الموارد لقيم المعلمات الفائقة الأقل أداءً بينما تتوجه إلى التكوين الأمثل.

          تُعرف تقنية تحسين النموذج بناءً على جولات الاختبار السابقة باسم التحسين المتسلسل القائم على النموذج (SMBO).

            خوارزمية Hyperband

            تعمل Hyperband على تحسين سير عمل البحث العشوائي من خلال التركيز على تكوينات المعلمات الفائقة الواعدة مع إجهاض عمليات البحث الأقل قابلية للتطبيق. في كل تكرار للاختبار، تزيل خوارزمية hyperband النصف الأسوأ أداءً من جميع التكوينات المختبرة.

            يحافظ نهج "التنصيف المتتالي" الخاص بـ Hyperband على التركيز على التكوينات الواعدة حتى يتم اكتشاف الأفضل من بين مجموعة المرشحين الأصلية.

            ضبط النموذج مقابل تدريب النموذج

            بينما ضبط النموذج هو عملية اكتشاف المعلمات الفائقة المثلى، فإن تدريب النموذج هو عندما يتم تعليم خوارزمية التعلم الآلي لتحديد الأنماط في مجموعة بيانات التدريب الخاصة بها وإجراء تنبؤات دقيقة على بيانات جديدة.

            تستخدم عملية التدريب خوارزمية تحسين لتقليل دالة الخسارة، أو دالة الهدف، والتي تقيس الفجوة بين توقعات النموذج والقيم الفعلية. الهدف هو تحديد أفضل مجموعة من أوزان النموذج والتحيز لأدنى قيمة ممكنة لدالة الهدف. تقوم خوارزمية التحسين بتحديث أوزان النموذج بشكل دوري أثناء التدريب.

            تعمل عائلة خوارزميات تحسين الانحدار التدرجي عن طريق النزول في تدرج دالة الخسارة لاكتشاف قيمتها الدنيا: النقطة التي يكون فيها النموذج أكثر دقة. الحد الأدنى المحلي هو الحد الأدنى للقيمة في منطقة محددة، ولكنه قد لا يكون الحد الأدنى العمومي للدالة—أدنى قيمة مطلقة.

            ليس من الضروري دائمًا تحديد الحد الأدنى العام لدالة الخسارة. يُقال إن النموذج قد وصل إلى التقارب عندما يتم تقليل دالة الخسارة بنجاح.

            التحقق المتبادل والاختبار وإعادة التدريب

            بعد التدريب، تخضع النماذج تحقق المتبادل—أي التحقق من نتائج التدريب مع جزء آخر من بيانات التدريب. تتم مقارنة تنبؤات النموذج بالقيم الفعلية لبيانات التحقق من الصحة. ينتقل النموذج الأعلى أداءً بعد ذلك إلى مرحلة الاختبار، حيث يتم فحص تنبؤاته مرة أخرى للتأكد من دقتها قبل نشره. يعد التحقق المتبادل والاختبار ضروريان لتقييم النماذج اللغوية الكبيرة (LLM).

            إعادة التدريب هي جزء من دورة حياة الذكاء الاصطناعي لعمليات التعلم الآلي (MLOps) حيث يتم باستمرار وبشكل تلقائي إعادة تدريب النموذج بمرور الوقت للحفاظ على أدائه في أفضل حالاته.

            ضبط النموذج مقابل الضبط الدقيق

            ضبط النموذج يحدد أفضل قيم المعلمات الفائقة للتدريب، بينما الضبط الدقيق هو عملية تعديل نموذج أساسي مُدَرَّب مسبقًا لمهام محددة لاحقة. الضبط الدقيق هو نوع من نقل التعلم—عندما يتم تكييف التعلم الموجود مسبقًا للنموذج مع المهام الجديدة.

            مع الضبط الدقيق، يتم تدريب النموذج الذي تم تدريبه مسبقًا مرة أخرى على مجموعة بيانات أصغر وأكثر تخصصًا وذات صلة بحالة الاستخدام المقصودة للنموذج. في البداية، قد يؤدي تدريب نموذج على مجموعة بيانات صغيرة إلى مخاطر فرط التخصيص، لكن التدريب على مجموعة بيانات كبيرة ومعممة يساعد في التخفيف من هذه المخاطر.

            أمثلة على المعلمات الفائقة

            في حين أن كل خوارزمية لها مجموعتها الخاصة من المعلمات الفائقة، يتم مشاركة العديد منها عبر خوارزميات مماثلة. تتضمن المعلمات الفائقة الشائعة في الشبكة العصبية التي تدعم النماذج اللغوية الكبيرة (LLMs) ما يلي:

            • معدل التعلم

            • تضاؤل معدل التعلم

            • الدورات

            • حجم الدفعة

            • الزخم

            • عدد الطبقات المخفية

            • العُقد لكل طبقة

            • دالة التنشيط

            معدل التعلم

            يحدد معدل التعلم مدى سرعة تحديث النموذج لأوزانه أثناء التدريب. يعني معدل التعلم العالي أن النموذج يتعلم بشكل أسرع ولكن مع خطر تجاوز الحد الأدنى المحلي لدالة الخسارة. وفي الوقت نفسه، يمكن أن يؤدي معدل التعلم المنخفض إلى زيادة وقت التدريب، مما يزيد من متطلبات الموارد والتكاليف.

            تضاؤل معدل التعلم

            يعد تضاؤل معدل التعلم أحد المعلمات الفائقة التي تعمل على إبطاء معدل تعلم خوارزمية التعلم الآلي بمرور الوقت. يقوم النموذج بتحديث معلماته بسرعة أكبر في البداية، ثم بدقة أكبر مع اقترابه من التقارب، مما يقلل من خطر التجاوز.

            الدورات

            يتضمن تدريب النموذج تعريض النموذج لبيانات التدريب الخاصة به عدة مرات بحيث يقوم بتحديث أوزانه بشكل متكرر. تحدث الحقبة في كل مرة يعالج فيها النموذج مجموعة بيانات التدريب بأكملها، وتحدد المعلمات الفائقة للحقب عدد الحقب التي يتكون منها عملية التدريب.

            حجم الدفعة

            لا تعالج خوارزميات التعلم الآلي مجموعات البيانات الخاصة بها بالكامل في كل تكرار لخوارزمية التحسين. بدلًا من ذلك، يتم تقسيم بيانات التدريب إلى دفعات، مع تحديث أوزان النموذج بعد كل دفعة. يحدد حجم الدفعة عدد عينات البيانات في كل دفعة.

            الزخم

            الزخم هو ميل خوارزمية التعلم الآلي لتحديث أوزانها في نفس اتجاه التحديثات السابقة. فكر في الزخم كإيمان الخوارزمية الراسخ بتعلمها. الزخم العالي يقود الخوارزمية إلى تقارب أسرع مع خطر تجاوز الحد الأدنى المحلي الهام. وفي الوقت نفسه، يمكن أن يتسبب الزخم المنخفض في تذبذب الخوارزمية ذهابًا وإيابًا مع تحديثاتها، مما يؤدي إلى تعطيل تقدمها.

            عدد الطبقات المخفية

            تحاكي الشبكة العصبية بنية الدماغ البشري وتحتوي على طبقات متعددة من الخلايا العصبية المترابطة أو العُقد. هذا التعقيد هو ما يسمح للنماذج المتقدمة، مثل نماذج المحولات، بالتعامل مع المهام التوليدية المعقدة. يؤدي وجود طبقات أقل إلى إنشاء نموذج أكثر رشاقة، ولكن وجود طبقات أكثر يفتح الباب أمام مهام أكثر تعقيدًا.

            العُقد لكل طبقة

            تحتوي كل طبقة من الشبكة العصبية على عدد محدد مسبقًا من العُقد. مع زيادة عرض الطبقات، تزداد قدرة النموذج على التعامل مع العلاقات المعقدة بين نقاط البيانات ولكن على حساب متطلبات حاسوبية أكبر.

            دالة التنشيط

            دالة التنشيط هي معلمة فائقة تمنح النماذج القدرة على إنشاء حدود غير خطية بين مجموعات البيانات. عندما يكون من المستحيل تصنيف نقاط البيانات بدقة إلى مجموعات يفصل بينها خط مستقيم، فإن التنشيط يوفر المرونة اللازمة لتقسيمات أكثر تعقيدًا.

            شبكة عصبية بدون دالة تنشيط هي بشكل أساسي نموذج انحدار خطي.

            حلول ذات صلة
            ®IBM® watsonx.ai

            تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

            استكشف watsonx.ai
            حلول الذكاء الاصطناعي

            استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

            استكشف حلول الذكاء الاصطناعي
            الاستشارات والخدمات في مجال الذكاء الاصطناعي

            تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

            استكشف خدمات الذكاء الاصطناعي
            اتخِذ الخطوة التالية

            احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

            استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا