ما هو الضبط؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

ما هو الضبط؟

الضبط عبارة عن مجموعة من الأساليب لتقليل التجاوز في نماذج التعلم الآلي. وفي أسلوب الضبط، يتعمد الشخص حدوث خفض هامشي في دقة التدريب في مقابل زيادة قابلية التعميم.

يُشير التنظيم (Regularization) إلى مجموعة من الأساليب التي تهدف إلى معالجة فرط التخصيص في نماذج التعلم الآلي. وبهذا الشكل، يُعَد التنظيم طريقة لزيادة قابلية تعميم النموذج؛ أي أنه قادر على إنتاج تنبؤات دقيقة في مجموعات بيانات جديدة.¹ ويوفر التنظيم قابلية التعميم المتزايدة هذه لغرض زيادة خطأ التدريب. أو بمعنى آخر، تؤدي طرق التنظيم عادةً إلى تنبؤات أقل دقة في بيانات التدريب لكنها تؤدي إلى تنبؤات أكثر دقة في بيانات الاختبار.

يختلف الضبط عن التحسين. إذ يعمل الضبط في الأساس على زيادة قابلية تعميم النموذج بينما التحسين يزيد من دقة تدريب النموذج. وكلا المفهومين، الضبط والتحسين، مهمان في التعلم الآلي وعلوم البيانات.

توجد العديد من أشكال الضبط. وأي عنصر مطلوب للحصول على دليل كامل سيتطلب معالجة طويلة قد تعادل طول نصوص كتاب كامل. ومع ذلك، تقدم هذه المقالة نظرة عامة عن النظرية اللازمة لفهم غرض الضبط في التعلم الآلي علاوةً على توفير دراسة استقصائية للعديد من أساليب الضبط الشائعة.

مقايضة التحيز والتباين

هذا التنازل عن زيادة خطأ التدريب لتقليل خطأ الاختبار يُعرف باسم مقايضة التباين والتحيز. وتعد مقايضة التحيز والتباين مشكلة معروفة في التعلم الآلي. ومن الضروري أولاً تعريف "التحيز" و"التباين". لنقولها باختصار:

يقيس التحيز متوسط الفرق بين القيم المتوقعة والقيم الحقيقية. فمع زيادة التحيز، يتنبأ النموذج بدقة أقل في مجموعة بيانات التدريب. ويشير التحيز العالي إلى الخطأ الكبير في التدريب.
التباين يقيس الفرق بين التنبؤات في الإحداثات المتنوعة في نموذج واحد معين. ومع زيادة التباين، يتنبأ النموذج بدقة أقل بشأن البيانات غير المرئية. ويُشير التباين العالي إلى خطأ كبير في أثناء الاختبار والتحقق من الصحة.

إذن يمكن القول إن التحيز والتباين وبشكل عكسي يمثلان دقة النموذج في مجموعات التدريب والاختبار على التوالي.² ومن الواضح أن المطورين يهدفون إلى تقليل انحياز النموذج وتباينه. ولا يكون التخفيض المتزامن في كليهما ممكنًا دائمًا، مما يؤدي إلى الحاجة إلى الضبط. إذ يؤدي الضبط إلى تقليل تباين النموذج على حساب زيادة التحيز.

نموذج الانحدار مناسب

من خلال زيادة الانحياز وتقليل التباين، يؤدي الضبط إلى حل مشكلة التجهيز الزائد للنموذج. ويحدث التجهيز الزائد عندما يقل الخطأ في بيانات التدريب بينما يتوقف الخطأ في بيانات الاختبار عن التناقص أو يبدأ في الزيادة.³ بمعنى آخر، التجهيز الزائد يصف النماذج ذات التحيز المنخفض والتباين العالي. ومع ذلك، إذا أدى الضبط إلى الكثير من التحيز، فإن النموذج سيكون ناقص التجهيز.

ورغم اسمه، فإن نقص التخصيص لا يعني ما هو عكس فرط التخصيص. إذ يَصِف مصطلح "نقص التخصيص" النماذج التي تتميز بالتحيز العالي والتباين العالي. فالنموذج الذي يعاني من نقص التخصيص ينتج تنبؤات خطأ غير مُرضية في أثناء التدريب والاختبار. وينتج هذا غالبًا عن عدم كفاية البيانات أو المَعلمات الخاصة بالتدريب.

ومع ذلك، يمكن أن يؤدي الضبط إلى نقص تجهيز النموذج أيضًا. إذا حدث الكثير من التحيز خلال عملية الضبط، فيمكن أن يتوقف تباين النموذج عن الانخفاض، بل وقد يتوقف حتى عن الزيادة. قد يكون للضبط هذا التأثير خاصة على النماذج البسيطة، وهي النماذج ذات المعلمات القليلة. وعند تحديد نوع ودرجة الضبط المراد تنفيذه، على الشخص أن يضع في اعتباره مدى تعقيد النموذج، ومجموعة البيانات، ونحو ذلك.⁴

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

أنواع الضبط مع النماذج الخطية

الانحدار الخطي والانحدار اللوجستي كلاهما نموذجان تنبئيان يدعمان التعلم الآلي. يهدف الانحدار الخطي (أو المربعات الصغرى العادية) إلى قياس تأثير واحد أو أكثر من المؤشرات على إخراج معين والتنبؤ به من خلال إيجاد أفضل خط مناسب من خلال نقاط البيانات المقدمة (أي بيانات التدريب). ويهدف الانحدار اللوجستي إلى تحديد احتمالات الفئة عن طريق مخرجات ثنائية بالنظر إلى مجموعة من متغيرات التنبؤ. بمعنى آخر، يقدم الانحدار الخطي تنبؤات كمّية مستمرة بينما ينتج الانحدار اللوجستي تنبؤات فئوية منفصلة.⁵

وبطبيعة الحال، مع زيادة عدد متغيرات التنبؤ في أي من نموذجي الانحدار، فإن العلاقة بين المدخلات والمخرجات ليست دائمًا واضحة وتتطلب معالجة صيغة الانحدار. أدخل الضبط. توجد ثلاثة أشكال رئيسية لضبط نماذج الانحدار. لاحظ أن هذه القائمة ليست سوى مسح قصير. ويختلف تطبيق أساليب الضبط هذه سواءً في الانحدار الخطي أو اللوجستي بشكل دقيق.

انحدار لاسو(أو ضبط L1) هو أسلوب ضبط يطبِّق قيمًا جزائية على المعامِلات المرتبطة ذات القيمة العالية. ويقدِّم حدّ ضبط (يُسمى أيضًا الحد الجزائي) في دالة خسارة مجموع الأخطاء المربعة (SSE) الخاصة بالنموذج. وهذا الحد الجزائي هو القيمة المطلقة لمجموع المعامِلات. ويتم التحكم فيه بواسطة المَعلمة الفائقة lambda ‏(λ)، التي تقلل من عوامل ترجيح الخصائص المحددة إلى الصفر. ويؤدي انحدار لاسو إلى إزالة خصائص متعددة الخطية من النموذج تمامًا.
انحدار ريدج (أو ضبط L2) هو أسلوب ضبط يطبِّق قيمًا جزائية بشكل مماثل على المعامِلات ذات القيمة العالية من خلال إدخال حدّ جزائي في دالة خسارة SSE. ومع ذلك، فهو يختلف عن انحدار لاسو. أولًا، الحد الجزائي في انحدار ريدج هو المجموع المربع للمعامِلات وليس القيمة المطلقة للمعامِلات. ثانيًا، لا يؤدي انحدار ريدج إلى تفعيل اختيار الميزة. وبينما يستطيع الحد الجزائي لانحدار لاسو إزالة خصائص من النموذج عن طريق انكماش قيم المعامِل إلى الصفر، فإن انحدار ريدج سيؤدي فقط إلى انكماش عوامل ترجيح الميزات نحو الصفر ولكن ليس إلى الصفر أبدًا.
الضبط المرن الصافي يجمع في الأصل بين كلٍّ من انحدار لاسو وانحدار ريدج لكن مع إدراج الحد الجزائي L1 وL2 في دالة خسارة SSE. إذ يستمد كلٌّ من L2 وL1 قيمة الحد الجزائي الخاص بهما، على التوالي، عن طريق تربيع أو أخذ القيمة المطلقة لمجموع عوامل ترجيح الخاصية. وتُدرج الشبكة المرنة هاتين القيمتين الجزائيتين في معادلة دالة التكلفة (SSE). وبهذه الطريقة، تعالج الشبكة المرنة التعدُّد الخطي مع تمكين اختيار الميزات أيضًا.⁶

في الإحصاء، يُطلق على هذه الأساليب أيضًا اسم "معامل الانكماش"؛ لأنها تقلص قيم معامل التنبؤ في النموذج التنبئي. في كل الأساليب الثلاثة، تتحكم لامدا في قوة الحد الجزائي، ويمكن حسابه باستخدام أساليب التحقق المتبادل المتنوعة.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

شاهد جميع حلقات برنامج Mixture of Experts

أنواع الضبط في التعلم الآلي

مجموعة البيانات

زيادة البيانات هي أسلوب ضبط يتم فيه تعديل بيانات التدريب النموذجية. إذ يُوسّع حجم مجموعة التدريب بإنشاء عينات بيانات مصطنعة مستمدة من بيانات التدريب الموجودة مسبقًا. وتؤدي إضافة مزيد من العينات إلى مجموعة التدريب، خاصة في الحالات النادرة في بيانات العالم الحقيقي، إلى عرض النموذج لكمية أكبر وتنوع أكبر من البيانات التي يتعلم منها. وحديثًا اكتشفت أبحاث التعلم الآلي تعزيز البيانات للمصنفات، وخاصة بصفتها وسيلة لحل مجموعات البيانات غير المتوازنة.⁷ ومع ذلك، فإن تعزيز البيانات يختلف عن البيانات المصطنعة. فالبيانات المصطنعة تتضمن إنشاء بيانات اصطناعية جديدة بينما تعزيز البيانات ينتج نسخًا معدلة من بيانات موجودة مسبقًا بالفعل بغرض تنويع مجموعة البيانات وتكبيرها.

تمثيل رسومي لأساليب التعديل بغرض تنويع مجموعات الصور

تدريب النموذج

لعل التوقف المبكر هو أسلوب الضبط الأكثر سهولةً في التنفيذ. هذا لأنه، وباختصار، يحد من عدد التكرارات في أثناء تدريب النموذج. حيث يظل النموذج هنا يمر باستمرار عبر بيانات التدريب، ويتوقف بمجرد عدم وجود تحسن (بل وربما يتدهور أداؤه) في دقة التدريب والتحقق من الصحة. والهدف هو تدريب النموذج حتى يصل إلى أدنى خطأ تدريب ممكن يسبق مستوى استقرار أو زيادة في خطأ التحقق من الصحة.⁸

توجد العديد من حِزم Python للتعلم الآلي توفر خيارات لأوامر التدريب للتوقف المبكر. وفي الواقع، أحيانًا يكون التوقف المبكر هو الإعداد الافتراضي للتدريب.

تمثيل رسوم بيانية للتوقف المبكر فيما يتعلق بالتدريب ودقة التحقق من الصحة

Neural Networks

تُعَد الشبكات العصبية نماذج معقدة للتعلم الآلي وهي المحفز لكثير من تطبيقات وخدمات الذكاء الاصطناعي. إذ تتكون الشبكات العصبية من طبقة إدخال، وطبقة واحدة أو أكثر من الطبقات المخفية، وطبقة إخراج، وكل طبقة بدورها تتكون من عدة عُقد.

الإسقاط يضبط الشبكات العصبية بإسقاط العُقد عشوائيًا، إلى جانب اتصالات الإدخال والإخراج، من الشبكة في أثناء التدريب (الشكل 3). ويُدرِّب الإسقاط العديد من الأشكال المختلفة للبنية ذات الحجم الثابت، حيث يحتوي كل شكل على عُقد عشوائية مختلفة مُستبعدة من البنية. وتُستخدم شبكة عصبية واحدة دون إسقاط لغرض الاختبارات، باستخدام طريقة متوسط تقريبية مستمدة من بنى التدريب المعدَّلة عشوائيًا. وبهذه الطريقة، يقترب الإسقاط من تدريب عدد كبير من الشبكات العصبية ذات العديد من البنى المتنوعة.⁹

مقارنة الرسم البياني للشبكة العصبية وشبكة الإسقاط

تضاؤل الترجيح هو شكل آخر من أشكال الضبط المستخدَم للشبكات العصبية العميقة. إذ أنه يقلل من مجموع عوامل ترجيح الشبكة المربعة عن طريق معلمة الضبط، تمامًا مثل ضبط L2 في النماذج الخطية.¹⁰ لكن عند استخدامه في الشبكات العصبية، يكون لهذا التخفيض تأثير مشابه لضبط L1: حيث تنخفض عوامل ترجيح الخلية العصبية المختارة إلى الصفر.¹¹ ويؤدي هذا إلى إزالة العُقد على نحوٍ فعال من الشبكة، مما يقلل من تعقيد الشبكة من خلال التضاؤل.¹²

قد يبدو تضاؤل الترجيح مشابهًا ظاهريًا للإسقاط في الشبكات العصبية العميقة، لكن الحقيقة أن الأسلوبين مختلفان. أحد الاختلافات الأساسية هو أنه في حالة الإسقاط، تنمو القيمة الجزائية كثيرًا في عمق الشبكة في بعض الحالات، بينما القيمة الجزائية لتضاؤل الترجيح تنمو خطيًا. ويعتقد البعض أن هذا يسمح للإسقاط بتطبيق قيمة جزائية على تعقيد الشبكة على نحوٍ أكثر فعالية من تضاؤل الترجيح.¹³

وتخلط العديد من المقالات والبرامج التعليمية عبر الإنترنت على نحوٍ غير صحيح بين ضبط L2 وتضاؤل الترجيح. في الواقع، نرى البحوث الأكاديمية هنا غير متناسقة؛ فبعضها يميز بين L2 وتضاؤل الترجيح،¹⁴ بينما بعض البحوث يساوي بينهما،¹⁵ بينما هناك بحوث تتناقض في وصف العلاقة بينهما.¹⁶ يُعَد حل مثل هذه التناقضات في المصطلحات مجالاً مطلوبًا لكن للأسف لم يأخذ هذا الجانب حظه الكافي من البحث والنظر بما يفيد البحوث الأكاديمية المستقبلية.

علم البيانات وعمليات التعلم الآلي لقادة البيانات

تعاوَن مع قادة آخرين لتعزيز الركائز الثلاث الأساسية لعمليات التعلم الآلي (MLOps) والذكاء الاصطناعي الجدير بالثقة: الثقة في البيانات والثقة في النماذج والثقة في العمليات.

الحواشي

[1] Deep Learning, Goodfellow et al., The MIT Press, 2016

[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013

[3] Deep Learning, Goodfellow et al.

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023

[5] An Introduction to Statistical Learning, G. James et al.

[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016. Also, Regression: Models, Methods and Applications, Fahrmeir, Ludwig, et al. 2nd edition, Springer, 2021

[7] “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Ghiasi et al., CVPR, 2021

[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2nd Ed. 2012

[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting,” JMLR, Srivastava et al., 2014

[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016.

[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,” arXiv, Jan. 2023

[12] “Comparing Biases for Minimal Network Construction with Back-propagation,” Proceedings, Hanson and Pratt, 1988

[13] “Surprising properties of dropout in deep networks,” Helmbold, David and Long, Philip, JMLR, 2018

[14] “Three Mechanisms of Weight Decay Regularization,” Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018

[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks,” Helmbold, David and Long, Philip, ResearchGate, 2016

[16] Deep Learning, Goodfellow et al.

الموارد

طوِّر مستوى خبرتك في التعلم الآلي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

شرح التعلم الآلي

يشرح كتاب Techsplainers من IBM أساسيات التعلم الآلي، من المفاهيم الرئيسية إلى حالات الاستخدام الواقعية. حلقات واضحة وقصيرة تساعدك على تعلُّم الأساسيات بسرعة.

التفعيل المثمر للذكاء الاصطناعي: جني الأرباح وعائد الاستثمار باستخدام الذكاء الاصطناعي التوليدي

هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

استكشف IBM Granite

تُعَد IBM® Granite مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي تم تصميمها خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشِف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وآليات الحماية.

كيف تزدهر في عصر الذكاء الاصطناعي الجديد بثقة وثبات

تعمّق في العناصر الثلاثة ذات الأهمية البالغة لإستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai

حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي

الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي

اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

ما هو الضبط؟

المؤلفين

ما هو الضبط؟

مقايضة التحيز والتباين

نموذج الانحدار مناسب

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

شكرًا لك! لقد اشتركت بنجاح.

أنواع الضبط مع النماذج الخطية

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

أنواع الضبط في التعلم الآلي

مجموعة البيانات

تدريب النموذج

Neural Networks

الحواشي

الموارد