ما انحدار ريدج؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

ما انحدار ريدج؟

انحدار ريدج هو أسلوب من أساليب الضبط الإحصائي. يقوم بتصحيح الإفراط في التجهيز لبيانات التدريب في نماذج التعلم الآلي .

انحدار ريدج—المعروف أيضًا باسم ضبط L2—هو أحد أنواع الضبط العديدة لنماذج الانحدار الخطي. الضبط هو طريقة إحصائية لتقليل الأخطاء الناتجة عن فرط تخصيص بيانات التدريب. في انحدار ريدج، يتم تصحيح التعدد الخطي على وجه التحديد في تحليل الانحدار. ويُعد هذا مفيدًا عند تطوير نماذج التعلم الآلي التي تحتوي على عدد كبير من المعلمات، خاصة إذا كانت تلك المعلمات لها عوامل ترجيح عالية. في حين تركز هذه المقالة على ضبط نماذج الانحدار الخطي، لاحظ أن انحدار ريدج قد يُطبق أيضًا في الانحدار اللوجستي.

المشكلة: التعدد الخطي

معادلة الانحدار الخطي القياسية متعددة المتغيرات هي:

صيغة الانحدار الخطي متعدد المتغيرات القياسية

هنا، يمثل Y القيمة المتوقعة (المتغير التابع)، بينما يمثل X أي متغير تنبؤ (متغير مستقل)، أما B فهو معامل الانحدار المرتبط بهذا المتغير المستقل، وX0 هي قيمة المتغير التابع عندما يساوي المتغير المستقل صفرًا (ويسمى أيضًا نقطة التقاطع مع المحور y). لاحظ كيف تشير المعامِلات إلى العلاقة بين المتغير التابع وأي متغير مستقل محدد.

تشير العلاقة الخطية المتعددة إلى وجود علاقة شبه خطية بين اثنين أو أكثر من متغيرات التنبؤ. ضرب لنا مونتغمري وآخرون مثالاً مناسبًا على هذا، لنفترض أننا نُحلِّل مجموعة بيانات تسليم سلسلة توريد، حيث تحتوي مشاوير توصيل البضائع لمسافات طويلة بانتظام على عدد كبير من البضائع بينما تحتوي مشاوير توصيل البضائع لمسافات قصيرة دومًا على عدد بضائع أصغر. في هذه الحالة، ترتبط مسافة التوصيل وكمية البضائع خطيًا، كما هو موضح في الشكل 1. وهذا يؤدي لمشاكل عند استخدامها كمتغيرات مستقلة في نموذج تنبؤي واحد.

مخطط تشتت يوضح الارتباط الخطي بين المتغيرات المستقلة ومسافة طلب التوصيل والحجم

هذا مجرد مثال واحد على التعدد الخطي، وحل هذه المشكلة بسيط نسبيًا: وهو جمع بيانات أكثر تنوعًا (مثل:بيانات لمشاوير التوصيل لمسافات قصيرة مع مخزون كبير من البضائع). ومع ذلك، فإن جمع مزيد من البيانات لا يكون دائمًا حلاً قابلاً للتطبيق، كما هو الحال عندما تكون العلاقة الخطية المتعددة جوهرية في البيانات التي تمت دراستها. وتتضمن الخيارات الأخرى لإصلاح التعدد الخطي زيادة حجم العينة، أو تقليل عدد المتغيرات المستقلة، أو ببساطة نشر نموذج مختلف. ومع ذلك، لا تنجح مثل هذه الإصلاحات دومًا في إزالة التعدد الخطي، ويعمل انحدار ريدج كطريقة أخرى لتنظيم نموذج لمعالجة التعدد الخطي.1

كيف يعمل انحدار ريدج: خوارزمية الضبط

عند تطوير النماذج التنبؤية في البداية، غالبًا نحتاج إلى حساب المعامِلات، حيث لم يتم ذكر المعامِلات صراحة في بيانات التدريب. لتقدير المعامِلات، يمكننا استخدام مقدِّر معامل مصفوفة المربعات الصغرى الخطية (OLS):

مقدِّر معامل مصفوفة المربعات الصغرى الخطية

تتطلب معرفة عمليات هذه الصيغة الإلمام بصيغة المصفوفة. يكفي أن نقول إن هذه الصيغة تهدف إلى إيجاد الخط الأكثر ملاءمة لمجموعة بيانات معينة من خلال حساب المعامِلات لكل متغير مستقل، وتؤدي مجتمعة إلى أصغر مجموع مربعات متبقية (يسمى أيضًا مجموع الأخطاء التربيعية).2

يقيس مجموع المربعات المتبقية (RSS) مدى مطابقة نموذج الانحدار الخطي لبيانات التدريب. ويُمثّل بالصيغة التالية:

صيغة مجموع المربعات المتبقية

تقيس هذه الصيغة دقة التنبؤ بالنموذج لقيم الحقيقة الأساسية في بيانات التدريب. إذا كانت قيمة مجموع المربعات المتبقية = 0، فسوف يتنبأ النموذج بالمتغيرات التابعة بإتقان. ومع ذلك، فإن النتيجة صفر ليست مرغوبة دائمًا، حيث قد تشير إلى وجود تجهيز زائد في بيانات التدريب، خاصةً إذا كانت مجموعة بيانات التدريب صغيرة. وقد يكون التعدد الخطي هو أحد الأسباب وراء ذلك.

قد تكون تقديرات المعامِلات المرتفعة في كثير من الأحيان بمثابة أعراض للتجهيز الزائد.3 فإذا كان هناك متغيران أو أكثر يشتركان في ارتباط خطي مرتفع، فقد تقوم مصفوفة المربعات الصغرى الخطية (OLS) بإرجاع معامِلات ذات قيمة عالية بشكل خاطئ. وعندما يكون واحد أو أكثر من المعامِلات مرتفعًا جدًا، فستصبح مخرجات النموذج حساسة للتعديلات الطفيفة في بيانات الإدخال. أو بمعنى آخر، حدث تجهيز زائد للنموذج لمجموعة تدريب معينة ولهذا يفشل النموذج في التعميم الدقيق على مجموعات الاختبار الجديدة. ولذا يعتبر مثل هذا النموذج نموذجًا غير مستقر.4

يُعدِّل انحدار ريدج المربعات الصغرى الخطية (OLS) بحساب المعامِلات التي تفسر متغيرات التنبؤ المحتملين. وعلى وجه التحديد، يُصحِّح انحدار ريدج المعاملات ذات القيمة العالية عن طريق إدخال حدّ الضبط (غالبًا ما يسمى الحد الجزائي) في دالة RSS. هذا الحد الجزائي هو مجموع مربعات معاملات النموذج.ويُمثّل بالصيغة التالية:

صيغة الحد الجزائي L2

يُدرج الحد الجزائي L2 بصفته نهاية لدالة مجموع المربعات المتبقية (RSS)، مما يؤدي إلى صيغة جديدة، وهي مقدِّر انحدار ريدج. وبالتالي، يُتحكم في تأثيره على النموذج بواسطة المعلمة الفائقة لامدا (λ):

صيغة انحدار ريدج، أو صيغة مجموع المربعات المتبقية (RSS) ذات الحد الجزائي L2

تذكر أن المعاملات تشير إلى تشير إلى متغير تنبؤ معين (أي المتغير المستقل) على القيمة المتوقعة (أي المتغير التابع). وبمجرد إضافة الحد الجزائي L2 إلى صيغة مجموع المربعات المتبقية (RSS)، فإنه يُبطل المعاملات العالية بشكل خاص عن طريق تقليل جميع قيم المعاملات. وهذا هو ما يسمى في الإحصاء معامل الانكماش. وبالتالي، يحسب مقدِّر انحدار ريدج أعلاه معاملات الانحدار الجديدة التي تقلل من مجموع المربعات المتبقية (RSS) لنموذج معين. وهذا يقلل من تأثير كل متغير تنبؤ ويقلل من التجهيز الزائد في بيانات التدريب.6

لاحظ أن انحدار ريدج لا يؤدي إلى انكماش كل معامل بالقيمة ذاتها. وبدلاً من ذلك، يحدث انكماش للمعامِلات بما يتناسب مع حجمها الأولي. ومع زيادة λ، تنكمش المعامِلات ذات القيمة العالية بمعدل أكبر من المعامِلات ذات القيمة المنخفضة.7 وبالتالي، يتم توقيع جزاء على المعامِلات ذات القيمة العالية بدرجة أكبر من المعامِلات ذات القيمة المنخفضة.

انحدار ريدج مقابل انحدار لاسو

لاحظ أن تطبيق جزاء L2 يؤدي إلى انكماش المعاملات نحو الصفر، لكن ليس إلى الصفر المطلق أبدًا؛ رغم أن عوامل ترجيح خصائص النموذج قد تصبح صغيرة بشكل لا يذكر، إلا أنها لا تساوي الصفر أبدًا في انحدار ريدج. ويؤدي تقليل المعامل إلى الصفر إلى إزالة متغير التنبؤ المقترن بشكل فعال من النموذج. وهذا يسمى اختيار الخاصية، وهو وسيلة أخرى لتصحيح التعدد الخطي.8 ولأن انحدار ريدج لا يقلل معاملات الانحدار إلى الصفر، فإنه لا يؤدي إلى تحديد السمة.9 غالبًا ما يُشار إلى هذه النقطة على أنها أحد عيوب انحدار ريدج. وعلاوة على ذلك، يوجد عيب آخر يُذكر كثيرًا وهو عدم قدرة انحدار ريدج على فصل متغيرات التنبؤ في مواجهة التعدد الخطي الحاد.10

يعد انحدار لاسو—المعروف أيضًا باسم ضبط L1—أحد طرق الضبط الأخرى العديدة في الانحدار الخطي. ويعمل ضبط L1 عن طريق تقليل المعاملات إلى الصفر، مما يؤدي بشكل أساسي إلى إزالة تلك المتغيرات المستقلة من النموذج. وبالتالي فإن كلاً من انحدار لاسو وانحدار ريدج يقللان من تعقيد النموذج، وإن تم ذلك بوسائل مختلفة. إذ يقلل انحدار لاسو عدد المتغيرات المستقلة التي تؤثر في المخرجات. بينما يقلل انحدار ريدج من عامل ترجيح كل متغير مستقل على المخرجات.

أساليب ضبط الانحدار الأخرى

تعد الشبكة المرنة شكلاً إضافيًا من أشكال الضبط. فبينما يحصل انحدار ريدج على معامل الضبط من مجموع الأخطاء التربيعية، ويحصل انحدار لاسو على معامل الضبط من مجموع القيمة المطلقة للأخطاء، نجد أن الشبكة المرنة تدمج معاملي الضبط في دالة تكلفة RSS.11

يمكن أن يعمل انحدار المكونات الرئيسية (PCR) أيضًا كإجراء تنظيمي. وبينما نجد أنه بإمكان انحدار المكونات الرئيسية (PCR) حل العلاقة الخطية المتعددة، فإنه لا يؤدي ذلك عن طريق تطبيق جزاء على دالة RSS كما هو الحال في انحدار ريدج وانحدار لاسو. وبدلاً من ذلك، يُنتج انحدار المكونات الرئيسية (PCR) مجموعات خطية من متغيرات التنبؤ المترابطة بحيث يمكن من خلالها إنشاء نموذج مربعات صغرى جديد.12

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

انحدار ريدج في التعلم الآلي

تعقيد النموذج

في التعلم الآلي، يساعد انحدار ريدج في تقليل التجهيز الزائد الناجم عن تعقيد النموذج. ويمكن أن يحدث تعقيد النموذج بسبب:

  • نموذج يحتوي على عدد كبير جدًا من الخصائص. إن الخصائص هي تنبؤات للنموذج، ويطلق عليها أيضًا اسم "المعلمات" في التعلم الآلي. وغالبًا ما توصي البرامج التعليمية المتوفرة عبر الإنترنت بإبقاء عدد الخصائص أقل من عدد المثيلات في مجموعات بيانات التدريب. لكن لا يمكن تحقيق ذلك دومًا.
  • احتواء الخصائص على عدد كبير جدًا من عوامل الترجيح. يشير عامل ترجيح الخاصية إلى تأثير متغير تنبؤ معين في مخرجات النموذج. إذ أن ترجيح الخاصية المرتفع يكافئ معامل قيمة عالية.

لا تؤدي النماذج الأبسط في جوهرها أداءً أفضل من النماذج المعقدة. لكن عمومًا نجد أن تعقيد النموذج إلى درجة عالية قد يعوق قدرة النموذج على التعميم على بيانات جديدة خارج مجموعة التدريب.

ولأن انحدار ريدج لا يختار السمة، فلن يمكنه تقليل تعقيد النموذج عن طريق إزالة الخصائص. ولكن إذا كانت هناك سمة أو أكثر تؤثر بشدة على مخرجات النموذج، يمكن أن يؤدي انحدار ريدج إلى تقليص أوزان السمات العالية (أي المعاملات) عبر النموذج لكل حد جزائي L2. وهذا يقلل من تعقيد النموذج ويساعد في جعل تنبؤات النموذج أقل اعتمادًا على أي سمة واحدة أو أكثر.

مقايضة التحيز والتباين

في مصطلحات التعلم الآلي، يعد انحدار ريدج بمثابة إضافة تحيز إلى النموذج من أجل تقليل تباين هذا النموذج. وتعد مقايضة التحيز والتباين مشكلة معروفة في التعلم الآلي. لكن لفهم مقايضة التحيز والتباين، من الضروري أولاً معرفة معنى "التحيز" و"التباين" على التوالي في أبحاث التعلم الآلي.

باختصار: التحيز يقيس متوسط الفرق بين القيم المتوقعة والقيم الحقيقية؛ بينما التباين يقيس الفرق بين التنبؤات في الإحداثات المختلفة في نموذج معين. فمع زيادة التحيز، يتنبأ النموذج بدقة أقل في مجموعة بيانات التدريب. ومع زيادة التباين، يتنبأ النموذج بدقة أقل في مجموعات البيانات الأخرى. وبالتالي فإن التحيز والتباين يقيسان دقة النموذج في مجموعات التدريب والاختبار على التوالي. ومن الواضح أن المطورين يأملون في تقليل انحياز النموذج وتباينه. ومع ذلك، فإن التخفيض المتزامن في كليهما ليس ممكنًا دائمًا، وبالتالي هناك حاجة إلى أساليب ضبط مثل انحدار ريدج.

كما ذكرنا سابقًا، يقدم ضبط انحدار ريدج انحيازًا إضافيًا من أجل تقليل التباين. بمعنى آخر، تنتج النماذج التي ضبطها انحدار ريدج تنبؤات أقل دقة بشأن بيانات التدريب (تحيز أعلى) لكنها تنتج تنبؤات أكثر دقة على بيانات الاختبار (تباين أقل). هذه هي مقايضة التحيز والتباين. من خلال انحدار ريدج، يحدد المستخدمون مقدارًا من الخسارة المقبولة في دقة التدريب (تحيز أعلى) لزيادة تعميم نموذج معين (تباين أقل).13 وبهذه الطريقة، يساعد التحيز المتزايد في تحسين الأداء العام للنموذج.

تُحدَّد القوة الجزائية لـ L2، وبالتالي مقايضة تباين التحيز للنموذج، من خلال القيمة λ في معادلة دالة خسارة مقدّر انحدار ريدج. فإذا كانت تساوي صفرًا، فسيتبقى لدينا دالة للمربعات الصغرى العادية. ويؤدي هذا إلى إنشاء نموذج انحدار خطي قياسي دون أي ضبط. على العكس من ذلك، فإن قيمة λ الأعلى سوف تعني مزيدًا من الضبط. ومع زيادة λ، يزداد انحياز النموذج بينما يتناقص التباين. وبالتالي، عندما تساوي λ صفرًا، فإن النموذج يبالغ في تجهيز بيانات التدريب على نحوٍ زائد، لكن عندما تكون λ مرتفعة جدًا، فإن النموذج، على العكس، ينقُصُ تجهيزه لجميع البيانات.14

يساعد متوسط الخطأ التربيعي (MSE) في تحديد قيمة λ المناسبة. ويرتبط متوسط الخطأ التربيعي (MSE) ارتباطًا وثيقًا بـ RRS وهي وسيلة لقياس الفرق، في المتوسط، بين القيم المتوقعة والقيم الحقيقية. وكلما انخفض متوسط الخطأ التربيعي (MSE) في النموذج، زادت تنبؤاته دقة. لكن متوسط الخطأ التربيعي (MSE) يزيد مع زيادة λ. ومع ذلك، يُقال إنه توجد دائمًا قيمة λ أكبر من الصفر بحيث يكون متوسط الخطأ التربيعي (MSE) الذي تم الحصول عليه من خلال انحدار ريدج أصغر من ذلك الذي تم الحصول عليه من خلال المربعات الصغرى الخطية.15 إحدى الطرق لاستنتاج قيمة λ مناسبة هي إيجاد أعلى قيمة لـ λ لا تزيد من متوسط الخطأ التربيعي (MSE)، كما هو موضح في الشكل 2. ويمكن أن تساعد أساليب التحقق المتبادل الإضافية المستخدمين على تحديد قيم λ المثلى لضبط نموذجهم.16

علاقة نمذجة الرسم البياني بين متوسط الخطأ التربيعي (MSE)، والتحيز، والتباين، والحد الجزائي لامدا (lambda)

أمثلة على حالات الاستخدام

من الأفضل استخدام نماذج انحدار عند التعامل مع مجموعات البيانات التي تمتلك ميزتين مترابطة أو أكثر. إضافة إلى ذلك، تستخدم العديد من المجالات انحدار ريدج للتعامل مع النماذج التي تحتوي على عدد أكبر من متغيرات التنبؤ ومجموعات البيانات التدريبية الصغيرة.17 ويمكن أن تكون مثل هذه المواقف شائعة جدًا عند التعامل مع مجموعة متنوعة من البيانات.

الإحصاء الحيوي

غالبًا ما تتعامل البيولوجيا الحاسوبية والدراسات الجينية مع النماذج التي يفوق فيها عدد متغيرات التنبؤ عددًا كبيرًا من أحجام عينات مجموعة البيانات، خاصة عند التحقيق في التعبير الجيني. وهنا يوفر انحدار ريدج إحدى الوسائل لمعالجة هذا التعقيد النموذجي عن طريق تقليل الترجيح الإجمالي لهذه الخصائص المتعددة، وضغط النطاق التنبؤي للنموذج.

العقارات

يوجد عدد لا يحصى من متغيرات التنبؤ يحدد سعر البيع النهائي للمنزل، وكثير منها مترابطة، مثل عدد غرف النوم والحمامات. وهذه الخصائص المترابطة تؤدي بدرجة كبيرة إلى معاملات انحدار عالية وتجاوز بيانات التدريب. ويُصحِّح انحدار ريدج هذا الشكل من تعقيد النموذج بتقليل إجمالي عوامل ترجيح الخصائص إلى قيمة نهائية هي المتوقعة للنموذج.

هذان مجرد مثالين فقط في المجال الأكبر لعلم البيانات. لكن كما يوضح هذان المثالان، يمكنك استخدام انحدار ريدج بشكل أكثر فاعلية في المواقف التي يكون لديك فيها خصائص نموذج أكثر من عينات البيانات أو عندما يحتوي نموذجك على ميزتين أو أكثر من الخصائص المترابطة جيدًا.

أكاديمية الذكاء الاصطناعي

تسخير الذكاء الاصطناعي في العمل لخدمة العملاء

اكتشف كيف يمكن للذكاء الاصطناعي التوليدي إدخال السرور على العملاء من خلال تقديم تجربة أكثر سلاسة وزيادة إنتاجية المؤسسة في هذه المجالات الثلاثة الرئيسية: الخدمة الذاتية، والوكلاء البشريين، وعمليات مركز الاتصال.

الأبحاث الحديثة

البحث الحديث يستكشف نوعًا معدَّلاً من انحدار ريدج لغرض إجراء اختيار الخصائص.18 ويستخدم هذا الشكل المعدَّل من انحدار ريدج معلمات ضبط مختلفة في كل معامِل. وبهذه الطريقة، يمكن للشخص تطبيق قيمة جزائية على عوامل ترجيح السمات بشكل فردي، وبالتالي تنفيذ اختيار السمات من خلال انحدار ريدج.19

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا