ما انحدار ريدج؟

21 نوفمبر 2023

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

ما انحدار ريدج؟

انحدار ريدج هو أسلوب من أساليب الضبط الإحصائي. حيث يصحح الملاءمة الزائدة في بيانات التدريب في نماذج التعلم الآلي.

انحدار ريدج—المعروف أيضًا باسم ضبط L2—هو أحد أنواع الضبط العديدة لنماذج الانحدار الخطي. الضبط هو طريقة إحصائية لتقليل الأخطاء الناتجة عن الإفراط في الملاءمة. في انحدار ريدج، يتم تصحيح التعدد الخطي على وجه التحديد في تحليل الانحدار. ويُعد هذا مفيدًا عند تطوير نماذج التعلم الآلي التي تحتوي على عدد كبير من المعلمات، خاصة إذا كانت تلك المعلمات لها عوامل ترجيح عالية. في حين تركز هذه المقالة على ضبط نماذج الانحدار الخطي، لاحظ أن انحدار ريدج قد يُطبق أيضًا في الانحدار اللوجستي.

المشكلة: التعدد الخطي

معادلة الانحدار الخطي القياسية متعددة المتغيرات هي:

هنا، Y هي القيمة المتوقعة (المتغير التابع)، X هي أي متغير تنبؤ (متغير مستقل)، أما B هو معامل الانحدار المرتبط بهذا المتغير المستقل، و X0 هي قيمة المتغير التابع عندما يساوي المتغير المستقل صفرًأ (ويسمى أيضًا نقطة التقاطع مع المحور y). لاحظ كيف تحدد المعامِلات العلاقة بين المتغير التابع ومتغير مستقل محدد.

تشير التعدد الخطي إلى وجود علاقة شبه خطية بين اثنين أو أكثر من متغيرات التنبؤ. ضرب لنا Montgomery وآخرون مثالاً مناسبًا على هذا، لنفترض أننا نُحلِّل مجموعة بيانات تسليم سلسلة توريد، حيث تحتوي مشاوير توصيل البضائع لمسافات طويلة بانتظام على عدد كبير من البضائع بينما تحتوي مشاوير توصيل البضائع لمسافات قصيرة دومًا على عدد بضائع أصغر. في هذه الحالة، ترتبط مسافة التوصيل وكمية البضائع خطيًا، كما هو موضح في الشكل 1. وهذا يؤدي لمشاكل عند استخدامها كمتغيرات مستقلة في نموذج تنبؤي واحد.

هذا مجرد مثال واحد على التعدد الخطي، وحل هذه المشكلة بسيط نسبيًا: وهو جمع بيانات أكثر تنوعًا (مثل بيانات لمشاوير التوصيل لمسافات قصيرة مع مخزون كبير من البضائع). ومع ذلك، فإن جمع مزيد من البيانات لا يكون دائمًا حلاً قابلاً للتطبيق، كما هو الحال عندما تكون العلاقة الخطية المتعددة جوهرية في البيانات التي تمت دراستها. وتتضمن الخيارات الأخرى لإصلاح التعدد الخطي زيادة حجم العينة، أو تقليل عدد المتغيرات المستقلة، أو ببساطة نشر نموذج مختلف. ومع ذلك، لا تنجح مثل هذه الإصلاحات دومًا في إزالة التعدد الخطي، ويعمل انحدار ريدج كطريقة أخرى لتنظيم نموذج لمعالجة التعدد الخطي.1

كيف يعمل انحدار ريدج: خوارزمية الضبط

عند تطوير النماذج التنبؤية في البداية، غالبًا نحتاج إلى حساب المعامِلات، حيث لم يتم ذكر المعامِلات صراحة في بيانات التدريب. لتقدير المعامِلات، يمكننا استخدام مقدِّر معامل مصفوفة المربعات الصغرى الخطية (OLS):

تتطلب معرفة عمليات هذه الصيغة الإلمام بصيغة المصفوفة. يكفي أن نقول إن هذه الصيغة تهدف إلى إيجاد الخط الأكثر ملاءمة لمجموعة بيانات معينة من خلال حساب المعامِلات لكل متغير مستقل، وتؤدي مجتمعة إلى أصغر مجموع مربعات متبقية (يسمى أيضًا مجموع الأخطاء التربيعية).2

يقيس مجموع المربعات المتبقية (RSS) مدى مطابقة نموذج الانحدار الخطي لبيانات التدريب. ويُمثّل بالصيغة التالية:

تقيس هذه الصيغة دقة التنبؤ بالنموذج لقيم الحقيقة الأساسية في بيانات التدريب.إذا كانت قيمة مجموع المربعات المتبقية = 0، فسوف يتنبأ النموذج بالمتغيرات التابعة بإتقان.ومع ذلك، فإن النتيجة صفر ليست مرغوبة دائمًا، حيث قد تشير إلى وجود إفراط في الملاءمة في بيانات التدريب، خاصةً إذا كانت مجموعة بيانات التدريب صغيرة.وقد يكون التعدد الخطي هو أحد الأسباب وراء ذلك.

قد تكون تقديرات المعامِلات المرتفعة في كثير من الأحيان بمثابة أعراض للإفراط في الملاءمة.3 فإذا كان هناك متغيران أو أكثر يشتركان في ارتباط خطي مرتفع، فقد تقوم مصفوفة المربعات الصغرى الخطية (OLS) بإرجاع معامِلات ذات قيمة عالية بشكل خاطئ. وعندما يكون واحد أو أكثر من المعامِلات مرتفعًا جدًا، فستصبح مخرجات النموذج حساسة للتعديلات الطفيفة في بيانات الإدخال. أو بمعنى آخر، حدث تجهيز زائد للنموذج لمجموعة تدريب معينة ولهذا يفشل النموذج في التعميم الدقيق على مجموعات الاختبار الجديدة. ولذا يعتبر مثل هذا النموذج نموذجًا غير مستقر.4

يُعدِّل انحدار ريدج المربعات الصغرى الخطية (OLS) بحساب المعامِلات التي تفسر متغيرات التنبؤ المحتملين. وعلى وجه التحديد، يُصحِّح انحدار ريدج المعاملات ذات القيمة العالية عن طريق إدخال حدّ الضبط (غالبًا ما يسمى الحد الجزائي) في دالة RSS. هذا الحدّ الجزائي هو مجموع مربعات معامِلات النموذج.ويُمثّل بالصيغة التالية:

يُدرج الحد الجزائي L2 بصفته نهاية لدالة مجموع المربعات المتبقية (RSS)، مما يؤدي إلى صيغة جديدة، وهي مقدِّر انحدار ريدج. وبالتالي، يُتحكم في تأثيره على النموذج بواسطة المعلمة الفائقة لامدا (λ):

تذكر أن المعاملات تشير إلى متغير تنبؤ معين (أي المتغير المستقل) على القيمة المتوقعة (أي المتغير التابع). وبمجرد إضافة الحد الجزائي L2 إلى صيغة مجموع المربعات المتبقية (RSS)، فإنه يُبطل المعاملات العالية بشكل خاص عن طريق تقليل جميع قيم المعاملات. وهذا هو ما يسمى في الإحصاء معامل الانكماش. وبالتالي، يحسب مقدِّر انحدار ريدج أعلاه معاملات الانحدار الجديدة التي تقلل من مجموع المربعات المتبقية (RSS) لنموذج معين. وهذا يقلل من تأثير كل متغير تنبؤ ويقلل من التجهيز الزائد في بيانات التدريب.6

لاحظ أن انحدار ريدج لا يؤدي إلى انكماش كل معامل بالقيمة ذاتها. وبدلاً من ذلك، يحدث انكماش للمعامِلات بما يتناسب مع حجمها الأولي. ومع زيادة λ، تنكمش المعامِلات ذات القيمة العالية بمعدل أكبر من المعامِلات ذات القيمة المنخفضة.7 وبالتالي، يتم توقيع جزاء على المعامِلات ذات القيمة العالية بدرجة أكبر من المعامِلات ذات القيمة المنخفضة.

انحدار ريدج مقابل انحدار لاسو

لاحظ أن تطبيق جزاء L2 يؤدي إلى انكماش المعاملات نحو الصفر، لكن ليس إلى الصفر المطلق أبدًا؛ رغم أن عوامل ترجيح خصائص النموذج قد تصبح صغيرة بشكل لا يذكر، إلا أنها لا تساوي الصفر أبدًا في انحدار ريدج. ويؤدي تقليل المعامل إلى الصفر إلى إزالة متغير التنبؤ المقترن بشكل فعال من النموذج.وهذا يسمى اختيار الخاصية، وهو وسيلة أخرى لتصحيح التعدد الخطي.8 ولأن انحدار ريدج لا يقلل معاملات الانحدار إلى الصفر، فإنه لا يؤدي إلى تحديد السمة.9غالبًا ما يُشار إلى هذه النقطة على أنها أحد عيوب انحدار ريدج. وعلاوة على ذلك، يوجد عيب آخر يُذكر كثيرًا وهو عدم قدرة انحدار ريدج على فصل متغيرات التنبؤ في مواجهة التعدد الخطي الحاد.10

يعد انحدار لاسو—المعروف أيضًا باسم ضبط L1—أحد طرق الضبط الأخرى العديدة في الانحدار الخطي.ويعمل ضبط L1 عن طريق تقليل المعاملات إلى الصفر، مما يؤدي بشكل أساسي إلى إزالة تلك المتغيرات المستقلة من النموذج. وبالتالي فإن كلاً من انحدار لاسو وانحدار ريدج يقللان من تعقيد النموذج، وإن تم ذلك بوسائل مختلفة. إذ يقلل انحدار لاسو عدد المتغيرات المستقلة التي تؤثر في المخرجات. بينما يقلل انحدار ريدج من عامل ترجيح كل متغير مستقل على المخرجات.

أساليب ضبط الانحدار الأخرى

تعد الشبكة المرنة شكلاً إضافيًا من أشكال الضبط. فبينما يحصل انحدار ريدج على معامل الضبط من مجموع الأخطاء التربيعية، ويحصل انحدار لاسو على معامل الضبط من مجموع القيمة المطلقة للأخطاء، نجد أن الشبكة المرنة تدمج معاملي الضبط في دالة تكلفة RSS.11

يمكن أن يعمل انحدار المكونات الرئيسية (PCR) أيضًا كإجراء تنظيمي. وبينما نجد أنه بإمكان انحدار المكونات الرئيسية (PCR) حل العلاقة الخطية المتعددة، فإنه لا يؤدي ذلك عن طريق تطبيق جزاء على دالة RSS كما هو الحال في انحدار ريدج وانحدار لاسو. وبدلاً من ذلك، يُنتج انحدار المكونات الرئيسية (PCR) مجموعات خطية من متغيرات التنبؤ المترابطة بحيث يمكن من خلالها إنشاء نموذج مربعات صغرة جديد.12

انحدار ريدج في التعلم الآلي

تعقيد النموذج

في التعلم الآلي، يساعد انحدار ريدج في تقليل الإفراط في الملاءمة الناجم عن تعقيد النموذج. ويمكن أن يحدث تعقيد النموذج بسبب:

  • نموذج يمتلك الكثير من السمات. السمات هي تنبؤات النموذج ويمكن أيضًا تسميتها «المعلمات» في التعلم الآلي. غالبًا ما توصي البرامج التعليمية عبر الإنترنت بالحفاظ على عدد سمات أقل من عدد المثيلات في مجموعات بيانات التدريب. ومع ذلك، لكن لا يمكن تحقيق ذلك دومًا.
  • السمات التي تمتلك الكثير من الوزن. يشير وزن السمة إلى تأثير متنبئ معين على مخرجات النموذج. وزن السمة العالي يعادل معامل القيمة العالية.

لا تؤدي النماذج الأبسط في جوهرها أداءً أفضل من النماذج المعقدة. لكن عمومًا نجد أن تعقيد النموذج إلى درجة عالية قد يعوق قدرة النموذج على التعميم على بيانات جديدة خارج مجموعة التدريب.

ولأن انحدار ريدج لا يختار السمة، فلن يمكنه تقليل تعقيد النموذج عن طريق إزالة الخصائص. ولكن إذا كانت هناك سمة أو أكثر تؤثر بشدة على مخرجات النموذج، يمكن أن يؤدي انحدار ريدج إلى تقليص أوزان السمات العالية (أي المعاملات) عبر النموذج لكل حد جزائي L2. وهذا يقلل من تعقيد النموذج ويساعد في جعل تنبؤات النموذج أقل اعتمادًا على أي سمة واحدة أو أكثر.

مقايضة التحيز والتباين

في مصطلحات التعلم الآلي، يعد انحدار ريدج بمثابة إضافة تحيز إلى النموذج من أجل تقليل تباين هذا النموذج. وتعد مقايضة التحيز والتباين مشكلة معروفة في التعلم الآلي. لكن لفهم مقايضة التحيز والتباين، من الضروري أولاً معرفة معنى "التحيز" و"التباين" على التوالي في أبحاث التعلم الآلي.

باختصار: التحيز يقيس متوسط الفرق بين القيم المتوقعة والقيم الحقيقية؛ بينما التباين يقيس الفرق بين التنبؤات في الإحداثات المختلفة في نموذج معين. فمع زيادة التحيز، يتنبأ النموذج بدقة أقل في مجموعة بيانات التدريب. ومع زيادة التباين، يتنبأ النموذج بدقة أقل في مجموعات البيانات الأخرى. وبالتالي فإن التحيز والتباين يقيسان دقة النموذج في مجموعات التدريب والاختبار على التوالي. ومن الواضح أن المطورين يأملون في تقليل انحياز النموذج وتباينه. ومع ذلك، فإن التخفيض المتزامن في كليهما ليس ممكنًا دائمًا، وبالتالي هناك حاجة إلى أساليب ضبط مثل انحدار ريدج.

كما ذكرنا سابقًا، يقدم ضبط انحدار ريدج انحيازًا إضافيًا من أجل تقليل التباين. بمعنى آخر، تنتج النماذج التي ضبطها انحدار ريدج تنبؤات أقل دقة بشأن بيانات التدريب (تحيز أعلى) لكنها تنتج تنبؤات أكثر دقة على بيانات الاختبار (تباين أقل). هذه هي مقايضة التحيز والتباين. من خلال انحدار ريدج، يحدد المستخدمون مقدارًا من الخسارة المقبولة في دقة التدريب (تحيز أعلى) لزيادة تعميم نموذج معين (تباين أقل).13 وبهذه الطريقة، يساعد التحيز المتزايد في تحسين الأداء العام للنموذج.

تُحدَّد القوة الجزائية لـ L2، وبالتالي مقايضة تباين التحيز للنموذج، من خلال القيمة λ في معادلة دالة خسارة مقدّر انحدار ريدج. فإذا كانت تساوي صفرًا، فسيتبقى لدينا دالة للمربعات الصغرى العادية. ويؤدي هذا إلى إنشاء نموذج انحدار خطي قياسي دون أي ضبط. على العكس من ذلك، فإن قيمة λ الأعلى سوف تعني مزيدًا من الضبط. ومع زيادة λ، يزداد انحياز النموذج بينما يتناقص التباين. وبالتالي، عندما تساوي λ صفرًا، فإن النموذج يبالغ في تجهيز بيانات التدريب على نحوٍ زائد، لكن عندما تكون λ مرتفعة جدًا، فإن النموذج، على العكس، ينقُصُ تجهيزه لجميع البيانات.14

يساعد متوسط الخطأ التربيعي (MSE) في تحديد قيمة λ المناسبة. ويرتبط متوسط الخطأ التربيعي (MSE) ارتباطًا وثيقًا بـ RRS وهي وسيلة لقياس الفرق، في المتوسط، بين القيم المتوقعة والقيم الحقيقية.وكلما انخفض متوسط الخطأ التربيعي (MSE) في النموذج، زادت تنبؤاته دقة.لكن متوسط الخطأ التربيعي (MSE) يزيد مع زيادة λ.ومع ذلك، يُقال إنه توجد دائمًا قيمة λ أكبر من الصفر بحيث يكون متوسط الخطأ التربيعي (MSE) الذي تم الحصول عليه من خلال انحدار ريدج أصغر من ذلك الذي تم الحصول عليه من خلال المربعات الصغرى الخطية.15 إحدى الطرق لاستنتاج قيمة λ مناسبة هي إيجاد أعلى قيمة لـ λ لا تزيد من متوسط الخطأ التربيعي (MSE)، كما هو موضح في الشكل 2. ويمكن أن تساعد أساليب التحقق المتبادل الإضافية المستخدمين على تحديد قيم λ المثلى لضبط نموذجهم.16

أمثلة على حالات الاستخدام

من الأفضل استخدام نماذج انحدار ريدج عند التعامل مع مجموعات البيانات التي تمتلك سمتين مترابطتين أو أكثر. إضافة إلى ذلك، تستخدم العديد من المجالات انحدار ريدج للتعامل مع النماذج التي تحتوي على عدد أكبر من متغيرات التنبؤ ومجموعات البيانات التدريبية الصغيرة.17 ويمكن أن تكون مثل هذه المواقف شائعة جدًا عند التعامل مع مجموعة متنوعة من البيانات.

الإحصاء الحيوي

غالبًا ما تتعامل البيولوجيا الحاسوبية والدراسات الجينية مع النماذج التي يفوق فيها عدد متغيرات التنبؤ عددًا كبيرًا من أحجام عينات مجموعة البيانات، خاصة عند التحقيق في التعبير الجيني. وهنا يوفر انحدار ريدج إحدى الوسائل لمعالجة هذا التعقيد النموذجي عن طريق تقليل الترجيح الإجمالي لهذه الخصائص المتعددة، وضغط النطاق التنبؤي للنموذج.

العقارات

يوجد عدد لا يحصى من متغيرات التنبؤ يحدد سعر البيع النهائي للمنزل، وكثير منها مترابطة، مثل عدد غرف النوم والحمامات. وهذه السمات المترابطة تؤدي بدرجة كبيرة إلى معاملات انحدار عالية وتجاوز بيانات التدريب. ويُصحِّح انحدار ريدج هذا الشكل من تعقيد النموذج بتقليل إجمالي أوزان السمات إلى قيمة نهائية هي المتوقعة للنموذج.

هذان مجرد مثالين فقط في المجال الأكبر لعلم البيانات. لكن كما يوضح هذان المثالان، يمكنك استخدام انحدار ريدج بشكل أكثر فاعلية في المواقف التي يكون لديك فيها سمات نموذج أكثر من عينات البيانات أو عندما يحتوي نموذجك على سمتين أو أكثر من السمات المترابطة جيدًا.

الأبحاث الحديثة

يستكشف البحث الحديث نوعًا معدَّلاً من انحدار ريدج لغرض إجراء اختيار الخصائص.18 ويستخدم هذا الشكل المعدَّل من انحدار ريدج معلمات ضبط مختلفة في كل معامِل. وبهذه الطريقة، يمكن للشخص تطبيق قيمة جزائية على أوزان السمات بشكل فردي، وبالتالي تنفيذ اختيار السمات من خلال انحدار ريدج.19

الحواشي

Douglas C. Montgomery, Elizabeth A. Peck, and G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf

A. K. Md. Ehsanes Saleh, Mohammad Arashi, and B. M. Golam Kibria, Theory of Ridge Regression Estimation with Applications, Wiley, 2019.

Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

A. K. Md. Ehsanes Saleh, Mohammad Arashi, Resve A. Saleh, and Mina Norouzirad, Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning, Wiley, 2022.

Douglas C. Montgomery, Elizabeth A. Peck, and G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

11 Hui Zou and Trevor Hastie, “Regularization and Variable Selection via the Elastic Net,” Journal of the Royal Statistical Society, Vol. 67, No. 2, 2005, pp. 301–320, https://academic.oup.com/jrsssb/article/67/2/301/7109482

12 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

13 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

14 Gianluigi Pillonetto, Tianshi Chen, Alessandro Chiuso, Giuseppe De Nicolao, and Lennart Ljung, Regularized System Identification: Learning Dynamic Models from Data, Springer, 2022.

15 Arthur E. Hoerl and Robert W. Kennard, “Ridge Regression: Biased Estimation for Nonorthogonal Problems,” Technometrics, Vol. 12, No. 1, Feb. 1970, pp. 55-67, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

16 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf

17 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

18 Yichao Wu, “Can’t Ridge Regression Perform Variable Selection?” Technometrics, Vol. 63, No. 2, 2021, pp. 263–271, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

19 Danielle C. Tucker, Yichao Wu, and Hans-Georg Müller, “Variable Selection for Global Fréchet Regression,” Journal of the American Statistical Association, 2021, https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240