يشير التعدد الخطي إلى متى ترتبط المتغيرات المستقلة في معادلة الانحدار الخطي. وقد تؤثر المتغيرات ذات التعدد الخطي سلبًا في تنبؤات النماذج على البيانات غير المرئية. ويُمكن للعديد من أساليب الضبط اكتشاف العلاقة الخطية المتعددة وإصلاحها.
يشير التداخل الخطي إلى الحالة التي يوجد فيها متغيران مستقلان في تحليل الانحدار مترابطين؛ بينما التعدد الخطي يشير إلى الحالة التي يوجد فيها أكثر من متغيرين مستقلين مترابطين.1 وعلى العكس من ذلك التعامد، ويشير إلى الحالة التي توجد فيها متغيرات مستقلة غير مترابطة. إذ يمنع التعدد الخطي النماذج التنبؤية من إنتاج تنبؤات دقيقة عن طريق زيادة تعقيد النموذج والإفراط في الملاءمة.
معادلة الانحدار الخطي القياسية متعددة المتغيرات هي:
Y هو الناتج المتوقع (المتغير التابع)، و X هو أي متنبئ (متغير مستقل أو تفسيري). B هو معامل الانحدار المرفق ويقيس التغيير في Y لكل وحدة تغيير واحدة في المتنبئ المصاحب (Xn) بافتراض أن جميع المتغيرات المتنبئة الآخرى تظل ثابتة. X0 هي قيمة متغير الاستجابة (Y) عندما يساوي المتغير المستقل صفرًا. تسمى هذه القيمة النهائية أيضًا بتقاطع-y.2
بالطبع، تهدف معادلة الحدود المتعددة هذه إلى قياس ورسم خريطة الارتباط بين Y و Xn. في النموذج التنبؤي المثالي، لا يرتبط أي من المتغيرات المستقلة (Xn) بحد ذاتها. ومع ذلك، يمكن أن يحدث هذا غالبًا في النماذج التي تستخدم بيانات العالم الحقيقي، خاصة عندما تكون النماذج مصممة باستخدام العديد من المتغيرات المستقلة.
عند إنشاء نموذج تنبؤي، نحتاج إلى حساب المعامِلات، لأنها نادرًا ما تكون معروفة مسبقًا. لتقدير معامِلات الانحدار، نستخدم مقدِّر معامِل مصفوفة المربعات الصغرى الخطية (OLS):
يتطلب فهم عمليات هذه الصيغة الإلمام برموز المصفوفة. لكن كل ما نحتاج إلى فهمه الآن هو أن حجم ومحتويات مصفوفة X تُحدِّدها المتغيرات المستقلة المختارة على أنها معلمات للنموذج. علاوة على ذلك، تُستخدم درجة الارتباط بين المتغيرات التنبؤية — والمعروفة باسم معاملات الارتباط والتي تمثلها — في حساب معاملات الانحدار بين X و Y.3
ولأنه يتم تضمين أو استبعاد المتغيرات المستقلة من النموذج، فإن المعامِلات المقدَّرة لأي متغير تنبؤ واحد يمكن أن تتغير كثيرًا، مما يجعل تقديرات المعامِلات غير موثوقة وغير دقيقة. وكذلك يؤدي الارتباط بين اثنين أو أكثر من متغيرات التنبؤ إلى صعوبة في تحديد التأثير الفردي لأي متغير على مخرجات النموذج. وعليك ألا تنسى أن معامل الانحدار يقيس تأثير متغير متوقع معين على المخرجات بافتراض أن متغيرات التنبؤ الأخرى تبقى ثابتة. أما إذا كانت متغيرات التنبؤات مرتبطة، فقد لا يمكن عزلها. وبالتالي، فإن معامِلات الانحدار المقدَّرة للمتغيرات ذات التعدد الخطي لا تعكس تأثير أي متغير تنبؤ واحد على المخرجات بل تعكس التأثير الجزئي لمتغير التنبؤ هذا، حسب المتغيرات المشتركة الموجودة في النموذج.4
علاوة على ذلك، يمكن لعينات البيانات المختلفة، أو حتى التغييرات الصغيرة في البيانات، ذات نفس المتغيرات متعددة الخطية أن تنتج معامل انحدار مختلفًا كثيرًا. ولعل هذه هي المشكلة الأكثر شهرة في التعدد الخطي: الإفراط في الملاءمة. حيث نقصد بالإفراط في الملاءمة وجود نماذج ذات خطأ تدريب منخفض وخطأ تعميم مرتفع. وكما ذكرنا، تظل الأهمية الإحصائية لأي متغير متعدد الخطية غير واضحة وسط ضجيجها العلائقي مع المتغيرات الأخرى. وهذا يمنع الحساب الدقيق للأهمية الإحصائية لأي متغير واحد على مخرجات النموذج، وهو ما يشير إليه تقدير المعامِل إلى حد كبير. ولأن الخطية المتعددة لا تتيح حساب تقديرات دقيقة للمعامل، فإن النماذج متعددة الخطية تفشل في التعميم على البيانات غير المرئية. وبهذه الطريقة، تمتلك المعامِلات المقدَّرة للمتغيرات متعددة الخطية تباينًا كبيرًا، يُعرف أيضًا باسم الخطأ المعياري الكبير.5
نجد أن بعض الكتب والمقالات الإحصائية تُفرِّق أحيانًا بين التعدد الخطي المثالي والتعدد الخطي المتطرف. وتشير العلاقة الخطية المتعددة المثالية إلى وجود علاقة خطية كاملة بين متغير مستقل وواحد أو أكثر من المتغيرات المستقلة. أما التعدد الخطي المتطرف فيظهر عندما يرتبط أحد متغيرات التنبؤ ارتباطًا قويًا بواحد أو أكثر من المتغيرات المستقلة الإضافية.6 وهاتان هما الدرجتان الرئيسيتان للتعدد الخطي.
لا توجد أشكال منفصلة من التعدد الخطي بقدر ما توجد له أسباب محتملة مختلفة. قد تتراوح هذه الأسباب بين أسباب تعود إلى طبيعة البيانات قيد النظر إلى أسباب متعلقة بتجارب سيئة التصميم. فيما يلي بعض الأسباب الشائعة:
- جمع البيانات هذا التعدد الخطي القائم على البيانات يمكن أن يحدث حين يقوم الشخص بأخذ عينات من مساحة فرعية غير تمثيلية للبيانات المعنية. على سبيل المثال، قام Montgomery وآخرون بتقديم مثال لمجموعة بيانات تسليم سلسلة التوريد حيث تكون مسافة توصيل الطلب وحجمه متغيرات مستقلة في النموذج التنبؤي. في البيانات التي يقدمونها، يبدو أن حجم مخزون الطلب يزداد مع زيادة مسافة التوصيل. والحل المقترح لهذا الارتباط واضح ومباشر: وهو جمع وإدراج عينات البيانات لعمليات التوصيل لمسافات قصيرة مع أحجام المخزون الكبيرة، أو العكس.7
- قيود النموذج هذا مشابه لسبب جمع البيانات، وإن لم يكن متطابقًا. ويمكن أن تنتج العلاقة الخطية المتعددة بسبب طبيعة البيانات ومتغيرات النموذج التنبؤي المعنية.تخيل أننا نُنشئ نموذج تنبؤي لقياس رضا الموظفين في مكان العمل، حيث تكون ساعات العمل أسبوعيًا والإجهاد المبلَّغ عنه اثنين من عدة عوامل تنبؤية. قد يكون هناك ارتباط بين متغيرات التنبؤ هذه بسبب طبيعة البيانات— أي، من المرجح أن الأشخاص الذين يعملون أكثر سوف يشتكون من ضغوط عمل أكثر. وقد يحدث موقف مماثل اذا كان التعليم والرواتب من متغيرات التنبؤ النموذجية—فالموظفون الحاصلون على قدر أكبر من التعليم من المرجح أن يكسبوا رواتب أكبر. في هذه الحالة، فإن جمع مزيد من البيانات لن يخفف من المشكلة، لأن تعدد الخطية متأصل في البيانات نفسها.
- نموذج مفرط التحديد يمكن أن يحدث التعدد الخطي عندما يكون عدد متغيرات التنبؤ بالنموذج أكبر من عدد نقاط رصد البيانات. وقد تنشأ هذه المشكلة بشكل خاص في الإحصاء البيولوجي أو الدراسات البيولوجية الأخرى. إذ يتطلب حل النماذج المحددة على نحوٍ زائد إزالة متغيرات تنبؤ محددة من النموذج تمامًا. لكن كيف يتم تحديد النماذج التي يجب إزالتها؟ يمكن للشخص إجراء العديد من الدراسات الأولية باستخدام مجموعات فرعية من المتغيرات المنحدرة (أي: متغيرات التنبؤ) أو استخدام تحليل المكونات الأساسية (PCA) للجمع بين المتغيرات متعددة الخطوط.8
تحديد أنواع البيانات يمكن أن يؤدي بشكل خاص إلى التعدد الخطي. وبيانات السلاسل الزمنية هي أهم هذه البيانات. وغالبًا ما تتحرك عوامل النمو والاتجاهات، لا سيما في الاقتصاد، في نفس الاتجاه مع مرور الوقت، مما يؤدي إلى إنتاج علاقات خطية متعددة بسهولة. إضافة إلى ذلك، فإن الدراسات القائمة على الملاحظة في العلوم الاجتماعية تؤدي بسهولة إلى التعدد الخطي، نظرًا لأن العديد من المتغيرات الاجتماعية والاقتصادية (على سبيل المثال. وغالبًا ما تكون العوامل المؤثرة (الدخل، والتعليم، والانتماء السياسي، ونحو ذلك) مترابطة وغير خاضعة لتحكم الباحثين.9
يمكن أن تنتج العلاقة الخطية المتعددة أيضًا عن معالجة متغيرات التوقع. في بعض الحالات، يمكن للمرء استخدام القيم التربيعية أو المتأخرة للمتغيرات المستقلة كتنبؤات جديدة للنموذج. وبطبيعة الحال، سوف تشترك متغيرات التنبؤ الجديدة هذه في ارتباط كبير مع المتغيرات المستقلة التي اشتُقت منها.10 وهذا هو التعدد الخطي الهيكلي.
يمكن أن تشير المعامِلات المقدَّرة الكبيرة في حد ذاتها إلى وجود علاقة خطية متداخلة، إضافة إلى تغييرات هائلة في المعامِلات المقدَّرة عند إضافة متغير تنبؤ واحد (أو حتى نقطة بيانات) أو إزالته من النموذج. وتشير المعامِلات ذات فترات الثقة الكبيرة أيضًا إلى وجود علاقة خطية متعددة. وفي بعض الأحيان، يمكن للمعامِلات التي تمتلك علامات أو مقادير مخالفة للتوقعات المستمدة من تحليل البيانات الأولية أن تشير إلى وجود علاقة خطية متعددة. بطبيعة الحال، لا يؤكد أي من هذه الأمور بشكل قاطع التعدد الخطي ولا يوفر قياسات كمّية للتعدد الخطي.11 ومع ذلك، تساعد العديد من طرق التشخيص في القيام بذلك.
هناك أداتان بسيطتان نسبيًا لقياس الخطية المتعددة وهما مخطط التشتت ومصفوفة الارتباط للمتغيرات المستقلة. وعند استخدام مخطط التشتت، تُرسم قيم المتغيرات المستقلة لكل نقطة بيانات مقابل بعضها البعض. وإذا كشف مخطط التشتت عن وجود علاقة خطية بين المتغيرات المختارة، فقد تكون هناك درجة معينة من الخطية المتعددة. ويوضح هذا الشكل بيانات متعددة الخطوط في مخطط التشتت باستخدام مجموعة بيانات التسليم التي وضعها مونتغمري وآخرون.
توجد طريقة تشخيصية أخرى وهي حساب مصفوفة الارتباط لجميع المتغيرات المستقلة. إذ أن عناصر المصفوفة هي معامِلات الارتباط بين كل متغير تنبؤ في النموذج. ومعامل الارتباط هو قيمة بين -1 و 1 تقيس درجة الارتباط بين اثنين من متغيرات التنبؤ. لاحظ كيف تحتوي المصفوفة على خط قطري من 1 لأن كل متغير له علاقة كاملة مع نفسه. كلما ارتفع عنصر مصفوفة معين، زادت درجة الارتباط بينهما.12
يعد عامل تضخم التباين (VIF) الطريقة الأكثر شيوعًا لتحديد درجة التعدد الخطي في نماذج الانحدار الخطي. ويحتوي كل متغير تنبؤ نموذجي على قيمة VIF، تقيس مدى تضخيم تباين متغير التنبؤ هذا بواسطة متغيرات التنبؤ الأخرى الموجودة في نفس النموذج.
بينما تحتوي خوارزمية VIF على عدة خطوات. لكن الشرح الوافي لهذه الخوارزمية خارج نطاق هذه المقالة. ويكفي أن نقول إن عامل VIF يقيس نسبة التباين للمتغير المختار على النحو الذي تحدده المتغيرات المستقلة الأخرى في نفس النموذج. فيما يلي المعادلة التي تمثل عامل VIF:
يشير R-squared (R2) إلى معامل التحديد المتعدد الذي تم الحصول عليه عن طريق تراجع متغير مستقل واحد مقابل جميع المتغيرات الأخرى.13 الحد الأدنى لمعادلة VIF هو التحمُّل، وهو مفهوم مختلف عن فترات التحمُّل.التحمُّل عكس VIF. ورغم عدم مناقشته بشكل كافي في المنشورات المعنية، إلا أنه مع ذلك يعد وسيلة أخرى قابلة للتطبيق لحساب التعدد الخطي.14
كلما ارتفعت قيمة VIF، زادت درجة التعدد الخطي. ولا توجد قيمة حد VIF تحدد النموذج "السيئ" أو "الجيد". ومع ذلك، فإن القاعدة الأساسية التي تتكرر على نطاق واسع هي أن قيمة VIF الأكبر من أو تساوي عشرة تشير إلى تعدد خطي حاد.15
لاحظ أن R و Python يحتويان على دوال لحساب VIF. على التوالي، يمكن لدالة ()vif في حزمة car في R ودالة ()variance_inflation_factor في وحدة statsmodels.stats في Python حساب VIF لنموذج معين.16
كما ذكرنا سابقًا، تتراوح الإصلاحات البسيطة للتعدد الخطي من تنويع أو تكبير حجم عينة بيانات التدريب إلى إزالة المعلمات تمامًا. تساعد العديد من تقنيات الضبط أيضًا في تصحيح مشكلة التعدد الخطي. يعد انحدار ريدج إحدى الطرق الموصى بها على نطاق واسع، والتي تتضمن معاقبة المعاملات عالية القيمة، وبالتالي تقليل تأثير التنبؤات متعددة الخطوط على مخرجات النموذج. وبالمثل، فإن انحدار لاسو يعاقب المعاملات عالية القيمة. يتمثل الاختلاف الأساسي بين هذين الاثنين في أن ريدج يقلل فقط قيم المعامل إلى ما يقرب من الصفر بينما يمكن للاسو تقليل المعاملات إلى الصفر، مما يؤدي بشكل فعال إلى إزالة المتغيرات المستقلة من النموذج تمامًا
.لأن أبحاث الأعمال والتمويل لا يمكنها إجراء تجارب مضبوطة والعمل إلى حد كبير مع بيانات السلاسل الزمنية، فإن التعدد الخطي يٌعد مشكلة دائمة. وتتحدى الأبحاث الحديثة أساليب إسقاط التنبؤ (مثل PCA) لحل العلاقة الخطية المتداخلة على أساس أن القيام بذلك قد يؤدي إلى إزالة تنبؤات مهمة.17 وفي أماكن أخرى، يطبق الباحثون انحدار ريدج، وطرق الانكماش الجديدة المستمدة منه، لتصحيح التعدد الخطي في تحليل قرارات إدارة الاستثمار.18
مثل العديد من المجالات الفرعية الأخرى في العلوم الاجتماعية، يعتمد علم الجريمة والعدالة الجنائية على الدراسات الرصدية، التي غالبًا يظهر فيها التعدد الخطي. وقد يستخدم الباحثون الجمع المتغير (مثل، تحليل المكونات الأساسية (PCA))،19 إضافة إلى طرق إسقاط المتغيرات لحل التعدد الخطي.20 لاحظ كيف أن VIF الأكبر من ثلاثة في الدراسة الأخيرة يشير إلى تعدد خطي مرتفع جدًا، مما يوضح أن ليس كل الأبحاث تتبع قاعدة VIF>10. ويستكشف البحث أيضًا طرق التشخيص والحلول الأخرى للتعدد الخطي، مثل تحليل الهيمنة، الذي يصنف متغيرات التنبؤ وفقًا لجزء مساهمتهم في التباين في النموذج.21
1 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0
3 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997. Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
4 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997. Michael H. Kutner, Christopher J. Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.
7 Douglas Montgomery, Elizabeth Peck, and G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
8 R.F. Gunst and J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246
9 Larry Schroeder, David Sjoquist, and Paula Stephan, Understanding Regression Analysis: An Introductory Guide, 2nd Edition, SAGE, 2017.
10 R.F. Gunst and J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246
11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997. Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
12 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson, and Ronald Tatham, Multivariate Data Analysis, 6th Edition, Pearson, 2006.
14 Richard Darlington and Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017.
15 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
16 Chantal Larose and Daniel Larose, Data Science Using Python and R, Wiley, 2019.
17 Thomas Lindner, Jonas Puck, and Alain Verbeke, "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies," Journal of International Business Studies, Vol. 51, 2020, pp. 283-298, https://doi.org/10.1057/s41267-019-00257-1
18 Aquiles E.G. Kalatzis, Camila F. Bassetto, and Carlos R. Azzoni, "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression," Journal of Applied Statistics, Vol. 38, No. 2, 2011, pp. 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras, and Cristhian Mellado, "Regression, multicollinearity and Markowitz," Finance Research Letters, Vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550
19 Kiseong Kuen, David Weisburd, Clair White, and Joshua Hinkle, "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots," Journal of Criminal Justice, Vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984
20 Howard Henderson, Sven Smith, Christopher Ferguson, and Carley Fockler, "Ecological and social correlates of violent crime," SN Social Sciences, Vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5
21 Robert Peacock "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption," Police Practice and Research, Vol. 22, No. 1, 2021, pp. 589-605, https://doi.org/10.1080/15614263.2020.1851229