ما الانحدار اللوجستي؟

ما الانحدار اللوجستي؟

يُقدِّر الانحدار اللوجستي احتمالية وقوع حدث ما، مثل التصويت أو عدم التصويت، بناءً على مجموعة بيانات معينة من المتغيرات المستقلة.

غالبًا ما يُستخدم هذا النوع من النماذج الإحصائية (المعروف أيضًا باسم نموذج اللوغاريتم) للتصنيف والتحليلات التنبؤية. نظرًا لأن النتيجة هي احتمال، فإن المتغير التابع يكون محدودًا بين 0 و1. في الانحدار اللوجستي، يتم تطبيق التحول اللوغاريتمي على الاحتمالات — أي احتمال النجاح مقسومًا على احتمالية الفشل. ويُعرف هذا أيضًا باسم احتمالات اللوغاريتمات، أو اللوغاريتم الطبيعي للاحتمالات، ويتم تمثيل هذه الوظيفة اللوجستية بالصيغ التالية:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

في معادلة الانحدار اللوجستي هذه، يمثل اللوغاريتم (pi) المتغير التابع أو متغير الاستجابة و (x) هو المتغير المستقل. يتم تقدير المعلمة بيتا، أو المعامل، في هذا النموذج بشكل شائع من خلال تقدير الاحتمالية القصوى (MLE). تختبر هذه الطريقة قيمًا مختلفة للنسخة التجريبية من خلال تكرارات متعددة لتحسين للحصول على أفضل ملاءمة لاحتمالات اللوغاريتمات. تُنتج كل هذه التكرارات دالة الاحتمالية اللوغاريتمية، ويسعى انحدار اللوجستي إلى تعظيم هذه الوظيفة للعثور على أفضل تقدير للمعلمات. بمجرد العثور على المعامل الأمثل (أو المعاملات إذا كان هناك أكثر من متغير مستقل)، يمكن حساب الاحتمالات الشرطية لكل ملاحظة وتسجيلها وتجميعها معًا للحصول على احتمال متوقع. بالنسبة للتصنيف الثنائي، فإن الاحتمال الأقل من .5 سيتنبأ ب 0 بينما يتنبأ الاحتمال الأكبر من 0 بـ 1. بعد حساب النموذج، من أفضل الممارسات تقييم مدى جودة تنبؤ النموذج بالمتغير التابع، وهو ما يسمى بجودة ملاءمة النموذج. يعد اختبار Hosmer–Lemeshow طريقة شائعة لتقييم ملاءمة النموذج.

تفسير الانحدار اللوجستي

قد يكون من الصعب فهم الاحتمالات اللوغاريتمية في تحليل بيانات الانحدار اللوجستي. نتيجة لذلك، فإن رفع تقديرات بيتا إلى الأس هو أمر شائع لتحويل النتائج إلى نسبة احتمالات (OR)، مما يسهل تفسير النتائج. تمثل نسبة الاحتمالات (OR) احتمالات حدوث نتيجة بالنظر إلى حدث معين، مقارنةً باحتمالات حدوث النتيجة في غياب هذا الحدث. إذا كانت نسبة الاحتمالات (OR) أكبر من 1، فهذا يعني أن الحدث يرتبط باحتمالات أعلى لتوليد نتيجة معينة. على العكس من ذلك، إذا كانت نسبة الاحتمالات (OR) أقل من 1، فإن الحدث يرتبط باحتمالات أقل لحدوث هذه النتيجة. بناء على المعادلة الواردة أعلاه، يمكن الإشارة إلى تفسير نسبة الاحتمالات على النحو التالي: تتغير احتمالات النجاح بمقدار exp (cB_1) مضروبًا في كل زيادة بمقدار وحدة c في x. لنستخدم مثالاً على ذلك، لنفترض أننا سنقدّر احتمالات النجاة على متن تيتانيك إذا كان الشخص ذكرًا، وكانت نسبة الاحتمالات للذكور .0810. سنفسر نسبة الاحتمالات على أن احتمالات بقاء الذكور على قيد الحياة انخفضت بمعامل .0810 عند مقارنتها بالإناث، مع إبقاء جميع المتغيرات الأخرى ثابتة.

الانحدار الخطي مقابل الانحدار اللوجستي

يعد كل من الانحدار الخطي واللوجستي من بين النماذج الأكثر شيوعًا في علم البيانات، كما أن الأدوات المصدر المفتوح، مثل Python و R، تجعل حساب الانحدار سريعًا وسهلاً.

تُستخدم نماذج الانحدار الخطي لتحديد العلاقة بين متغير تابع مستمر ومتغير مستقل واحد أو أكثر. عندما يكون هناك متغير مستقل واحد ومتغير تابع واحد، يُعرف ذلك باسم الانحدار الخطي البسيط، ولكن مع زيادة عدد المتغيرات المستقلة، يشار إليه باسم الانحدار الخطي المتعدد. بالنسبة لكل نوع من أنواع الانحدار، فإنه يسعى إلى رسم خط مناسب بشكل أفضل من خلال مجموعة من نقاط البيانات، والتي يتم حسابها عادةً باستخدام طريقة المربعات الصغرى.

على غرار الانحدار الخطي، يُستخدم الانحدار اللوجستي أيضاً لتقدير العلاقة بين متغير تابع ومتغير مستقل واحد أو أكثر، ولكنه يُستخدم للتنبؤ بمتغير فئوي مقابل متغير متصل. يمكن للمتغير الفئوي أن يكون صوابًا أو خطأ، نعم أو لا، 1 أو صفر، وهكذا. تختلف وحدة القياس أيضًا عن الانحدار لأنها تنتج احتمالية، لكن الدالة اللوغاريتمية تحوّل المنحنى S إلى خط مستقيم.

في حين أن كلا النموذجين يُستخدمان في تحليل الانحدار لوضع تنبؤات حول النتائج المستقبلية، فإن الانحدار الخطي عادةً ما يكون أسهل في الفهم. كما أن الانحدار الخطي لا يتطلب حجم عينة كبير مثل الانحدار اللوجستي الذي يحتاج إلى عينة كافية لتمثيل القيم في جميع فئات الاستجابة. من دون عينة تمثيلية أكبر، قد لا يتمتع النموذج بقدرة إحصائية كافية تكشف عن تأثير كبير.

أنواع الانحدار اللوجستي

هناك ثلاثة أنواع من نماذج الانحدار اللوجستي، والتي يتم تحديدها بناءً على الاستجابة الفئوية.

  • الانحدار اللوجستي الثنائي: في هذا النهج، تكون الاستجابة أو المتغير التابع ثنائي بطبيعته، أي أن له نتيجتين محتملتين فقط (على سبيل المثال 0 أو 1). تتضمن بعض الأمثلة الشائعة لاستخدامه التنبؤ بما إذا كان البريد الإلكتروني بريدًا عشوائي أو غير عشوائي أو ما إذا كان الورم خبيثًا أو غير خبيث. في الانحدار اللوجستي، هذا هو النهج الأكثر استخدامًا، وبشكل أعم، هو أحد أكثر المصنفات شيوعًا للتصنيف الثنائي.
  • الانحدار اللوجستي متعدد الحدود: في هذا النوع من نماذج الانحدار اللوجستي، يكون للمتغير التابع ثلاث نتائج محتملة أو أكثر، لكن هذه القيم ليس لها ترتيب محدد. على سبيل المثال، تريد استوديوهات الأفلام التنبؤ بنوع الأفلام الذي من المحتمل أن يشاهده رواد السينما لتسويق الأفلام بشكل أكثر فعالية. يمكن لنموذج الانحدار اللوجستي متعدد الحدود أن يساعد الاستوديو على تحديد قوة تأثير عمر الشخص وجنسه وحالة المواعدة على نوع الفيلم الذي يفضله. ويمكن للاستوديو بعد ذلك توجيه حملة إعلانية لفيلم معين نحو مجموعة من الأشخاص الذين من المرجح أن يذهبوا لمشاهدته.
  • الانحدار اللوجستي الترتيبي: يُستفاد من هذا النوع من نماذج الانحدار اللوجستي عندما يكون لمتغير الاستجابة ثلاث نتائج محتملة أو أكثر، ولكن في هذه الحالة، يكون لهذه القيم ترتيب محدد. تتضمن أمثلة الاستجابات الترتيبية مقاييس الدرجات من A إلى F أو مقاييس التصنيف من 1 إلى 5.

الانحدار اللوجستي والتعلم الآلي

في مجال التعلم الآلي، ينتمي الانحدار اللوجستي إلى عائلة نماذج التعلم الآلي الخاضعة للإشراف . يُعتبر أيضًا نموذجًا تمييزيًا، مما يعني أنه يحاول التمييز بين التصنيفات (أو الفئات). على عكس الخوارزمية التوليدية، مثل بايز الساذجة، فإنها لا تستطيع، كما يوحي الاسم، إنشاء معلومات، مثل صورة، من الفئة التي تحاول التنبؤ بها (على سبيل المثال صورة قطة).

ذكرنا سابقًا كيف يعمل الانحدار اللوجستي على تعظيم دالة لوغاريتم الاحتمال لتحديد معاملات بيتا للنموذج. يتغير هذا قليلاً في سياق التعلم الآلي. ضمن التعلم الآلي، يتم استخدام سالب احتمالية اللوغاريتم كدالة خسارة، باستخدام عملية الانحدار التدرجي للعثور على الحد الأقصى العالمي. هذه مجرد طريقة أخرى للوصول إلى نفس التقديرات التي تمت مناقشتها أعلاه.

يمكن أن يكون الانحدار اللوجستي أيضًا عرضة للتجهيز الزائد، خاصةً عندما يكون هناك عدد كبير من المتغيرات التنبؤية داخل النموذج. يستخدم التنظيم عادة لمعاقبة المعاملات الكبيرة للمعلمات عندما يعاني النموذج من أبعاد عالية.

يوفر Scikit-learn (يوجد الرابط خارج ibm.com) وثائق قيّمة لتعرف على المزيد عن نموذج الانحدار اللوجستي بالتعلم الآلي.

حالات استخدام الانحدار اللوجستي

يستخدم الانحدار اللوجستي بشكل شائع لمشاكل التنبؤ والتصنيف. تتضمن بعض حالات الاستخدام هذه ما يلي:

  • الكشف عن الغش: يمكن لنماذج الانحدار اللوجستي أن تساعد الفرق في تحديد حالات الخلل في البيانات، والتي تنبئ بالاحتيال. قد يكون لبعض السلوكيات أو الخصائص ارتباط أكبر بالأنشطة الاحتيالية، وهو أمر مفيد بشكل خاص للمؤسسات المصرفية والمالية الأخرى في حماية عملائها. كما بدأت الشركات التي تعتمد على البرمجيات كخدمة في تبني هذه الممارسات لإزالة حسابات المستخدمين الوهمية من مجموعات البيانات الخاصة بها عند إجراء تحليل البيانات حول أداء الأعمال.
  • التنبؤ بالأمراض: في الطب، يمكن استخدام هذا النهج التحليلي في الطب للتنبؤ باحتمالية الإصابة بمرض لمجموعة سكانية معينة. يمكن لمؤسسات الرعاية الصحية إعداد رعاية وقائية للأفراد الذين يظهرون ميلًا أعلى للإصابة بأمراض معينة.
  • التنبؤ بتناقص العملاء: قد تكون سلوكيات محددة مؤشراً على التخبط في وظائف مختلفة في مجموعة. على سبيل المثال ، قد ترغب فرق الموارد البشرية والإدارة في معرفة ما إذا كان هناك أصحاب أداء عال داخل المؤسسة معرضون لخطر مغادرة المؤسسة. يمكن أن يحفز هذا النوع من الرؤى المحادثات لفهم مجالات المشاكل داخل المؤسسة، مثل الثقافة أو التعويض. بدلاً من ذلك، قد ترغب مجموعة المبيعات في معرفة أي من عملائها معرضون لخطر نقل أعمالهم إلى مكان آخر. هذا يمكن أن موجِّه للفرق لإعداد استراتيجية لتجنب فقدان الإيرادات.