يُقدِّر الانحدار اللوجستي احتمالية وقوع حدث ما، مثل التصويت أو عدم التصويت، بناءً على مجموعة بيانات معينة من المتغيرات المستقلة.
غالبًا ما يُستخدم هذا النوع من النماذج الإحصائية (المعروف أيضًا باسم نموذج اللوغاريتم) للتصنيف والتحليلات التنبؤية. نظرًا لأن النتيجة هي احتمال، فإن المتغير التابع يكون محدودًا بين 0 و1. في الانحدار اللوجستي، يتم تطبيق التحول اللوغاريتمي على الاحتمالات — أي احتمال النجاح مقسومًا على احتمالية الفشل. ويُعرف هذا أيضًا باسم احتمالات اللوغاريتمات، أو اللوغاريتم الطبيعي للاحتمالات، ويتم تمثيل هذه الوظيفة اللوجستية بالصيغ التالية:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
في معادلة الانحدار اللوجستي هذه، يمثل اللوغاريتم (pi) المتغير التابع أو متغير الاستجابة و (x) هو المتغير المستقل. يتم تقدير المعلمة بيتا، أو المعامل، في هذا النموذج بشكل شائع من خلال تقدير الاحتمالية القصوى (MLE). تختبر هذه الطريقة قيمًا مختلفة للنسخة التجريبية من خلال تكرارات متعددة لتحسين للحصول على أفضل ملاءمة لاحتمالات اللوغاريتمات. تُنتج كل هذه التكرارات دالة الاحتمالية اللوغاريتمية، ويسعى انحدار اللوجستي إلى تعظيم هذه الوظيفة للعثور على أفضل تقدير للمعلمات. بمجرد العثور على المعامل الأمثل (أو المعاملات إذا كان هناك أكثر من متغير مستقل)، يمكن حساب الاحتمالات الشرطية لكل ملاحظة وتسجيلها وتجميعها معًا للحصول على احتمال متوقع. بالنسبة للتصنيف الثنائي، فإن الاحتمال الأقل من .5 سيتنبأ ب 0 بينما يتنبأ الاحتمال الأكبر من 0 بـ 1. بعد حساب النموذج، من أفضل الممارسات تقييم مدى جودة تنبؤ النموذج بالمتغير التابع، وهو ما يسمى بجودة ملاءمة النموذج. يعد اختبار Hosmer–Lemeshow طريقة شائعة لتقييم ملاءمة النموذج.
قد يكون من الصعب فهم الاحتمالات اللوغاريتمية في تحليل بيانات الانحدار اللوجستي. نتيجة لذلك، فإن رفع تقديرات بيتا إلى الأس هو أمر شائع لتحويل النتائج إلى نسبة احتمالات (OR)، مما يسهل تفسير النتائج. تمثل نسبة الاحتمالات (OR) احتمالات حدوث نتيجة بالنظر إلى حدث معين، مقارنةً باحتمالات حدوث النتيجة في غياب هذا الحدث. إذا كانت نسبة الاحتمالات (OR) أكبر من 1، فهذا يعني أن الحدث يرتبط باحتمالات أعلى لتوليد نتيجة معينة. على العكس من ذلك، إذا كانت نسبة الاحتمالات (OR) أقل من 1، فإن الحدث يرتبط باحتمالات أقل لحدوث هذه النتيجة. بناء على المعادلة الواردة أعلاه، يمكن الإشارة إلى تفسير نسبة الاحتمالات على النحو التالي: تتغير احتمالات النجاح بمقدار exp (cB_1) مضروبًا في كل زيادة بمقدار وحدة c في x. لنستخدم مثالاً على ذلك، لنفترض أننا سنقدّر احتمالات النجاة على متن تيتانيك إذا كان الشخص ذكرًا، وكانت نسبة الاحتمالات للذكور .0810. سنفسر نسبة الاحتمالات على أن احتمالات بقاء الذكور على قيد الحياة انخفضت بمعامل .0810 عند مقارنتها بالإناث، مع إبقاء جميع المتغيرات الأخرى ثابتة.
يعد كل من الانحدار الخطي واللوجستي من بين النماذج الأكثر شيوعًا في علم البيانات، كما أن الأدوات المصدر المفتوح، مثل Python و R، تجعل حساب الانحدار سريعًا وسهلاً.
تُستخدم نماذج الانحدار الخطي لتحديد العلاقة بين متغير تابع مستمر ومتغير مستقل واحد أو أكثر. عندما يكون هناك متغير مستقل واحد ومتغير تابع واحد، يُعرف ذلك باسم الانحدار الخطي البسيط، ولكن مع زيادة عدد المتغيرات المستقلة، يشار إليه باسم الانحدار الخطي المتعدد. بالنسبة لكل نوع من أنواع الانحدار، فإنه يسعى إلى رسم خط مناسب بشكل أفضل من خلال مجموعة من نقاط البيانات، والتي يتم حسابها عادةً باستخدام طريقة المربعات الصغرى.
على غرار الانحدار الخطي، يُستخدم الانحدار اللوجستي أيضاً لتقدير العلاقة بين متغير تابع ومتغير مستقل واحد أو أكثر، ولكنه يُستخدم للتنبؤ بمتغير فئوي مقابل متغير متصل. يمكن للمتغير الفئوي أن يكون صوابًا أو خطأ، نعم أو لا، 1 أو صفر، وهكذا. تختلف وحدة القياس أيضًا عن الانحدار لأنها تنتج احتمالية، لكن الدالة اللوغاريتمية تحوّل المنحنى S إلى خط مستقيم.
في حين أن كلا النموذجين يُستخدمان في تحليل الانحدار لوضع تنبؤات حول النتائج المستقبلية، فإن الانحدار الخطي عادةً ما يكون أسهل في الفهم. كما أن الانحدار الخطي لا يتطلب حجم عينة كبير مثل الانحدار اللوجستي الذي يحتاج إلى عينة كافية لتمثيل القيم في جميع فئات الاستجابة. من دون عينة تمثيلية أكبر، قد لا يتمتع النموذج بقدرة إحصائية كافية تكشف عن تأثير كبير.
هناك ثلاثة أنواع من نماذج الانحدار اللوجستي، والتي يتم تحديدها بناءً على الاستجابة الفئوية.
في مجال التعلم الآلي، ينتمي الانحدار اللوجستي إلى عائلة نماذج التعلم الآلي الخاضعة للإشراف . يُعتبر أيضًا نموذجًا تمييزيًا، مما يعني أنه يحاول التمييز بين التصنيفات (أو الفئات). على عكس الخوارزمية التوليدية، مثل بايز الساذجة، فإنها لا تستطيع، كما يوحي الاسم، إنشاء معلومات، مثل صورة، من الفئة التي تحاول التنبؤ بها (على سبيل المثال صورة قطة).
ذكرنا سابقًا كيف يعمل الانحدار اللوجستي على تعظيم دالة لوغاريتم الاحتمال لتحديد معاملات بيتا للنموذج. يتغير هذا قليلاً في سياق التعلم الآلي. ضمن التعلم الآلي، يتم استخدام سالب احتمالية اللوغاريتم كدالة خسارة، باستخدام عملية الانحدار التدرجي للعثور على الحد الأقصى العالمي. هذه مجرد طريقة أخرى للوصول إلى نفس التقديرات التي تمت مناقشتها أعلاه.
يمكن أن يكون الانحدار اللوجستي أيضًا عرضة للتجهيز الزائد، خاصةً عندما يكون هناك عدد كبير من المتغيرات التنبؤية داخل النموذج. يستخدم التنظيم عادة لمعاقبة المعاملات الكبيرة للمعلمات عندما يعاني النموذج من أبعاد عالية.
يوفر Scikit-learn (يوجد الرابط خارج ibm.com) وثائق قيّمة لتعرف على المزيد عن نموذج الانحدار اللوجستي بالتعلم الآلي.
يستخدم الانحدار اللوجستي بشكل شائع لمشاكل التنبؤ والتصنيف. تتضمن بعض حالات الاستخدام هذه ما يلي: