My IBM Log in اشترك

ما هو التحليل التمييزي الخطي (LDA)؟

27 نوفمبر 2023

ما هو التحليل التمييزي الخطي (LDA)؟

إن التحليل التمييزي الخطي (LDA) أحد الأساليب المستخدمة في التعلم الآلي الخاضع للإشراف لحل مشكلات التصنيف متعددة الفئات. إذ يحدث في التحليل التمييزي الخطي (LDA) فصل الفئات المتعددة ذات الخصائص المتعددة من خلال تقليل أبعاد البيانات. ويُعَد هذا الأسلوب مهمًا في علم البيانات؛ لأنه يساعد في تحسين نماذج التعلم الآلي.

ويتبع التحليل التمييزي الخطي، ويُعرَف أيضًا باسم التحليل التمييزي العادي (NDA) أو تحليل الوظيفة التمييزية (DFA)، إطار النموذج التوليدي.وهذا يعني أن خوارزميات التحليل التمييزي الخطي (LDA) تُنمذج توزيع البيانات لكل فئة وتستخدم نظرية بايز1 لتصنيف نقاط بيانات جديدة. إذ تحسب نظرية بايز الاحتمالات الشرطية—وهي احتمال وقوع حدث في ظل وقوع حدث مختلف.وتُجري خوارزميات التحليل التمييزي الخطي (LDA) التنبؤات باستخدام نظرية بايز لحساب احتمالية إذا ما كانت مجموعة بيانات الإدخال ستنتمي إلى مخرج معين. لمراجعة الإحصاءات البايزية ومعرفة كيفية تأثيرها في خوارزميات التعلم الخاضع للإشراف، قم بزيارة مصنِّفات بايز الساذج.

يعمل التحليل التمييزي الخطي (LDA) بتحديد مجموعة خطية من السمات التي تميز أو تفصل بين فئتين أو أكثر من فئات الكائنات أو الأحداث. ويقوم التحليل التمييزي الخطي (LDA) بذلك عن طريق إسقاط البيانات ذات البُعدين أو أكثر في بُعد واحد حتى يسهُل تصنيفها أكثر. ولذا يُشار إلى هذا الأسلوب أحيانًا باسم تقليل الأبعاد. وهذه المرونة تضمن أنه يمكن استخدام التحليل التمييزي الخطي (LDA) لتحليل مشكلات تصنيف البيانات متعددة الفئات، على عكس الانحدار اللوجستي، الذي يقتصر على طريقة التصنيف الثنائي فقط.غالبًا ما يُطبق التحليل التمييزي الخطي (LDA) لتحسين تشغيل خوارزميات تصنيف التعلم الأخرى مثل خوارزمية شجرة القرار أو خوارزمية الغابة العشوائية أو خوارزمية آلات المتجهات الداعمة (SVM).

أصل التحليل التمييزي الخطي

يعتمد التحليل التمييزي الخطي (LDA) على التمييز الخطي لفيشر، وهو طريقة إحصائية طورها السير "Ronald Fisher" في ثلاثينيات القرن العشرين ثم جرى تبسيطها فيما بعد على يد عالم الرياضيات "C. R. Rao" كإصدار متعدد الفئات.وتهدف طريقة فيشر إلى تحديد مجموعة خطية من السمات التي تميز بين فئتين أو أكثر من فئات الكائنات أو الأحداث المصنفة.

تقلل طريقة فيشر الأبعاد عن طريق فصل فئات البيانات المسقَطة.وهذا الفصل يعني تكبير المسافة بين الوسائل المتوقعة لأقصى حد وتقليل التباين المتوقع داخل الفئات لأدنى حد.

تطبيق عملي على التحليل التمييزي الخطي (LDA)

لنفترض أن بنكًا من البنوك بصدد اتخاذ قرار عما إذا كان سيوافق على طلبات القروض أم يرفضها. البنك يستخدم سمتين لاتخاذ هذا القرار: درجة ائتمان مقدم الطلب ودخله السنوي.

وهنا، تُرسم السمتين أو الفئتين على مستوى ثنائي الأبعاد باستخدام محور X-Y.فإذا حاولنا تصنيف الموافقات باستخدام سمة واحدة فقط، فسوف نلاحظ التداخل.أما من خلال تطبيق التحليل التمييزي الخطي (LDA) فيمكننا رسم خط مستقيم يفصل تمامًا بين نقطتي بيانات الفئتين. ويحقق لنا التحليل التمييزي الخطي (LDA) ذلك باستخدام المحورX–Y لإنشاء محور جديد، ليفصل بين الفئات المختلفة بخط مستقيم وإسقاط البيانات على المحور الجديد.

لإنشاء هذا المحور الجديد وتقليل الأبعاد، يتبع تحليلُ التمييز الخطي (LDA) المعايير التالية:

  • تكبير المسافة بين متوسطات الفئتين لأقصى حد.
  • تقليل التباين داخل الفئات الفردية.

خصائص وافتراضات التحليل التمييزي الخطي (LDA)

تعمل التحليلات التمييزية الخطية (LDA) عن طريق إسقاط مساحة للخاصية، أي مجموعة بيانات ذات أبعاد n، على مساحة أصغر "k"، حيث يكون k أقل من أو يساوي n – 1، دون فقدان معلومات الفئة. ويشتمل نموذج التحليل التمييزي الخطي (LDA) على الخصائص الإحصائية المحسوبة للبيانات الموجودة في كل فئة. وعندما تكون هناك سمات أو متغيرات متعددة، تُحسب هذه الخصائص عبر التوزيع الغاوسي متعدد المتغيرات3.

المتغيرات المتعددة هي:

  • المتوسط
  • مصفوفة التغاير، التي تقيس مدى ارتباط كل متغير أو خاصية بالمتغيرات الأخرى داخل الفئة ذاتها

يجب إدخال الخصائص الإحصائية المقدَّرة من مجموعة البيانات في دالة التحليل التمييزي الخطي (LDA) لإجراء تنبؤات وإنشاء نموذج LDA. ولكن هناك بعض القيود يجب أخذها في الاعتبار، إذ يفترض النموذج ما يلي:

  • تحتوي مجموعة البيانات المدخلة على توزيع احتمالات يُسمَّى توزيع غاوسي، حيث يظهر التوزيع على شكل "منحنى جرسي" عند رسمه بيانيًا باستخدام نقاط البيانات.
  • وتكون مجموعة البيانات قابلة للفصل خطيًا، مما يعني أن التحليل التمييزي الخطي (LDA) يمكنه رسم خط مستقيم أو حدود قرار تفصل بين نقاط البيانات.
  • وكل فئة لها مصفوفة التغاير ذاتها.

لهذه الأسباب، قد لا يؤدي التحليل التمييزي الخطي (LDA) الأداء الجيد في مساحات السمات عالية الأبعاد.

دور المتجهات الذاتية والقيم الذاتية

يتضمن تقليل الأبعاد فصل نقاط البيانات باستخدام خط مستقيم. وتُحلَّل التحولات الخطية رياضيًا باستخدام المتجهات الذاتية والقيم الذاتية. لنفترض أنك تُخطِّط مجموعة بيانات متعددة السمات، مما أدى إلى حصولك على مخطط تشتت متعدد الأبعاد. توفر المتجهات الذاتية "الاتجاه" داخل مخطط التشتت.وتُشير القيم الذاتية إلى أهمية هذه البيانات الاتجاهية.إذ تعني القيمة الذاتية العالية أن المتجه الذاتي المرتبط له أهمية أكبر.

في أثناء تقليل الأبعاد، تُحسَب المتجهات الذاتية من مجموعة البيانات ثم تُجمع في مصفوفتين من مصفوفات مخطط التشتت:

  • مصفوفة مخطط التشتت بين الفئات (معلومات عن انتشار البيانات داخل كل فئة)
  • مصفوفة مخطط التشتت داخل الفئة (كيفية توزيع الفئات فيما بينها).
تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

التجهيز لتنفيذ التحليل التمييزي الخطي

لاستخدام التحليل التمييزي الخطي (LDA) على نحوٍ فعال، من الضروري تجهيز مجموعة البيانات مسبقًا. وفيما يلي خطوات وأفضل ممارسات تنفيذ التحليل التمييزي الخطي (LDA):

1. عالِج البيانات مسبقًا للتأكد من توحيدها وتمركزها

ويحدث ذلك بتمرير معلمة مكون-n الخاصة بالتحليل التمييزي الخطي (LDA)، التي تحدد عدد التمايزات الخطية المطلوب استردادها.

2. اختر عددًا مناسبًا من الأبعاد للمساحة منخفضة الأبعاد

ويحدث ذلك بتمرير معلمة مكون-n الخاصة بالتحليل التمييزي الخطي (LDA)، التي تحدد عدد التمايزات الخطية المطلوب استردادها.

3. ضبط النموذج

يهدف الضبط إلى منع الإفراط في الملاءمة، حيث يتناسب النموذج الإحصائي تمامًا مع بيانات التدريب ويُضعِف من دقتها.

4. استخدام التحقق المتبادل لتقييم أداء النموذج

يُمكنك تقييم المصنِّفات مثل التحليل التمييزي الخطي (LDA) عن طريق رسم مصفوفة الإرباك، حيث تظهر بها قيم الفئة الفعلية في صفوف وقيم الفئة المتوقعة في أعمدة. وتجعل مصفوفة الإرباك من السهل معرفة ما إذا كان المصنِّف يخلط بين فئتين؛ أي: تتم تسمية فئة واحدة باسم فئة أخرى عن طريق الخطأ.على سبيل المثال، ضع في اعتبارك مصفوفة إرباك 10 × 10 التي تتنبأ بالصور من صفر إلى 9. وتُرسم القيم الفعلية في صفوف على المحور y. تُرسم التنبؤات في أعمدة على المحور x. لمعرفة عدد المرات التي يرتبك فيها المصنِّف ما بين صور الأربعات والتسعات في مثال مصفوفة الإرباك 10 × 10، يجب التحقق من الصف الرابع والعمود التاسع.

كيف تعمل دالة التمييز الخطي

تساعد وظيفة التمييز الخطي في اتخاذ القرارات في مشكلات التصنيف بفصل نقاط البيانات بناءً على السمات وتصنيفها إلى فئات أو تصنيفات مختلفة. ويمكن تلخيص عملية الحساب في هذه الخطوات الرئيسية:

حساب التباين بين الفئات

التباين بين الفئات هو إمكانية الفصل بين الفئات—أي المسافة بين متوسطات الفئة.

حساب التباين داخل الفئة

التباين داخل كل فئة يعني المسافة بين متوسطات الفئة والعينات.

يُمكنك إسقاط البيانات في مساحة منخفضة الأبعاد

يؤدي هذا إلى زيادة التباين بين الفئات إلى الحد الأقصى وتقليل التباين داخل الفئة. يمكننا تمثيل دالة التمييز الخطي لفئتين رياضيًا بالمعادلة التالية.

δ(x) = x * ( σ2 * (μ01) - 2 * σ2 * (μ0212) + ln(P(w0) / P(w1)))

حيث:

  • δ(x) يمثل دالة التمييز الخطي.
  • x يمثل نقطة بيانات الإدخال.
  • μ0 و μ1 هما متوسطا الفئتين.
  • σ2 هو التباين المشترك داخل الفئة.
  • P(ω0) و P(ω1) هي الاحتمالات السابقة للفئتين.

تطبيق التحليل التمييزي الخطي (LDA) على مثال

لنستخدم المعادلة ونطبقها في مثال الموافقة على القرض. كما سبق وقلنا إن البنك يفكر فيما إذا كان سيوافق على طلبات القروض أو يرفضها. يستخدم البنك سمتين لاتخاذ هذا القرار: درجة ائتمان مقدم الطلب (x) ودخله السنوي. لقد جمَّع البنك بيانات تاريخية عن طالبي القروض السابقين وما إذا تمت الموافقة على القروض.

  • الفئة ω0 تمثل "تم رفض القرض."
  • الفئة ω1 تمثل "تمت الموافقة على القرض".

باستخدام دالة التمييز الخطي، يستطيع البنك حساب الدرجة (δ(x)) لكل طلب قرض. 

قد يبدو تشابهاً بين معادلة دالة التمييز الخطي وهذا الشكل:

δ(x) = x * ( σ2 * (μ01) - 2 * σ2 * (μ0212) + ln(P(w0) / P(w1)))

  • x يمثل درجة ائتمان مقدم الطلب ودخله السنوي.
  • μ0 و μ1 هي متوسطات هذه السمات لهاتين الفئتين: "تم رفض القرض" و"تمت الموافقة على القرض".
  • σ2 هو التباين المشترك داخل الفئة.
  • P (ω0) هو الاحتمال السابق "لرفض القرض"، و P (ω1) هو الاحتمال السابق "للموافقة على القرض".

يحسب البنك دالة التمييز الخطية لكل طلب قرض.

  • إذا كانت قيمة δ(x) موجبة، فهذا يُشير إلى أن طلب القرض من المرجح أن تتم الموافقة عليه.
  • إذا كانت قيمة δ(x) سلبية، فهذا يُشير إلى أن طلب القرض من المرجح أن يُرفض.

وبالتالي يستطيع البنك أتمتة عملية الموافقة على القروض، واتخاذ قرارات أسرع وأكثر اتساقًا مع تقليل التحيز البشري.

تطبيقات التحليل التمييزي الخطي

هذه سيناريوهات نموذجية حيث يمكن تطبيق التحليل التمييزي الخطي (LDA) لمعالجة المشكلات المعقدة ومساعدة المؤسسات على اتخاذ قرارات أفضل.

تقييم مخاطر الائتمان في التمويل

للتخفيف من المخاطر، على المؤسسات المالية تحديد العجز الائتماني وتقليله لأدنى حد. يساعد التحليل التمييزي الخطي (LDA) في تمييز مقدمي طلب القرض الذين من المحتمل أن يتخلفوا عن سداد القرض عن أولئك الذين يتمتعون بجدارة ائتمانية (قدرة عل السداد) من خلال غربلة العوامل المالية وبيانات السلوك.

تشخيص الأمراض في مجال الرعاية الصحية

لا شك أن التشخيص السريع والدقيق للمرض مهمان جدًا للتوصل إلى العلاج الفعال. وعلى المستشفيات ومقدمي الرعاية الصحية تفسير كمية هائلة من البيانات الطبية. يساعد التحليل التمييزي الخطي (LDA) في تبسيط مجموعات البيانات المعقدة وتحسين دقة التشخيص من خلال تحديد الأنماط والعلاقات الموجودة في بيانات المريض.

تقسيم العملاء إلى شرائح في التجارة الإلكترونية

لضمان التسويق الفعال، يجب أن تكون شركات التجارة الإلكترونية قادرة على تصنيف قواعد العملاء المتنوعة. ويمثل التحليل التمييزي الخطي (LDA) دورًا محوريًا في تقسيم العملاء إلى شرائح، مما يمكّن شركات التجارة الإلكترونية من تصميم استراتيجياتها التسويقية بما يلائم مختلف مجموعات العملاء. وستكون النتيجة تحقيق تجارب تسوق أكثر تخصيصًا حسب احتياجات كل عميل، وترسيخ ولاء العملاء وزيادة المبيعات.

مراقبة الجودة والتصنيع

يُعَد إنتاج سلع عالية الجودة مع تقليل عيوب المنتج إلى أدنى حد تحديًا أساسيًا. ويمكن استخدام بيانات الاستشعار من الآلات مع التحليل التمييزي الخطي (LDA) لتحديد الأنماط المرتبطة بالعيوب. ومن خلال اكتشاف الحالات اللاقياسية في الوقت الفعلي، يمكن لشركات التصنيع اتخاذ إجراءات تصحيحية فورية، وبالتالي يستطيعون تحسين جودة المنتج وتقليل الهدر والفاقد.

تحسين الحملة التسويقية

يُمكنك زيادة ميزانيتك الإعلانية إلى أقصى حد باستهداف الجمهور المناسب بمحتوى مخصص، لكن قد يكون من الصعب تحديد شرائح الجمهور المعنية. وبإمكان التحليل التمييزي الخطي (LDA) تبسيط هذه العملية من خلال تصنيف سمات العملاء وسلوكياتهم، مما يحسِّن من تخصيص الحملات الإعلانية. ويُمكن أن يؤدي هذا النهج إلى تحقيق عائد استثمار أعلى وتجربة عملاء أفضل.

التحليل التمييزي الخطي ولغة Python

للتعمق أكثر في التحليل التمييزي الخطي باستخدام Python والاستفادة من مكتبة scikit-learn، يمكنك استكشاف هذا البرنامج التعليمي تعلم خوارزميات التصنيف باستخدام Python و scikit-learn في ™IBM watsonx. يساعدك هذا البرنامج التعليمي في أساسيات حل مشكلة التعلم الآلي القائم على التصنيف باستخدام Python و scikit-learn (المعروف أيضًا باسم sklearn).

في البرنامج التعليمي التدريجي، تستورد أولاً مكتبات Python اللازمة للعمل مع مجموعة بيانات Iris، ثم إجراء المعالجة المسبقة للبيانات، ثم إنشاء نموذج التحليل التمييزي الخطي (LDA) وتقييمه:

<Python code snippet>

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

إذا كانت المكتبات لم تُثبَّت بعدُ، فيمكنك حل هذه المشكلة باستخدام pip install.

طالع أيضًا وثائق scikit-learn للحصول على نظرة عامة عن المعلمات الرئيسية والسمات والأمثلة العامة لتطبيقات Python باستخدام sklearn.discriminant_analysis.LinearDiscriminantAnalysis.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

مزايا وعيوب استخدام التحليل التمييزي الخطي

يُعَد فهم مزايا وقيود التحليل التمييزي الخطي (LDA) أمرًا بالغ الأهمية عند تطبيق هذا النوع من التحليل على مختلف مشكلات التصنيف. إذ تساعد معرفة مدى الموازنات (اكتساب ميزة بالتنازل عن أخرى) علماء البيانات وممارسي التعلم الآلي في اتخاذ قرارات مستنيرة عن مدى ملاءمتها لمهمة معينة.

المزايا الرئيسية

  • استخدم بساطة وكفاءة الحساب: التحليل التمييزي الخطي (LDA) هو خوارزمية بسيطة ولكنها قوية. من السهل نسبيًا فهمه وتنفيذه، مما يجعله في متناول المبتدئين في التعلم الآلي. كما تتضمن حساباته الفعالة النتائج السريعة.
  • إدارة البيانات عالية الأبعاد: يكون LDA فعالًا عندما يكون عدد السمات أكبر من عدد عينات التدريب. لذلك، يعتبر LDA ذا قيمة في تطبيقات مثل تحليل النصوص والتعرف على الصور وعلم الجينوم، حيث غالبًا ما تكون البيانات عالية الأبعاد.
  • التعامل مع التعدد الخطي: يمكن أن يعالج LDA التعدد الخطي، وهو وجود ارتباطات عالية بين السمات المختلفة. فهو يحول البيانات إلى مساحة ذات أبعاد أقل مع الحفاظ على سلامة المعلومات.

العيوب الرئيسية

- توزيعات المتوسطات المشتركة: يواجه التحليل التمييزي الخطي (LDA) تحديات عندما تتشارك توزيعاتُ الفئات في المتوسطات. إذ يحاول التحليل التمييزي الخطي (LDA) إنشاء محور جديد يفصل بين الفئتين خطيًا. ونتيجة لذلك، قد لا يميز التحليل التمييزي الخطي (LDA) جيدًا بين الفئات ذات الخصائص الإحصائية المتداخلة غالبًا.على سبيل المثال، تخيل سيناريو يكون فيه نوعان من الزهور لهما طول وعرض بتلات متشابهان إلى حد كبير. قد تجد التحليل التمييزي الخطي (LDA) صعوبة في فصل هذه الأنواع بناءً على هذه السمات وحدها. ويفضل هنا اتباع أساليب بديلة، مثل أساليب التحليل التمييزي غير الخطية.

- غير مناسب للبيانات غير المصنَّفة: يُطبّق التحليل التمييزي الخطي (LDA) على أنه خوارزمية تعلم خاضعة للإشراف؛ أي أنها تصنِّف أو تفصل البيانات المصنَّفة. وعلى العكس من ذلك، نجد أن تحليل المكونات الأساسية (PCA)، وهو أسلوب آخر لتقليل الأبعاد، يتجاهل تسميات الفئات ويحافظ على التباين.

حلول ذات صلة

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا