إن التحليل التمييزي الخطي (LDA) أحد الأساليب المستخدمة في التعلم الآلي الخاضع للإشراف لحل مشكلات التصنيف متعددة الفئات. إذ يحدث في التحليل التمييزي الخطي (LDA) فصل الفئات المتعددة ذات الخصائص المتعددة من خلال تقليل أبعاد البيانات. ويُعَد هذا الأسلوب مهمًا في علم البيانات؛ لأنه يساعد في تحسين نماذج التعلم الآلي.
ويتبع التحليل التمييزي الخطي، ويُعرَف أيضًا باسم التحليل التمييزي العادي (NDA) أو تحليل الوظيفة التمييزية (DFA)، إطار النموذج التوليدي.وهذا يعني أن خوارزميات التحليل التمييزي الخطي (LDA) تُنمذج توزيع البيانات لكل فئة وتستخدم نظرية بايز1 لتصنيف نقاط بيانات جديدة. إذ تحسب نظرية بايز الاحتمالات الشرطية—وهي احتمال وقوع حدث في ظل وقوع حدث مختلف.وتُجري خوارزميات التحليل التمييزي الخطي (LDA) التنبؤات باستخدام نظرية بايز لحساب احتمالية إذا ما كانت مجموعة بيانات الإدخال ستنتمي إلى مخرج معين. لمراجعة الإحصاءات البايزية ومعرفة كيفية تأثيرها في خوارزميات التعلم الخاضع للإشراف، قم بزيارة مصنِّفات بايز الساذج.
يعمل التحليل التمييزي الخطي (LDA) بتحديد مجموعة خطية من السمات التي تميز أو تفصل بين فئتين أو أكثر من فئات الكائنات أو الأحداث. ويقوم التحليل التمييزي الخطي (LDA) بذلك عن طريق إسقاط البيانات ذات البُعدين أو أكثر في بُعد واحد حتى يسهُل تصنيفها أكثر. ولذا يُشار إلى هذا الأسلوب أحيانًا باسم تقليل الأبعاد. وهذه المرونة تضمن أنه يمكن استخدام التحليل التمييزي الخطي (LDA) لتحليل مشكلات تصنيف البيانات متعددة الفئات، على عكس الانحدار اللوجستي، الذي يقتصر على طريقة التصنيف الثنائي فقط.غالبًا ما يُطبق التحليل التمييزي الخطي (LDA) لتحسين تشغيل خوارزميات تصنيف التعلم الأخرى مثل خوارزمية شجرة القرار أو خوارزمية الغابة العشوائية أو خوارزمية آلات المتجهات الداعمة (SVM).
يعتمد التحليل التمييزي الخطي (LDA) على التمييز الخطي لفيشر، وهو طريقة إحصائية طورها السير "Ronald Fisher" في ثلاثينيات القرن العشرين ثم جرى تبسيطها فيما بعد على يد عالم الرياضيات "C. R. Rao" كإصدار متعدد الفئات.وتهدف طريقة فيشر إلى تحديد مجموعة خطية من السمات التي تميز بين فئتين أو أكثر من فئات الكائنات أو الأحداث المصنفة.
تقلل طريقة فيشر الأبعاد عن طريق فصل فئات البيانات المسقَطة.وهذا الفصل يعني تكبير المسافة بين الوسائل المتوقعة لأقصى حد وتقليل التباين المتوقع داخل الفئات لأدنى حد.
لنفترض أن بنكًا من البنوك بصدد اتخاذ قرار عما إذا كان سيوافق على طلبات القروض أم يرفضها. البنك يستخدم سمتين لاتخاذ هذا القرار: درجة ائتمان مقدم الطلب ودخله السنوي.
وهنا، تُرسم السمتين أو الفئتين على مستوى ثنائي الأبعاد باستخدام محور X-Y.فإذا حاولنا تصنيف الموافقات باستخدام سمة واحدة فقط، فسوف نلاحظ التداخل.أما من خلال تطبيق التحليل التمييزي الخطي (LDA) فيمكننا رسم خط مستقيم يفصل تمامًا بين نقطتي بيانات الفئتين. ويحقق لنا التحليل التمييزي الخطي (LDA) ذلك باستخدام المحورX–Y لإنشاء محور جديد، ليفصل بين الفئات المختلفة بخط مستقيم وإسقاط البيانات على المحور الجديد.
لإنشاء هذا المحور الجديد وتقليل الأبعاد، يتبع تحليلُ التمييز الخطي (LDA) المعايير التالية:
تعمل التحليلات التمييزية الخطية (LDA) عن طريق إسقاط مساحة للخاصية، أي مجموعة بيانات ذات أبعاد n، على مساحة أصغر "k"، حيث يكون k أقل من أو يساوي n – 1، دون فقدان معلومات الفئة. ويشتمل نموذج التحليل التمييزي الخطي (LDA) على الخصائص الإحصائية المحسوبة للبيانات الموجودة في كل فئة. وعندما تكون هناك سمات أو متغيرات متعددة، تُحسب هذه الخصائص عبر التوزيع الغاوسي متعدد المتغيرات3.
المتغيرات المتعددة هي:
يجب إدخال الخصائص الإحصائية المقدَّرة من مجموعة البيانات في دالة التحليل التمييزي الخطي (LDA) لإجراء تنبؤات وإنشاء نموذج LDA. ولكن هناك بعض القيود يجب أخذها في الاعتبار، إذ يفترض النموذج ما يلي:
لهذه الأسباب، قد لا يؤدي التحليل التمييزي الخطي (LDA) الأداء الجيد في مساحات السمات عالية الأبعاد.
يتضمن تقليل الأبعاد فصل نقاط البيانات باستخدام خط مستقيم. وتُحلَّل التحولات الخطية رياضيًا باستخدام المتجهات الذاتية والقيم الذاتية. لنفترض أنك تُخطِّط مجموعة بيانات متعددة السمات، مما أدى إلى حصولك على مخطط تشتت متعدد الأبعاد. توفر المتجهات الذاتية "الاتجاه" داخل مخطط التشتت.وتُشير القيم الذاتية إلى أهمية هذه البيانات الاتجاهية.إذ تعني القيمة الذاتية العالية أن المتجه الذاتي المرتبط له أهمية أكبر.
في أثناء تقليل الأبعاد، تُحسَب المتجهات الذاتية من مجموعة البيانات ثم تُجمع في مصفوفتين من مصفوفات مخطط التشتت:
لاستخدام التحليل التمييزي الخطي (LDA) على نحوٍ فعال، من الضروري تجهيز مجموعة البيانات مسبقًا. وفيما يلي خطوات وأفضل ممارسات تنفيذ التحليل التمييزي الخطي (LDA):
1. عالِج البيانات مسبقًا للتأكد من توحيدها وتمركزها
ويحدث ذلك بتمرير معلمة مكون-n الخاصة بالتحليل التمييزي الخطي (LDA)، التي تحدد عدد التمايزات الخطية المطلوب استردادها.
2. اختر عددًا مناسبًا من الأبعاد للمساحة منخفضة الأبعاد
ويحدث ذلك بتمرير معلمة مكون-n الخاصة بالتحليل التمييزي الخطي (LDA)، التي تحدد عدد التمايزات الخطية المطلوب استردادها.
3. ضبط النموذج
يهدف الضبط إلى منع الإفراط في الملاءمة، حيث يتناسب النموذج الإحصائي تمامًا مع بيانات التدريب ويُضعِف من دقتها.
4. استخدام التحقق المتبادل لتقييم أداء النموذج
يُمكنك تقييم المصنِّفات مثل التحليل التمييزي الخطي (LDA) عن طريق رسم مصفوفة الإرباك، حيث تظهر بها قيم الفئة الفعلية في صفوف وقيم الفئة المتوقعة في أعمدة. وتجعل مصفوفة الإرباك من السهل معرفة ما إذا كان المصنِّف يخلط بين فئتين؛ أي: تتم تسمية فئة واحدة باسم فئة أخرى عن طريق الخطأ.على سبيل المثال، ضع في اعتبارك مصفوفة إرباك 10 × 10 التي تتنبأ بالصور من صفر إلى 9. وتُرسم القيم الفعلية في صفوف على المحور y. تُرسم التنبؤات في أعمدة على المحور x. لمعرفة عدد المرات التي يرتبك فيها المصنِّف ما بين صور الأربعات والتسعات في مثال مصفوفة الإرباك 10 × 10، يجب التحقق من الصف الرابع والعمود التاسع.
تساعد وظيفة التمييز الخطي في اتخاذ القرارات في مشكلات التصنيف بفصل نقاط البيانات بناءً على السمات وتصنيفها إلى فئات أو تصنيفات مختلفة. ويمكن تلخيص عملية الحساب في هذه الخطوات الرئيسية:
التباين بين الفئات هو إمكانية الفصل بين الفئات—أي المسافة بين متوسطات الفئة.
التباين داخل كل فئة يعني المسافة بين متوسطات الفئة والعينات.
يؤدي هذا إلى زيادة التباين بين الفئات إلى الحد الأقصى وتقليل التباين داخل الفئة. يمكننا تمثيل دالة التمييز الخطي لفئتين رياضيًا بالمعادلة التالية.
δ(x) = x * ( σ2 * (μ0-μ1) - 2 * σ2 * (μ02-μ12) + ln(P(w0) / P(w1)))
حيث:
لنستخدم المعادلة ونطبقها في مثال الموافقة على القرض. كما سبق وقلنا إن البنك يفكر فيما إذا كان سيوافق على طلبات القروض أو يرفضها. يستخدم البنك سمتين لاتخاذ هذا القرار: درجة ائتمان مقدم الطلب (x) ودخله السنوي. لقد جمَّع البنك بيانات تاريخية عن طالبي القروض السابقين وما إذا تمت الموافقة على القروض.
باستخدام دالة التمييز الخطي، يستطيع البنك حساب الدرجة (δ(x)) لكل طلب قرض.
قد يبدو تشابهاً بين معادلة دالة التمييز الخطي وهذا الشكل:
δ(x) = x * ( σ2 * (μ0-μ1) - 2 * σ2 * (μ02-μ12) + ln(P(w0) / P(w1)))
يحسب البنك دالة التمييز الخطية لكل طلب قرض.
وبالتالي يستطيع البنك أتمتة عملية الموافقة على القروض، واتخاذ قرارات أسرع وأكثر اتساقًا مع تقليل التحيز البشري.
هذه سيناريوهات نموذجية حيث يمكن تطبيق التحليل التمييزي الخطي (LDA) لمعالجة المشكلات المعقدة ومساعدة المؤسسات على اتخاذ قرارات أفضل.
للتخفيف من المخاطر، على المؤسسات المالية تحديد العجز الائتماني وتقليله لأدنى حد. يساعد التحليل التمييزي الخطي (LDA) في تمييز مقدمي طلب القرض الذين من المحتمل أن يتخلفوا عن سداد القرض عن أولئك الذين يتمتعون بجدارة ائتمانية (قدرة عل السداد) من خلال غربلة العوامل المالية وبيانات السلوك.
لا شك أن التشخيص السريع والدقيق للمرض مهمان جدًا للتوصل إلى العلاج الفعال. وعلى المستشفيات ومقدمي الرعاية الصحية تفسير كمية هائلة من البيانات الطبية. يساعد التحليل التمييزي الخطي (LDA) في تبسيط مجموعات البيانات المعقدة وتحسين دقة التشخيص من خلال تحديد الأنماط والعلاقات الموجودة في بيانات المريض.
لضمان التسويق الفعال، يجب أن تكون شركات التجارة الإلكترونية قادرة على تصنيف قواعد العملاء المتنوعة. ويمثل التحليل التمييزي الخطي (LDA) دورًا محوريًا في تقسيم العملاء إلى شرائح، مما يمكّن شركات التجارة الإلكترونية من تصميم استراتيجياتها التسويقية بما يلائم مختلف مجموعات العملاء. وستكون النتيجة تحقيق تجارب تسوق أكثر تخصيصًا حسب احتياجات كل عميل، وترسيخ ولاء العملاء وزيادة المبيعات.
يُعَد إنتاج سلع عالية الجودة مع تقليل عيوب المنتج إلى أدنى حد تحديًا أساسيًا. ويمكن استخدام بيانات الاستشعار من الآلات مع التحليل التمييزي الخطي (LDA) لتحديد الأنماط المرتبطة بالعيوب. ومن خلال اكتشاف الحالات اللاقياسية في الوقت الفعلي، يمكن لشركات التصنيع اتخاذ إجراءات تصحيحية فورية، وبالتالي يستطيعون تحسين جودة المنتج وتقليل الهدر والفاقد.
يُمكنك زيادة ميزانيتك الإعلانية إلى أقصى حد باستهداف الجمهور المناسب بمحتوى مخصص، لكن قد يكون من الصعب تحديد شرائح الجمهور المعنية. وبإمكان التحليل التمييزي الخطي (LDA) تبسيط هذه العملية من خلال تصنيف سمات العملاء وسلوكياتهم، مما يحسِّن من تخصيص الحملات الإعلانية. ويُمكن أن يؤدي هذا النهج إلى تحقيق عائد استثمار أعلى وتجربة عملاء أفضل.
للتعمق أكثر في التحليل التمييزي الخطي باستخدام Python والاستفادة من مكتبة scikit-learn، يمكنك استكشاف هذا البرنامج التعليمي تعلم خوارزميات التصنيف باستخدام Python و scikit-learn في ™IBM watsonx. يساعدك هذا البرنامج التعليمي في أساسيات حل مشكلة التعلم الآلي القائم على التصنيف باستخدام Python و scikit-learn (المعروف أيضًا باسم sklearn).
في البرنامج التعليمي التدريجي، تستورد أولاً مكتبات Python اللازمة للعمل مع مجموعة بيانات Iris، ثم إجراء المعالجة المسبقة للبيانات، ثم إنشاء نموذج التحليل التمييزي الخطي (LDA) وتقييمه:
<Python code snippet>
import numpy as np import pandas as pd import matplotlib.pyplot as plt import sklearn import seaborn as sns from sklearn.preprocessing import StandardScaler, LabelEncoder from sklearn.model_selection import train_test_split from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, confusion_matrix
إذا كانت المكتبات لم تُثبَّت بعدُ، فيمكنك حل هذه المشكلة باستخدام pip install.
طالع أيضًا وثائق scikit-learn للحصول على نظرة عامة عن المعلمات الرئيسية والسمات والأمثلة العامة لتطبيقات Python باستخدام sklearn.discriminant_analysis.LinearDiscriminantAnalysis.
يُعَد فهم مزايا وقيود التحليل التمييزي الخطي (LDA) أمرًا بالغ الأهمية عند تطبيق هذا النوع من التحليل على مختلف مشكلات التصنيف. إذ تساعد معرفة مدى الموازنات (اكتساب ميزة بالتنازل عن أخرى) علماء البيانات وممارسي التعلم الآلي في اتخاذ قرارات مستنيرة عن مدى ملاءمتها لمهمة معينة.
- توزيعات المتوسطات المشتركة: يواجه التحليل التمييزي الخطي (LDA) تحديات عندما تتشارك توزيعاتُ الفئات في المتوسطات. إذ يحاول التحليل التمييزي الخطي (LDA) إنشاء محور جديد يفصل بين الفئتين خطيًا. ونتيجة لذلك، قد لا يميز التحليل التمييزي الخطي (LDA) جيدًا بين الفئات ذات الخصائص الإحصائية المتداخلة غالبًا.على سبيل المثال، تخيل سيناريو يكون فيه نوعان من الزهور لهما طول وعرض بتلات متشابهان إلى حد كبير. قد تجد التحليل التمييزي الخطي (LDA) صعوبة في فصل هذه الأنواع بناءً على هذه السمات وحدها. ويفضل هنا اتباع أساليب بديلة، مثل أساليب التحليل التمييزي غير الخطية.
- غير مناسب للبيانات غير المصنَّفة: يُطبّق التحليل التمييزي الخطي (LDA) على أنه خوارزمية تعلم خاضعة للإشراف؛ أي أنها تصنِّف أو تفصل البيانات المصنَّفة. وعلى العكس من ذلك، نجد أن تحليل المكونات الأساسية (PCA)، وهو أسلوب آخر لتقليل الأبعاد، يتجاهل تسميات الفئات ويحافظ على التباين.
IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
استكشف أساليب التعلم الخاضعة للإشراف مثل مصنفات آلات المتجهات الداعمة والمصنفات الاحتمالية.
تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
1 James Joyce،نظرية بايز،موسوعة ستانفورد للفلسفة، 2003
2Dan A. Simovici، ملاحظات مقتبسة من محاضرة عن اسم التمييز الخطي لفيشر، 2013
3 كلية إيبرلي للعلوم بجامعة ولاية بنسلفانيا، التحليل التمييزي الخطي، 2023
4 J. T. Oates، ملاحظات مقتبسة من محاضرة عن التحليل التمييزي الخطي، 2014
5 Guangliang Chen، ملاحظات مقتبسة من محاضرة عن التحليل التمييزي الخطي، 2020
6, 7 مكتبة Scikit-learn، التحليل التمييزي الخطي والتربيعي، 2023
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io