ما مصنِّفات Naïve Bayes؟

ما مصنِّفات Naïve Bayes؟

مصنِّفات Naïve Bayes هي خوارزمية تعلم آلي خاضع للإشراف تُستخدم في مهام التصنيف مثل تصنيف النصوص. وهي تستخدم مبادئ الاحتمالية لأداء مهام التصنيف.

تُعَد Naïve Bayes جزءًا من عائلة خوارزميات التعلم التوليدي، ما يعني أنها تسعى إلى نمذجة توزيع الإدخالات لفئة معينة. وعلى عكس المصنِّفات التمييزية مثل الانحدار اللوجستي، فإنه لا يتعلم أي الميزات هي الأهم للتفريق بين الفئات.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لمحة سريعة عن الإحصائيات القائمة على Bayes

يُعرف Naïve Bayes أيضًا بأنه مصنِّف احتمالي لأنه يعتمد على نظرية Bayes. وسيكون من الصعب شرح هذه الخوارزمية دون شرح أساسيات إحصائيات Bayes. تُتيح لنا هذه النظرية، المعروفة أيضًا بقانون Bayes، "عكس" الاحتمالات الشرطية. للتذكير، تمثِّل الاحتمالات الشرطية احتمالية حدوث حدث معين بشرط وقوع حدث آخر، ويتم تمثيل ذلك بالصيغة التالية:

تتميز نظرية Bayes باستخدامها للأحداث المتتابعة، حيث تؤثر المعلومات الإضافية التي يتم الحصول عليها لاحقًا في الاحتمال الأوَّلي. يتم تمثيل هذه الاحتمالات على أنها الاحتمال السابق والاحتمال اللاحق. الاحتمال السابق هو الاحتمال الأوَّلي لحدث ما قبل وضعه في سياق معين أو الاحتمال الهامشي. الاحتمال اللاحق هو احتمال وقوع حدث بعد مراقبة جزء من البيانات.

ومن الأمثلة الشائعة في الإحصائيات وأدبيات التعلم الآلي (يؤدي الرابط إلى صفحة خارج موقع ibm.com) لتوضيح هذا المفهوم الاختبارات الطبية. على سبيل المثال، تخيَّل أن هناك فتاة، تُدعى سارة، تخضع لاختبار لتحديد إذا ما كانت مصابة بمرض السكري. لنفترض أن الاحتمال الإجمالي للإصابة بمرض السكري هو 5%. سيكون هذا هو احتمالنا السابق. ومع ذلك، إذا حصلت على نتيجة إيجابية في الفحص، يتم تحديث الاحتمال السابق لمراعاة هذه المعلومات الإضافية، ثم يصبح الاحتمال اللاحق لدينا. يمكن تمثيل هذا المثال بالمعادلة التالية، باستخدام نظرية Bayes:

ومع ذلك، نظرًا لأن معرفتنا بالاحتمالات السابقة من غير المرجح أن تكون دقيقة بالنظر إلى المتغيرات الأخرى، مثل النظام الغذائي والعمر والتاريخ العائلي وما إلى ذلك، فإننا عادةً ما نستفيد من التوزيعات الاحتمالية من العينات العشوائية، ونبسط المعادلة إلى P (Y | X) = P (X | Y) /P (X)

العودة إلى Naïve Bayes

تعمل مصنِّفات Naïve Bayes بطريقة مختلفة حيث إنها تعمل بناءً على افتراضات رئيسية، ما يمنحها لقب "naïve"، أي "ساذجة". وهي تفترض أن المتنبئين في نموذج Naïve Bayes مستقلون شرطيًا، أو غير مرتبطين بأيٍّ من الميزات الأخرى في النموذج. وتفترض أيضًا أن جميع الميزات تساهم بالتساوي في النتيجة. على الرغم من أن هذه الافتراضات غالبًا ما تكون غير صحيحة في السيناريوهات الواقعية (على سبيل المثال، الكلمة التالية في البريد الإلكتروني تعتمد على الكلمة التي تسبقها)، إلا أنها تبسط مشكلة التصنيف ما يجعلها أكثر قابلية للحل حسابيًا. أي أنه لن تكون هناك حاجة الآن إلا إلى احتمال واحد لكل متغير، ما يجعل حساب النموذج أسهل. على الرغم من افتراض الاستقلال غير الواقعي هذا، فإن خوارزمية التصنيف تعمل بشكل جيد، لا سيما مع أحجام العينات الصغيرة.

مع مراعاة هذا الافتراض، يمكننا الآن إعادة النظر في أجزاء مصنِّف Naïve Bayes بشكل أكثر تفصيلًا. ومثلما هو الحال في قانون Bayes، سيستخدم الاحتمالات الشرطية والاحتمالات الأولية لحساب الاحتمالات اللاحقة باستخدام الصيغة التالية:

الآن ، دعنا نتخيل حالة استخدام تصنيف النص لتوضيح كيفية عمل خوارزمية Naïve Bayes. تخيل أن هناك مزودًا لخدمة البريد الإلكتروني يسعى إلى تحسين فلتر البريد العشوائي. ستتكون بيانات التدريب من كلمات من رسائل البريد الإلكتروني التي تم تصنيفها على أنها "بريد عشوائي" أو "بريد غير عشوائي". من هذه النقطة، يتم حساب الاحتمالات الشرطية للفئات والاحتمالات السابقة للحصول على الاحتمال اللاحق. وسيعمل مصنِّف Naïve Bayes عن طريق إعادة الفئة التي تمتلك أكبر احتمال لاحق من بين مجموعة الفئات (أي "بريد عشوائي" أو "بريد غير عشوائي") لبريد إلكتروني معين. ويتم تمثيل هذا الحساب بالصيغة التالية:

نظرًا لأن كل فئة تشير إلى الجزء نفسه من النص، يمكننا في الواقع حذف المقام من هذه المعادلة، وتبسيطها إلى

يتم بعد ذلك تقييم دقة خوارزمية التعلم استنادًا إلى مجموعة بيانات التدريب بناءً على أداء مجموعة بيانات الاختبار.

الاحتمالات الشرطية للفئة

لتوضيح ذلك بشكل أكبر، سنتعمق في التفاصيل أكثر لنفهم الأجزاء الفردية التي تشكِّل هذه الصيغة. الاحتمالات الشرطية للفئات هي الاحتمالات الفردية لكل كلمة في رسالة بريد إلكتروني. ويتم حسابها عن طريق تحديد تكرار كل كلمة لكل فئة، أي "بريد عشوائي" أو "بريد غير عشوائي"، والذي يُعرَف أيضًا باسم تقدير الاحتمالية القصوى (MLE). في هذا المثال، إذا كنا نفحص العبارة "سيدي العزيز"، سنحسب مدى تكرار تلك الكلمات في جميع رسائل البريد العشوائي وغير العشوائي. يمكن تمثيل ذلك بالصيغة أدناه ، حيث y هي "سيدي العزيز" و x هي "بريد عشوائي".

الاحتمالات السابقة

الاحتمالات السابقة هي بالضبط ما وصفناه سابقًا باستخدام نظرية Bayes. استنادًا إلى مجموعة التدريب، يمكننا حساب الاحتمال الإجمالي بأن يكون البريد الإلكتروني "بريد عشوائي" أو "بريد غير عشوائي". سيتم تمثيل الاحتمالية السابقة لتصنيف الفئة، "بريد عشوائي"، في المعادلة التالية:

يعمل الاحتمال السابق باعتباره "وزنًا" للاحتمال الشرطي للفئة عند ضرب القيمتين معًا، ما ينتج عنه الاحتمالات اللاحقة الفردية. من هنا، يتم حساب تقدير الحد الأقصى للاحتمال الشرطي (MAP) لتعيين تصنيف الفئة على أنه "بريد عشوائي" أو غير عشوائي". يمكن تمثيل المعادلة النهائية لمعادلة Naïve Bayesian بالطرق التالية:

بدلًا من ذلك، يمكن تمثيلها في مساحة اللوغاريتمات حيث يُستخدم Naïve Bayes عادةً بهذه الصيغة:

تقييم مصنِّف Naïve Bayes لديك

تتمثل إحدى طرق تقييم المصنِّف في رسم مصفوفة الالتباس، التي ستعرض القيم الفعلية والمتوقعة ضمن مصفوفة. تمثل الصفوف بشكل عام القيم الفعلية بينما تمثل الأعمدة القيم المتوقعة. ستوضح العديد من الأدلة هذا الشكل كمخطط 2 × 2، مثل ما يلي:

ومع ذلك، إذا كنت تتوقع صورًا من الصفر إلى التسعة، سيكون لديك مخطط بحجم 10 × 10. وإذا أردت معرفة عدد المرات التي "اختلط" فيها المصنِّف بين صور الرقم 4 وصور الرقم 9، فكل ما عليك هو التحقق من الصف الرابع والعمود التاسع.

أنواع مصنِّفات Naïve Bayes

لا يوجد نوع واحد فقط من مصنِّف Naïve Bayes. وتختلف الأنواع الأكثر شيوعًا بناءً على توزيعات قيم الميزات. ومن بين هذه الأنواع:

  • Gaussian Naïve Bayes ‏(GaussianNB): هذه نسخة من مصنِّف Naïve Bayes، ويُستخدم مع التوزيعات الغاوسية، أي التوزيعات العادية والمتغيرات المستمرة. يتم تجهيز هذا النموذج من خلال إيجاد المتوسط والانحراف المعياري لكل فئة.
  • Multinomial Naïve Bayes ‏(MultinomialNB): هذا النوع من مصنِّف Naïve Bayes يفترض أن الميزات تأتي من توزيعات متعددة الحدود. هذا البديل مفيد عند استخدام البيانات المنفصلة، مثل تعداد التردد، وعادةً ما يتم تطبيقه في حالات استخدام معالجة اللغة الطبيعية، مثل تصنيف رسائل البريد العشوائي.
  • Bernoulli Naïve Bayes ‏(BernoulliNB): هذا هو نوع آخر من مصنِّف Naïve Bayes، الذي يُستخدم مع متغيرات Boolean، أي المتغيرات ذات القيمتين مثل True وFalse أو 1 و0.

يمكن تنفيذ كل ذلك من خلال Scikit Learn (يؤدي الرابط إلى صفحة خارج موقع ibm.com)، مكتبة Python (المعروفة أيضًا باسم sklearn).

Mixture of Experts | 25 أبريل، الحلقة 52

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم في أثناء سعيهم للتغلب على الفوضى والضوضاء المحيطة بالذكاء الاصطناعي لتزويدك بأحدث أخباره والرؤى المتعلقة به.

مزايا وعيوب مصنِّف Naïve Bayes

المزايا

  • أقل تعقيدًا: مقارنةً بالمصنِّفات الأخرى، يُعتبر مصنِّف Naïve Bayes مصنفًا أبسط؛ نظرًا لسهولة تقدير المَعلمات. نتيجةً لذلك، يُعَد واحدًا من أولى الخوارزميات التي تم تعلمها في دورات علم البيانات والتعلم الآلي.
  • مقاييس جيدة: بالمقارنة مع الانحدار اللوجستي، يُعتبر مصنِّف Naïve Bayes مصنفًا سريعًا وفعَّالًا ودقيقًا إلى حدٍ ما عندما يكون افتراض الاستقلال الشرطي قائمًا. كما أن متطلبات التخزين الخاصة به منخفضة.
  • إمكانية التعامل مع البيانات عالية الأبعاد: يمكن أن تحتوي حالات الاستخدام، مثل تصنيف المستندات، على عدد كبير من الأبعاد، والتي قد يكون من الصعب على المصنِّفات الأخرى التعامل معها.

العيوب:

  • عرضة للتكرار الصفري: يحدث التكرار الصفري عندما لا توجد متغيرات تصنيفية ضمن مجموعة التدريب. على سبيل المثال، تخيل أننا نحاول العثور على مقدِّر الاحتمالية القصوى لكلمة "سيدي" بالنظر إلى فئة "بريد عشوائي"، لكن كلمة "سيدي" غير موجودة في بيانات التدريب. الاحتمال في هذه الحالة سيكون صفرًا، وبما أن هذا المصنف يضرب جميع الاحتمالات الشرطية معًا، فهذا يعني أيضًا أن الاحتمال اللاحق سيكون صفرًا. لتجنب هذه المشكلة، يمكن الاستفادة من التمهيد باستخدام لابلاس.
  • افتراض أساسي غير واقعي: في حين أن افتراض الاستقلال الشرطي يؤدي بشكل عام أداءً جيدًا، إلا أن الافتراض لا يصمد دائمًا، ما يؤدي إلى تصنيفات غير صحيحة.

تطبيقات مصنِّف Naïve Bayes

إلى جانب عدد من الخوارزميات الأخرى، تنتمي Naïve Bayes إلى عائلة من خوارزميات التنقيب عن البيانات التي تحوِّل كميات كبيرة من البيانات إلى معلومات مفيدة. وتتضمن بعض تطبيقات Naïve Bayes ما يلي:

  • تصفية البريد العشوائي: يُعَد تصنيف رسائل البريد العشوائي أحد أكثر تطبيقات برنامج Naïve Bayes الساذج شيوعًا المذكورة في الأدبيات. لقراءة أعمق حول حالة الاستخدام هذه، راجع هذا الفصل من Oreilly (يؤدي الرابط إلى صفحة خارج موقع ibm.com).
  • تصنيف المستندات: يرتبط كلٌّ من تصنيف الوثائق والنصوص ارتباطًا وثيقًا. من حالات الاستخدام الشائعة الأخرى Naïve Bayes هي تصنيف المحتوى. تخيل فئات المحتوى الخاصة بموقع الوسائط الإخبارية. يمكن تصنيف جميع فئات المحتوى تحت تصنيف الموضوع بناءً على كل مقالة على الموقع. يعود الفضل إلى Federick Mosteller وDavid Wallace في أول تطبيق لاستدلال Bayes في ورقتهما البحثية عام 1963 (يؤدي الرابط إلى صفحة خارج موقع ibm.com).
  • تحليل المشاعر: في حين أن هذا شكل آخر من أشكال تصنيف النصوص، عادةً ما تتم الاستفادة من تحليل المشاعر في مجال التسويق لفهم الآراء والمواقف حول منتجات وعلامات تجارية معينة وتحديدها بشكل أفضل. 
  • تنبؤات الحالة العقلية: باستخدام بيانات التصوير بالرنين المغناطيسي الوظيفي، تمت الاستفادة من نظام الرنين المغناطيسي الوظيفي الساذج للتنبؤ بالحالات الإدراكية المختلفة بين البشر. كان هدف هذا البحث (يؤدي الرابط إلى صفحة خارج موقع ibm.com) هو المساعدة على فهم أفضل للحالات المعرفية المخفية، وخاصةً بين مرضى إصابات الدماغ.
حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا