ما هي الغابة العشوائية؟

ما هي الغابة العشوائية؟

Random forest هي خوارزمية تعلم آلي شائعة الاستخدام، مسجلة كعلامة تجارية بواسطة Leo Breiman وAdele Cutler، تجمع بين نواتج عمليات اتخاذ القرار المتعددة للوصول إلى نتيجة واحدة. وقد ساعدت سهولة استخدامها ومرونتها على تبنيها، لأنها تعالج مشاكل التصنيف والانحدار.

أشجار القرار

نظرًا لأن نموذج الغابة العشوائية يتكون من أشجار قرار متعددة، سيكون من المفيد البدء بوصف خوارزمية شجرة القرار بإيجاز. تبدأ أشجار القرار بسؤال أساسي، مثل «هل يجب أن أتصفح الإنترنت؟» من هناك، يمكنك طرح سلسلة من الأسئلة لتحديد الإجابة، مثل ”هل هي موجة طويلة الأمد؟“ أو ”هل تهب الرياح بعيداً عن الشاطئ؟ تشكّل هذه الأسئلة عقد القرار في الشجرة، وتعمل كوسيلة لتقسيم البيانات. يساعد كل سؤال الفرد على الوصول إلى قرار نهائي، والذي سيتم الإشارة إليه بواسطة عقدة الورقة. الملاحظات التي تناسب المعايير ستتبع فرع "نعم" والتي لا تناسبها ستتبع المسار البديل. تسعى أشجار القرار للعثور على أفضل تقسيم للبيانات الفرعية، وعادةً ما يتم تدريبها من خلال خوارزمية التصنيف وشجرة الانحدار (CART). يمكن استخدام مقاييس، مثل شوائب جيني أو اكتساب المعلومات أو متوسط الخطأ التربيعي (MSE) لتقييم جودة التقسيم.

شجرة القرار هذه هي مثال على مشكلة التصنيف التي تكون فيها تسمية الفئة هي "تصفح" و"لا تتصفح".

على الرغم من أن أشجار القرار هي خوارزميات شائعة للتعلم خاضعة للإشراف، إلا أنها قد تكون عرضة للمشاكل، مثل التحيز والإفراط في التكييف. ومع ذلك، عندما تُشكّل أشجار القرار المتعددة مجموعة في خوارزمية الغابة العشوائية، فإنها تتنبأ بنتائج أكثر دقة، خاصةً عندما تكون الأشجار الفردية غير مترابطة مع بعضها البعض.

طرق التجميع

تتكون طرق تعلّم المجموعة من مجموعة من عوامل التصنيف؛ مثل مخططات تسلسل القرارات والتي يتم تجميع توقعاتها لتحديد النتائج الأكثر شيوعًا. وأكثر طرق التجميع شهرة هي التعبئة، المعروفة أيضًا باسم تجميع التشغيل التمهيدي، والتعزيز. في عام 1996، قدم ليو بريمان (الرابط موجود خارج ibm.com) طريقة التعبئة؛ حيث يتم في هذه الطريقة اختيار عينة عشوائية من البيانات في مجموعة التدريب مع الاستبدال؛ مما يعني أنه يمكن اختيار نقاط البيانات الفردية أكثر من مرة. ثم بعد إنشاء العديد من عينات البيانات، يتم تدريب هذه النماذج بشكل مستقل، اعتمادًا على نوع المهمة، مثل الانحدار أو التصنيف، ثم ينتج عن متوسط تلك التوقعات أو معظمها تقديرٌ أكثر دقة. ويُستخدم هذا النهج بشكل شائع لتقليل التباين داخل مجموعة البيانات المشوشة.

خوارزمية الغابة العشوائية

تُعدّ خوارزمية الغابة العشوائية امتدادًا لطريقة التعبئة لأنها تستخدم كلاً من التعبئة وعشوائية الميزات لإنشاء غابة غير مترابطة من أشجار القرارات. تعمل عشوائية الميزة، والمعروفة أيضًا باسم تعبئة الميزات أو "طريقة المساحة الفرعية العشوائية" (الرابط موجود خارج ibm.com)، على توليد مجموعة فرعية عشوائية من الميزات، مما يضمن ارتباطًا منخفضًا بين أشجار القرارات. وهذا هو الفرق الرئيسي بين أشجار القرارات والغابات العشوائية. بينما تأخذ أشجار القرارات في الاعتبار جميع تقسيمات الميزات المحتملة، فإن الغابات العشوائية تحدد فقط مجموعة فرعية من هذه الميزات.

إذا عدنا إلى مثال "هل يجب أن أركب الأمواج؟"، فإن الأسئلة التي قد أطرحها لتحديد التوقع قد لا تكون شاملة مثل مجموعة الأسئلة التي يطرحها شخص آخر. من خلال أخذ جميع التباينات المحتملة في البيانات في الحسبان، يمكننا تقليل مخاطر الإفراط في التكييف والتحيز والتباين الكلي، مما يؤدي إلى تنبؤات أكثر دقة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

طريقة العمل

تحتوي خوارزميات الغابة العشوائية على ثلاث معاملات فرعية رئيسية، والتي يجب ضبطها قبل التدريب. يتضمن ذلك حجم العقدة وعدد الأشجار وعدد الميزات التي تم أخذ عينات منها. من هناك، يمكن استخدام أداة تصنيف الغابة العشوائية لحل مشاكل الانحدار أو التصنيف.

تتألف خوارزمية الغابة العشوائية من مجموعة من أشجار القرار، وتتألف كل شجرة في المجموعة من عينة بيانات مأخوذة من مجموعة تدريب مع الاستبدال، وتسمى عينة التمهيد. من عينة التدريب هذه ، يتم تخصيص ثلثها كبيانات اختبار، والمعروفة باسم عينة خارج الحقيبة (OOB)، والتي سنعود إليها لاحقًا. يتم بعد ذلك إدخال مثال آخر من العشوائية من خلال تعبئة الميزات، وإضافة المزيد من التنوع إلى مجموعة البيانات وتقليل الارتباط بين أشجار القرار. اعتمادًا على نوع المشكلة، سيختلف تحديد التنبؤ. بالنسبة لمهمة الانحدار، سيتم حساب متوسط أشجار القرارات الفردية، وبالنسبة لمهمة التصنيف، فإن التصويت بالأغلبية، أي المتغير الفئوي الأكثر شيوعًا، سيؤدي إلى الفئة المتوقعة. أخيرًا، يتم استخدام عينة oob للتحقق المتبادل، ووضع اللمسات الأخيرة على هذا التنبؤ.

مزايا وتحديات الغابات العشوائية

هناك عدد من المزايا والتحديات الرئيسية التي تظهر عند استخدام "خوارزمية الغابة العشوائية" في حل مشكلات التصنيف أو الانحدار. ومنها ما يلي:

الفوائد الرئيسية

  • تقليل مخاطر فرط التخصيص: تتعرض أشجار القرارات لخطر فرط التخصيص لأنها تميل إلى احتواء جميع العينات بإحكام ضمن بيانات التدريب. ومع ذلك، عندما يكون هناك عدد كبير من أشجار القرارات في غابة عشوائية، فلن يفرط عامل التصنيف في ملاءمة النموذج لأن متوسط الأشجار غير المترابطة يقلل التباين الكلي ومن خطأ التنبؤ.
  • توفر المرونة: نظرًا لأن الغابة العشوائية يمكنها التعامل مع كل من مهام الانحدار والتصنيف بدرجة عالية من الدقة، فهي طريقة شائعة بين علماء البيانات. كما أن تجميع الميزات يجعل من أداة تصنيف الغابة العشوائية أداة فعالة لتقدير القيم المفقودة حيث يحافظ على الدقة عندما يكون جزء من البيانات مفقودًا.
  • من السهل تحديد أهمية الميزة: تسهل الغابات العشوائية تقييم أهمية المتغير أو المساهمة في النموذج. هناك عدة طرق لتقييم أهمية الميزة. تُستخدم عادة أهمية جيني ومتوسط الانخفاض في الشوائب (MDI) لقياس مدى انخفاض دقة النموذج عند استبعاد متغير معين. ومع ذلك فإن أهمية التبادل، المعروفة أيضًا باسم دقة تقليل المتوسط (MDA)، هي مقياس آخر للأهمية. تحدد MDA متوسط انخفاض الدقة من خلال التبادل العشوائي لقيم الميزات في عينات خارج النطاق.

التحديات الرئيسية

  • عملية تستغرق وقتا طويلا: نظرا لأن خوارزميات الغابات العشوائية يمكنها التعامل مع مجموعات البيانات الكبيرة، يمكن أن توفر تنبؤات أكثر دقة، ولكن يمكن أن تكون بطيئة في معالجة البيانات لأنها تقوم بحوسبة البيانات لكل شجرة قرار فردية.
  • تتطلب المزيد من الموارد: نظرًا لأن الغابات العشوائية تعالج مجموعات بيانات أكبر، فإنها تتطلب المزيد من الموارد لتخزين تلك البيانات.
  • أكثر تعقيدًا: من السهل تفسير تنبؤ شجرة قرار واحدة عند مقارنتها بغابة من الأشجار.
Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

تطبيقات الغابات العشوائية

تم تطبيق خوارزمية الغابة العشوائية في عدد من الصناعات، مما سمح لهم باتخاذ قرارات أفضل في مجال الأعمال. فيما يلي بعض حالات الاستخدام:

  • التمويل: تُعدّ خوارزمية مفضلة على غيرها لأنها تقلل الوقت المستغرق في إدارة البيانات ومهام المعالجة المسبقة. ويمكن استخدامها لتقييم العملاء الذين يعانون من مخاطر ائتمانية عالية، وللكشف عن الغش والاحتيال، ومشكلات تسعير الخيارات.
  • الرعاية الصحية: خوارزمية الغابة العشوائية لها تطبيقات في مجال علم الأحياء الحسابي (يوجد الرابط خارج موقع ibm.com)، مما يسمح للأطباء بمعالجة مشاكل مثل تصنيف التعبير الجيني، واكتشاف المؤشرات الحيوية، وشرح التسلسل. ونتيجة لذلك، يمكن للأطباء إجراء تقديرات حول مدى استجابة مادة الدواء لأدوية علاجية محددة.
  • التجارة الإلكترونية: يمكن استخدامها لمحركات التوصية لأغراض البيع التبادلي.
حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا