شجرة القرار هي خوارزمية تعلم خاضعة للإشراف غير معيارية، والتي يتم استخدامها لمهام التصنيف والانحدار. إنها تمتلك بنية شجرية هرمية تتكون من عقدة الجذر والفروع والعقد الداخلية والعقد الورقية.
كما ترى من الرسم البياني أدناه ، تبدأ شجرة القرار بعقدة جذر ، والتي لا تحتوي على أي فروع واردة. ثم تغذي الفروع الصادرة من العقدة الجذرية العقد الداخلية ، والمعروفة أيضا باسم عقد القرار. استنادا إلى الميزات المتاحة ، يقوم كلا النوعين من العقد بإجراء تقييمات لتشكيل مجموعات فرعية متجانسة ، والتي يشار إليها بالعقد الورقية أو العقد الطرفية. تمثل العقد الورقية جميع النتائج المحتملة ضمن مجموعة البيانات.
على سبيل المثال ، دعنا نتخيل أنك كنت تحاول تقييم ما إذا كان يجب عليك ركوب الأمواج أم لا ، يمكنك استخدام قواعد القرار التالية لاتخاذ قرار:
يؤدي هذا النوع من هيكل المخطط الانسيابي أيضًا إلى إنشاء تمثيل سهل الاستيعاب لعملية صنع القرار، مما يسمح للمجموعات المختلفة في المؤسسة بفهم سبب اتخاذ القرار بشكل أفضل.
يستخدم تعلم شجرة القرار استراتيجية فرق تسد من خلال إجراء بحث جشع لتحديد نقاط الانقسام المثلى داخل الشجرة. ثم تتكرر عملية التقسيم هذه بطريقة متكررة من أعلى إلى أسفل حتى يتم تصنيف جميع السجلات أو معظمها تحت تسميات فئة محددة.
يعتمد تصنيف جميع نقاط البيانات على أنها مجموعات متجانسة أم لا إلى حد كبير على تعقيد شجرة القرار. الأشجار الصغيرة أكثر قدرة على الوصول إلى عقد الأوراق النقية بسهولة أكبر - أي نقاط البيانات في فئة واحدة. ومع ذلك، مع نمو حجم الشجرة، يصبح من الصعب بشكل متزايد الحفاظ على هذا النقاء، وعادة ما يؤدي ذلك إلى انخفاض البيانات التي تقع داخل شجرة فرعية معينة. عندما يحدث هذا، يعرف باسم تجزئة البيانات، ويمكن أن يؤدي في كثير من الأحيان إلى الإفراط في التجهيز.
نتيجة لذلك ، تفضل أشجار القرار الأشجار الصغيرة ، وهو ما يتوافق مع مبدأ البخل في Occam's Razor. أي أنه "لا ينبغي مضاعفة الكيانات بما يتجاوز الضرورة". وبعبارة أخرى، يجب أن تضيف أشجار القرار التعقيد فقط إذا لزم الأمر، لأن أبسط تفسير غالبا ما يكون الأفضل. لتقليل التعقيد ومنع الإفراط في التجهيز ، عادة ما يتم استخدام التقليم ؛ هذه عملية تزيل الفروع التي تنقسم إلى ميزات ذات أهمية منخفضة. يمكن بعد ذلك تقييم مدى ملاءمة النموذج من خلال عملية التحقق التبادلي.
هناك طريقة أخرى يمكن أن تحافظ بها أشجار القرار على دقتها وهي تشكيل مجموعة عبر خوارزمية غابة عشوائية؛ يتنبأ هذا المصنف بنتائج أكثر دقة، خاصة عندما تكون الأشجار الفردية غير مرتبطة ببعضها البعض.
خوارزمية هانت (Hunt)، التي تم تطويرها في ستينيات القرن العشرين لنمذجة التعلم البشري في علم النفس، تشكل الأساس للعديد من خوارزميات شجرة القرار الشائعة، مثل ما يلي:
- ID3: يعود الفضل إلى Ross Quinlan في تطوير ID3، وهو اختصار لعبارة "المُقسِّم الثنائيّ التكراريّ 3". تستفيد هذه الخوارزمية من الانتروبيا وكسب المعلومات كمقاييس لتقييم التقسيمات المرشحة. يمكن العثور على بعض أبحاث Quinlan حول هذه الخوارزمية من عام 1986 هنا.
- C4.5: تعتبر هذه الخوارزمية تكرارًا لاحقًا لـ ID3، والذي تم تطويره أيضًا بواسطة Quinlan. يمكنها استخدام نسب كسب المعلومات أو الكسب لتقييم نقاط الانقسام داخل أشجار القرار.
- CART: المصطلح CART هو اختصار لعبارة "أشجار التصنيف والانحدار" وقد قدمه Leo Breiman. تستخدم هذه الخوارزمية عادة شوائب جيني (Gini) لتحديد السمة المثالية للانقسام عليها. تقيس شوائب جيني عدد المرات التي يتم فيها تصنيف سمة تم اختيارها عشوائيا بشكل خاطئ. عند التقييم باستخدام شوائب جيني ، تكون القيمة الأقل أكثر مثالية.
في حين أن هناك طرقا متعددة لتحديد أفضل سمة في كل عقدة، فإن طريقتين، اكتساب المعلومات وشوائب جيني، تعملان كمعيار تقسيم شائع لنماذج شجرة القرار. فهي تساعد في تقييم جودة كل حالة اختبار ومدى قدرتها على تصنيف العينات إلى فئة.
من الصعب تفسير الحصول على المعلومات دون مناقشة الانتروبيا أولاً. الانتروبيا هو مفهوم ينبع من نظرية المعلومات، التي تقيس شوائب قيم العينة. وتُعرَّف بالصيغة التالية، حيث:
يمكن أن تقع قيم الإنتروبيا بين 0 و 1. إذا كانت جميع العينات في مجموعة البيانات، S، تنتمي إلى فئة واحدة، فإن الإنتروبيا تساوي صفرًا. إذا تم تصنيف نصف العينات على أنها فئة واحدة والنصف الآخر في فئة أخرى ، فستكون الإنتروبيا في أعلى مستوياتها عند 1. من أجل تحديد أفضل ميزة للتقسيم عليها والعثور على شجرة القرار المثلى ، يجب استخدام السمة التي تحتوي على أقل قدر من الإنتروبيا.
اكتساب المعلومات يمثل الفرق في الانتروبيا قبل وبعد الانقسام على سمة معينة. ستنتج السمة التي تحتوي على أعلى اكتساب للمعلومات أفضل تقسيم لأنها تقوم بأفضل عمل في تصنيف بيانات التدريب وفقا لتصنيفها المستهدف. عادةً ما يتم تمثيل كسب المعلومات بالصيغة التالية،
حيث
دعونا نأخذ مثالاً لتوضيح هذه المفاهيم. تخيل أن لدينا مجموعة البيانات التعسفية التالية:
بالنسبة لمجموعة البيانات هذه ، تكون الإنتروبيا 0.94. يمكن حساب ذلك من خلال إيجاد نسبة الأيام التي يكون فيها "لعب التنس" هو "نعم" ، وهو 9/14 ، ونسبة الأيام التي يكون فيها "لعب التنس" هو "لا" ، وهو 5/14. بعد ذلك ، يمكن توصيل هذه القيم بصيغة الإنتروبيا أعلاه.
الإنتروبيا (تنس) = - (9/14) log2 (9/14) - (5/14) log2 (5/14) = 0.94
يمكننا بعد ذلك حساب اكتساب المعلومات لكل سمة على حدة. على سبيل المثال، سيكون اكتساب المعلومات للسمة «الرطوبة» كما يلي:
الربح (التنس والرطوبة) = (0.94) - (7/14) * (0.985) — (7/14) * (0.592) = 0.151
كملخص ،
- 7/14 يمثل نسبة القيم التي تساوي فيها الرطوبة "عالية" إلى إجمالي عدد قيم الرطوبة. في هذه الحالة ، يكون عدد القيم التي تساوي فيها الرطوبة "عالية" هو نفس عدد القيم التي تساوي فيها الرطوبة "طبيعية".
- 0.985 هي الإنتروبيا عندما تكون الرطوبة = "عالية"
- 0.59 هي الإنتروبيا عندما الرطوبة = "طبيعية"
بعد ذلك، كرر حساب اكتساب المعلومات لكل سمة في الجدول أعلاه، وحدد السمة ذات أعلى كسب للمعلومات لتكون نقطة الانقسام الأولى في شجرة القرار. في هذه الحالة، ينتج Outlook أعلى مكسب للمعلومات. من هناك، يتم تكرار العملية لكل شجرة فرعية.
شوائب جيني هي احتمال تصنيف نقطة البيانات العشوائية بشكل غير صحيح في مجموعة البيانات إذا تم تصنيفها بناء على التوزيع الطبقي لمجموعة البيانات. على غرار الانتروبيا، إذا تم ضبطها، S ، فهي نقية—أي تنتمي إلى فئة واحدة) إذن، شوائبها صفر. يشار إلى ذلك بالصيغة التالية:
بينما يمكن استخدام أشجار القرار في مجموعة متنوعة من حالات الاستخدام، فإن الخوارزميات الأخرى عادة ما تتفوق على خوارزميات شجرة القرار. ومع ذلك، فإن أشجار القرار مفيدة بشكل خاص لاستخراج البيانات ومهام اكتشاف المعرفة. دعنا نستكشف الفوائد والتحديات الرئيسية لاستخدام أشجار القرار أكثر أدناه:
IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
استكشف أساليب التعلم الخاضعة للإشراف مثل مصنفات آلات المتجهات الداعمة والمصنفات الاحتمالية.
تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.
تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.