ما المقصود بالتعلم الجماعي؟

18 مارس 2024

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

يجمع التعلم الجماعي بين متعلمين متعددين لتحسين الأداء التنبؤي. وقد تم اعتماده استجابةً للمشكلات الناتجة عن محدودية مجموعات البيانات.

التعلم الجماعي هو تقنية تعلم آلي تجمع اثنين أو أكثر من المتعلمين (على سبيل المثال، نماذج الانحدار والشبكات العصبية) لإنتاج تنبؤات أفضل. بمعنى آخر، يجمع النموذج التجميعي عدة نماذج فردية لإنتاج توقعات أكثر دقة من نموذج واحد فقط.1 وفي بعض الأحيان، قد تشير المصادر إلى هذه التقنية باسم التعلم القائم على اللجنة. يعتمد التعلم الجماعي على مبدأ أن مجموعة المتعلمين تُنتج دقة شاملة أكبر من المتعلم الفردي.2 وفي الواقع، تدعم الأبحاث فعليتها من خلال نماذج التعلم الآلي والشبكات العصبية التلافيفية (CNNs).

ملاحظة حول المصطلحات: تشير مصطلحات المتعلم الأساسي، والنموذج الأساسي، وفي بعض الحالات، المقدِّر الأساسي إلى النموذج الفردي أو النماذج المستخدمة في خوارزميات المجموعة. تقوم المراجع أيضًا بتقسيم المتعلمين الأساسيين إلى متعلمين أقوياء ومتعلمين ضعفاء. يتم تعريف النماذج الضعيفة أو المتعلمين الضعفاء على أنهم أولئك الذين يؤدون أداءً أفضل قليلًا من التخمين العشوائي. بالنسبة إلى مشاكل التصنيف الثنائي، فإن المصنِّفات الضعيفة هي تلك التي تحقِّق دقة بنسبة خمسين بالمئة تقريبًا. على النقيض من ذلك، تحقِّق النماذج القوية أو المتعلمون الأقوياء أداءً تنبؤيًا ممتازًا، والذي يُعتبر في التصنيف الثنائي مساويًا لدقة قدرها ثمانون بالمئة أو أكبر منها.3

لاحظ أن بعض المصادر تخلط بين المتعلم الضعيف والمتعلم الأساسي؛ نظرًا لأن أساليب التجميع، وخاصة المتسلسلة منها، تعزِّز بشكل فعَّال المتعلمين الضعفاء إلى متعلمين أقوياء.4

لماذا يجب استخدام التعلم الجماعي؟

مفاضلة بين التحيز والتباين

تُعَد المفاضلة بين التحيز والتباين مشكلة معروفة في التعلم الآلي ومبدأ محفزًا للعديد من تقنيات التنظيم . يمكننا تعريفها على النحو التالي:

- التحيز يقيس متوسط الفرق بين القيم المتوقعة والقيم الحقيقية. فمع زيادة التحيز، يتنبأ النموذج بدقة أقل في مجموعة بيانات التدريب. ويشير التحيز العالي إلى الخطأ الكبير في التدريب. ويشير التحسين إلى محاولات تقليل التحيز.

- التباين يقيس الفرق بين التنبؤات في الإحداثات المتنوعة في نموذج واحد معين. ومع زيادة التباين، يتنبأ النموذج بدقة أقل بشأن البيانات غير المرئية. ويشير التباين العالي إلى خطأ كبير في أثناء الاختبار والتحقق من الصحة. ويشير التعميم إلى محاولات تقليل التباين.

وبالتالي فإن التحيز والتباين يمثلان دقة النموذج عكسيًا في بيانات التدريب والاختبار على التوالي.5 يوجد حدَّان من ثلاثة حدود يشكِّلان معدل الخطأ الإجمالي للنموذج، والثالث هو الخطأ غير القابل للاختزال. يشير هذا الحد الثالث إلى الخطأ الناتج عن العشوائية المتأصلة في مجموعة البيانات. ويمكن تعريف إجمالي خطأ النموذج بالصيغة:6

مقارنة بين العديد من النماذج ونموذج واحد

تتكون أي خوارزمية تدريب نموذج واحد من العديد من المتغيرات -على سبيل المثال، بيانات التدريب والمَعلمات الفائقة وما إلى ذلك- التي تؤثِّر في الخطأ الكلي للنموذج اللاحق. وبالتالي، يمكن حتى لخوارزمية تدريب واحدة أن تُنتج نماذج مختلفة، لكل منها تحيزها وتباينها ومعدلات الخطأ غير القابلة للاختزال الخاصة بها. ومن خلال الجمع بين العديد من النماذج المتنوعة، يمكن أن تؤدي خوارزميات المجموعة إلى معدل خطأ إجمالي أقل مع الاحتفاظ بالتعقيدات والمزايا الخاصة بكل نموذج فردي، مثل التحيز المنخفض بشكل ملحوظ لمجموعة فرعية محددة من البيانات.7

تشير الأبحاث إلى أنه بشكل عام، كلما زاد التنوع بين النماذج المدمجة، زادت دقة النموذج الجماعي الناتج. وبالتالي يمكن للتعلم الجماعي معالجة مشكلات الانحدار مثل الإفراط في التخصيص دون التخلي عن تحيز النموذج. في الواقع، تشير الأبحاث إلى أن المجموعات المكونة من نماذج متنوعة غير منتظمة (أي النماذج التي تتناسب مع بيانات التدريب الخاصة بها) تتفوق على النماذج الفردية المنظمة.8 بالإضافة إلى ذلك، يمكن أن تساعد تقنيات التعلم الجماعي على حل المشكلات الناتجة عن البيانات عالية الأبعاد، وبالتالي تعمل بشكل فعَّال كبديل لتقليل الأبعاد.

أنواع النماذج الجماعية

تصنِّف المراجع على نطاق واسع أساليب التعلم الجماعي في التعلم الآلي إلى مجموعتين: متوازية ومتسلسلة.

- تقوم الأساليب المتوازية بتدريب كل متعلم أساسي بصرف النظر عن غيره من المتعلمين الآخرين. ووفقًا لاسمها، تقوم المجموعات المتوازية بتدريب المتعلمين الأساسيين بالتوازي وبشكل مستقل عن بعضهم.

- تقوم الأساليب المتسلسلة بتدريب متعلم أساسي جديد بحيث يقلل من الأخطاء التي ارتكبها النموذج السابق الذي تم تدريبه في الخطوة السابقة. بمعنى آخر، تقوم الأساليب المتسلسلة ببناء نماذج الأساس بشكل متسلسل على مراحل.9

تنقسم الأساليب المتوازية إلى أساليب متجانسة وغير متجانسة. تستخدم المجموعات المتوازية المتجانسة خوارزمية التعلم الأساسية نفسها لإنتاج جميع المتعلمين الأساسيين. تستخدم المجموعات المتوازية غير المتجانسة خوارزميات مختلفة لإنتاج متعلمين أساسيين.10

التصويت

كيف تجمع أساليب التجميع المتعلمين الأساسيين في متعلم نهائي؟ بعض التقنيات -على سبيل المثال، التكديس- تستخدم خوارزميات تعلم آلي منفصلة لتدريب متعلم جماعي من المتعلمين الأساسيين. لكن إحدى الطرق الشائعة لتوحيد توقعات المتعلم الأساسي هي التصويت، وبشكل أكثر دقة، التصويت بالأغلبية.

يأخذ التصويت بالأغلبية في الاعتبار تنبؤ كل متعلم أساسي لمثيل بيانات معين ويُنتج تنبؤًا نهائيًا يحدده ما يتوقعه غالبية المتعلمين. على سبيل المثال، في مشكلة التصنيف الثنائي، يأخذ التصويت بالأغلبية التنبؤات من كل مصنِّف أساسي لمثيل بيانات معين ويستخدم تنبؤ الأغلبية كتنبؤ نهائي. التصويت بالأغلبية المرجحة هو امتداد لهذه التقنية التي تعطي وزنًا أكبر لتنبؤات بعض المتعلمين مقارنةً بالآخرين.11

تقنيات التعلم الجماعي

ربما تكون ثلاثة من أكثر أساليب التعلم الجماعي شيوعًا هي التعبئة والتعزيز والتخزين. في الواقع، هذه الأساليب معًا تجسِّد الفروق بين الأنواع المتسلسلة والمتوازية والمتجانسة وغير المتجانسة من أساليب التجميع.

لاحظ أن هذه النظرة العامة ليست شاملة؛ فهناك العديد من أساليب التجميع الإضافية، مثل المزج والمجموعات المتوسطة المرجحة. وهذا مجرد توضيح لبعض الأساليب البارزة في المراجع.

التعبئة

التعبئة هي طريقة متوازية متجانسة تُسمَّى أحيانًا التجميع التمهيدي. وهي تستخدم نسخًا مكررة معدلة لمجموعة بيانات تدريب معينة لتدريب العديد من المتعلمين الأساسيين بخوارزمية التدريب نفسها.12 تحتوي وحدة مجموعة Scikit-learn في Python على وظائف لتنفيذ التعبئة، مثل BaggingClassifier.

وبشكل أكثر تحديدًا، تستخدم التعبئة تقنية تُسمَّى إعادة أخذ عينات التمهيد لاشتقاق مجموعات بيانات جديدة متعددة من مجموعة بيانات تدريب أولية واحدة من أجل تدريب العديد من المتعلمين الأساسيين. كيف يعمل هذا؟ لنفترض أن مجموعة بيانات التدريب تحتوي على n من الأمثلة التدريبية. تقوم عملية أخذ عينات التمهيد بنسخ n من مثيلات البيانات من تلك المجموعة إلى مجموعة بيانات عينة فرعية جديدة، مع ظهور بعض المثيلات الأولية أكثر من مرّة واستبعاد البعض الآخر تمامًا. هذه هي عينات التمهيد. يؤدي تكرار هذه العملية x من المرّات إلى إنتاج x من التكرارات لمجموعة البيانات الأصلية، يحتوي كل منها على n من العينات من المجموعة الأولية. ثم يتم استخدام كل تكرار للمجموعة الأولية لتدريب متعلم أساسي منفصل بخوارزمية التعلم نفسها.13

الغابة العشوائية هي امتداد للتعبئة التي تشير على وجه التحديد إلى استخدام التعبئة لبناء مجموعات من أشجار القرار العشوائية. يختلف هذا عن أشجار القرار القياسية في أن الأخيرة تأخذ عينات من كل ميزة لتحديد الأفضل للتقسيم. على النقيض من ذلك، تقوم الغابات العشوائية بأخذ عينات متكررة من مجموعات فرعية عشوائية من الميزات لإنشاء عقدة قرار.14

التكديس

التكديس، أو التعميم المكدس،15 هو أسلوب موازٍ غير متجانس يُجسِّد ما يُعرَف باسم التعلم الفوقي. يتكون التعلم الفوقي من تدريب متعلم فوقي من مخرجات العديد من المتعلمين الأساسيين. يقوم التكديس بتدريب العديد من المتعلمين الأساسيين بشكل خاص من مجموعة البيانات نفسها باستخدام خوارزمية تدريب مختلفة لكل متعلم. يقوم كل متعلم أساسي بإجراء تنبؤات على مجموعة بيانات غير مرئية. يتم بعد ذلك تجميع تنبؤات النموذج الأولية هذه واستخدامها لتدريب النموذج النهائي، وهو النموذج الفوقي.16

لاحظ أهمية استخدام مجموعة بيانات مختلفة عن تلك المستخدمة لتدريب المتعلمين الأساسيين من أجل تدريب المتعلم الفوقي. يمكن أن يؤدي استخدام مجموعة البيانات نفسها لتدريب المتعلمين الأساسيين والمتعلم الفوقي إلى الإفراط في التخصيص. وقد يتطلب ذلك استبعاد مثيلات البيانات من بيانات تدريب المتعلم الأساسي لتكون بمثابة بيانات مجموعة الاختبار الخاصة به، والتي بدورها تصبح بيانات تدريب للمتعلم الفوقي. غالبًا ما توصي المراجع بتقنيات مثل التحقق المتبادل لضمان عدم تداخل مجموعات البيانات هذه.17

ومثل التعبئة، توفِّر وحدة sklearn.ensemble في Python وظائف مختلفة لتنفيذ تقنيات التكديس.

التعزيز

خوارزميات التعزيز هي طريقة تجميع متسلسلة. يحتوي التعزيز على العديد من الاختلافات، لكنها جميعًا تتبِّع الإجراء العام نفسه. يعمل التعزيز على تدريب المتعلم على بعض مجموعات البيانات الأولية، d. عادةً ما يكون المتعلم الناتج ضعيفًا، ويخطئ في تصنيف العديد من العينات في مجموعة البيانات. وعلى غرار التعبئة إلى حد كبير، يتم تعزيز المثيلات ثم أخذ عينات من مجموعة البيانات الأولية لإنشاء مجموعة بيانات جديدة (d2). ولكن على عكس التعبئة، فإن التعزيز يعطي الأولوية لمثيلات البيانات المصنَّفة بشكل خطأ من النموذج أو المتعلم الأول. يتم تدريب متعلم جديد على مجموعة البيانات الجديدة d2. ثم يتم تجميع مجموعة بيانات ثالثة (d3) من d1 وd2، مع إعطاء الأولوية للعينات المصنَّفة بشكل خطأ للمتعلم الثاني والحالات التي تختلف فيها d1 عن d2. تتكرر العملية في n من المرّات لإنتاج عدد n من المتعلمين. ثم يجمع التعزيز بين جميع المتعلمين ويقوم بوزنها معًا لإنتاج تنبؤات نهائية.18

تختلف خوارزميات التعزيز إلى حد كبير في كيفية تحديد أولويات مثيلات البيانات المتوقعة بشكل خطأ عند إنشاء مجموعة بيانات جديدة. وقد توضح اثنتان من أبرز أساليب التعزيز ذلك:

- التعزيز التكيفي (AdaBoost) يزن أخطاء النموذج. أي عند إنشاء تكرار جديد لمجموعة بيانات لتدريب المتعلم التالي، يضيف التعزيز التكيفي أوزانًا إلى عينات المتعلم السابق المصنَّفة بشكل خطأ، ما يتسبب في قيام المتعلم التالي بتحديد أولويات تلك العينات المصنَّفة بشكل خطأ.

- يستخدم التعزيز بالتدرج الأخطاء المتبقية عند تدريب المتعلمين الجُدُد. فبدلًا من وزن العينات المصنفة بشكل خطأ، يستخدم التعزيز بالتدرج الأخطاء المتبقية من نموذج سابق لتعيين تنبؤات الهدف للنموذج التالي. وبهذه الطريقة، تحاول سد فجوة الخطأ التي خلفها أحد النماذج.19

للأسف، لا يحتوي sklearn على دوال محددة مسبقًا لتنفيذ التعزيز. ومع ذلك، توفِّر مكتبة Extreme Gradient Boosting (اختصارًا XGBoost) مفتوحة المصدر رمزًا برمجيًا لتنفيذ التعزيز بالتدرج في Python.

الأبحاث الحديثة

نظرًا للصعوبات في الحصول على مجموعات بيانات كبيرة وذات استخدام عادل ومصنَّفة لتدريب المتعلمين، شهد التعلم الجماعي العديد من التطبيقات في محاولة لتحسين أداء المتعلم ببيانات أقل. على سبيل المثال، تُظهر العديد من الدراسات الحديثة نتائج واعدة مع تحسين قابلية تعميم النموذج باستخدام أساليب التجميع لمهمة رؤية الكمبيوتر، مثل تدريب عدة نماذج بتمثيلات مختلفة لمجموعة بيانات20 أو الجمع بين عدة نماذج متحيزة.21

على الرغم من قدرة أساليب التجميع على تحسين قابلية التعميم، إلا أنها قد تعاني من عدم الإنصاف. في التعلم الآلي، يشير الإنصاف إلى محاولات التخفيف من التحيز الخوارزمي (غالبًا ضد مجموعات الأقليات) في الأنظمة الآلية، وعادةً ما ينتج عن المتعلمين الذين تدربوا على البيانات الحساسة. تقترح حفنة من الدراسات استخدام المقاييس وتقنيات المعالجة المسبقة والمعالجة اللاحقة لتحسين الإنصاف في نماذج المجموعة.22 ولا تزال الجهود المتواصلة لتحسين الإنصاف والممارسات الأخلاقية في الذكاء الاصطناعي مجالًا تشتد الحاجة إلى إجراء الأبحاث بشأنه في المستقبل.

الحواشي

1 Zhi-Hua Zhou, Ensemble Methods: Foundations and Algorithms, CRC Press, 2012.

2 Gavin Brown, “Ensemble Learning,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

3 Gautam Kunapuli, Ensemble Methods for Machine Learning, Manning Publications, 2023. Lior Rokach, Pattern Classification Using Ensemble Methods, World Scientific Publishing Company, 2010.

4 Zhi-Hua Zhou, Ensemble Methods: Foundations and Algorithms, CRC Press, 2012.

5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023.

6 George Kyriakides and Konstantinos G. Margaritis, Hands-On Ensemble Learning with Python, Packt Publishing, 2019.

7 Zhi-Hua Zhou, Machine Learning, translated by Shaowu Liu, Springer, 2021. George Kyriakides and Konstantinos G. Margaritis, Hands-On Ensemble Learning with Python, Packt Publishing, 2019.

8 Peter Sollich and Anders Krogh, "Learning with ensembles: How overfitting can be useful," Advances in Neural Information Processing Systems, Vol. 8, 1995, https://papers.nips.cc/paper_files/paper/1995/hash/1019c8091693ef5c5f55970346633f92-Abstract.html.

9 Gautam Kunapuli, Ensemble Methods for Machine Learning, Manning Publications, 2023.

10 Zhi-Hua Zhou, Ensemble Methods: Foundations and Algorithms, CRC Press, 2012.

11 Ibomoiye Domor Mienye and Yanxia Sun, “A Survey of Ensemble Learning: Concepts, Algorithms, Applications, and Prospects,” IEEE Access, Vol. 10, 2022, pp. 99129-99149, https://ieeexplore.ieee.org/document/9893798. Lior Rokach, “Ensemble-based Classifiers,” Artificial Intelligence Review, Vol. 33, 2010, pp. 1-39, https://link.springer.com/article/10.1007/s10462-009-9124-7.

12 M. Galar, A. Fernandez, E. Barrenechea, H. Bustince and F. Herrera, "A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches," IEEE Transactions on Systems, Man, and Cybernetics, Vol. 42, No. 4, 2012, pp. 463-484, https://ieeexplore.ieee.org/document/5978225.

13 Zhi-Hua Zhou, Ensemble Methods: Foundations and Algorithms, CRC Press, 2012.

14 Gautam Kunapuli, Ensemble Methods for Machine Learning, Manning Publications, 2023.

15 Robi Palikar, “Ensemble Learning,” Ensemble Machine Learning: Methods and Applications, Springer, 2012.

16 Ibomoiye Domor Mienye and Yanxia Sun, “A Survey of Ensemble Learning: Concepts, Algorithms, Applications, and Prospects,” IEEE Access, Vol. 10, 2022, pp. 99129-99149, https://ieeexplore.ieee.org/document/9893798.

17 Zhi-Hua Zhou, Ensemble Methods: Foundations and Algorithms, CRC Press, 2012. Gautam Kunapuli, Ensemble Methods for Machine Learning, Manning Publications, 2023.

18 Robi Palikar, “Ensemble Learning,” Ensemble Machine Learning: Methods and Applications, Springer, 2012. Zhi-Hua Zhou, Ensemble Methods: Foundations and Algorithms, CRC Press, 2012.

19 Gautam Kunapuli, Ensemble Methods for Machine Learning, Manning Publications, 2023.

20 Devesh Walawalkar, Zhiqiang Shen, and Marios Savvides, "Online Ensemble Model Compression Using Knowledge Distillation," 2020, pp. 18-35, https://link.springer.com/chapter/10.1007/978-3-030-58529-7_2.

21 Xinzhe Han, Shuhui Wang, Chi Su, Qingming Huang, and Qi Tian, "Greedy Gradient Ensemble for Robust Visual Question Answering," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 1584-1593, https://openaccess.thecvf.com/content/ICCV2021/html/Han_Greedy_Gradient_Ensemble_for_Robust_Visual_Question_Answering_ICCV_2021_paper.html.

22 Usman Gohar, Sumon Biswas, and Hridesh Rajan, "Towards Understanding Fairness and its Composition in Ensemble Machine Learning," 2023 IEEE/ACM 45th International Conference on Software Engineering (ICSE), 2023, pp. 1533-1545, https://ieeexplore.ieee.org/abstract/document/10172501. Khaled Badran, Pierre-Olivier Côté, Amanda Kolopanis, Rached Bouchoucha, Antonio Collante, Diego Elias Costa, Emad Shihab, and Foutse Khomh, "Can Ensembling Preprocessing Algorithms Lead to Better Machine Learning Fairness?" Computer, Vol. 56, No. 4, 2023, pp. 71-79, https://ieeexplore.ieee.org/abstract/document/10098174. Swanand Kadhe, Anisa Halimi, Ambrish Rawat, and Nathalie Baracaldo, "FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs," Socially Responsible Language Modelling Research Workshop, 2023, https://neurips.cc/virtual/2023/78908.