تاريخ النشر: 15 يونيو 2024
المساهمون: Jacob Murel، حاصل على درجة الدكتوراة
يؤدي تقليل العينات إلى تقليل عدد عينات البيانات في مجموعة بيانات. ويهدف القيام بذلك إلى تصحيح البيانات غير المتوازنة وبالتالي تحسين أداء النموذج.
تقليل العينات طريقة شائعة لمعالجة البيانات حيث إنها تعالج حالات عدم التوازن في مجموعة البيانات بإزالة البيانات من فئة الأغلبية بحيث تتطابق مع حجم فئة الأقلية. وهذا يتعارض مع طريقة زيادة العينات، التي تتضمن إعادة ترتيب نقاط فئة الأقلية. يحتوي كل من Python scikit-Learn و Matlab على وظائف مدمجة لتنفيذ تقنيات تقليل العينات.
غالبًا ما يتم الخلط بين تقليل العينات في علم البيانات وتقليل العينات في معالجة الإشارات الرقمية (DSP). وإن كانا متشابهين في المضمون. تقليل العينات لمعالجة الإشارات الرقمية (المعروف أيضًا باسم تخفيف البيانات) هو عملية تنقيص النطاق الترددي ومعدل التردد النموذجي في وحدة ضبط التردد، وبالتالي إزالة بعض البيانات الأصلية من الإشارة الأصلية. وغالبًا ما يتم إجراء عملية تقليل تردد أخذ العينات عن طريق تقليل معدل التردد النموذجي بعامل صحيح معين، مع الاحتفاظ بواحد فقط من كل nth عينة. يتم ذلك عن طريق استخدام مرشح التردد المنخفض، المعروف أيضًا باسم مرشح منع التعرج، لتقليل مكونات التردد/التشوش العالية لإشارة زمنية منفصلة بواسطة عامل العدد الصحيح المذكور مسبقًا.
يمكن أيضًا الخلط بين تقليل العينات لموازنة البيانات وتقليل العينات لمعالجة الصور. عندما تحتوي البيانات على الكثير من الميزات، كما هو الحال في صور التصوير بالرنين المغناطيسي عالية الدقة، يمكن أن تصبح العمليات الحسابية باهظة الثمن. يؤدي تقليل العينات في معالجة الصور إلى تقليل أبعاد كل نقطة بيانات من خلال الالتفاف. وهذا ليس مثل موازنة مجموعة البيانات: فهو أسلوب تحسين سيتطلب لاحقًا الاستيفاء لاستعادة البيانات الأصلية.
تعرَّف على المعوقات التي تَحُول دون اعتماد الذكاء الاصطناعي، لا سيما عدم تطبيق حوكمة الذكاء الاصطناعي، وعدم إيجاد حلول لإدارة المخاطر.
سجِّل للحصول على إرشادات حول نماذج الأساس
يعد تقليل العينات طريقة فعالة لمعالجة حالات عدم التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلاً ناقصًا إلى حد كبير في مجموعة البيانات مقارنة بالمجموعة الحقيقية، مما يؤدي إلى حدوث تحيز غير مقصود. على سبيل المثال، تخيل أن هناك نموذجًا تم تدريبه على تصنيف الصور على أنها تعرض قطة أو كلبًا. وكانت مجموعة البيانات المستخدمة مكونة من قطط بنسبة 90% وكلاب بنسبة 10%. سنلاحظ في هذا السيناريو أن القطط ممثلة تمثيلاً زائدًا، فإذا كان لدينا مصنِّف يتنبأ بالقطط في كل مرة، فسوف يعطي دقة بنسبة 90% لتصنيف القطط، وسيعطي دقة بنسبة 0% لتصنيف الكلاب. وستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى جعل المصنِّفين يحابون الدقة لفئة الأغلبية على حساب فئة الأقلية. وقد تنشأ نفس المشكلة مع مجموعات البيانات متعددة الفئات.1
تفيد عملية تقليل العينات في مواجهة مشكلة مجموعة البيانات غير المتوازنة. حيث إنها تحدد نقاط فئة الأغلبية المراد إزالتها بناءً على معايير محددة. ويمكن أن تتغير هذه المعايير باستخدام أسلوب تقليل العينات المختار. ويؤدي ذلك إلى موازنة مجموعة البيانات عن طريق تقليل عدد العينات بشكل فعال لكل فئة أغلبية ممثلة تمثيلاً زائدًا عن الحد، حتى تحتوي مجموعة البيانات على نسبة متساوية من النقاط في كل الفئات.
في حين أنه يمكن رؤية حالات عدم التوازن ببساطة عن طريق رسم عدد نقاط البيانات في كل فئة، إلا أن ذلك لا يفيدنا في معرفة إذا ما كان سيؤثر بدرجة كبير على النموذج أم لا. ولحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح أسلوب تقليل العينات في تصحيح عدم توازن الفئات. ومعظم هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: إيجابية وسلبية. وتكون الطبقة الإيجابية في الغالب هي فئة الأقلية بينما الطبقة السلبية تكون فئة الأغلبية. وهناك مقياسان شائعان هما منحنيات خصائص تشغيل المستقبل (ROC) ومنحنيات الاسترجاع الدقيق.1
يعتبر تقليل العينات العشوائي أسلوب حذف حيث يتم اختيار نقاط عشوائية في فئة الأغلبية دون استبدال ثم يتم حذفها من مجموعة البيانات حتى يصبح حجم فئة الأغلبية مساويًا لحجم فئة الأقلية. وهذه طريقة سهلة لحذف مجموعة فرعية من البيانات بشكل عشوائي لأغراض الموازنة. لكن قد تتسبب هذه الطريقة في اختفاء أنماط أو توزيعات مهمة في فئة الأغلبية، مما يؤثر سلبًا على أداء المصنِّف.2
يعد تقليل العينات بخوارزمية Near Miss أسلوبًا يهدف إلى تحقيق التوازن في توزيع الفئات عن طريق الإزالة العشوائية لعينات محددة من فئة الأغلبية.
من الناحية النظرية، تعمل خوارزمية Near Miss بمبدأ ضرورة الاحتفاظ بالبيانات في الأماكن التي تكون فيها فئات الأغلبية والأقليات متقاربة جدًا، حيث توفر لنا هذه الأماكن معلومات أساسية عند التمييز بين الفئتين.3 تُعرف هذه النقاط عمومًا بأنها نقاط بيانات يصعب تعلمها. وعمومًا يعمل تقليل العينات باستخدام خوارزمية Near Miss على خطوتين:
توجد ثلاثة أشكال مختلفة من خوارزمية Near Miss وتوفر طريقة أكثر تحديدًا لاختيار مثيلات فئة الأغلبية لإزالتها.
يتميز أسلوب الجار الأقرب المكثف (اختصاره الإنجليزي CNN، وينبغي عدم الخلط بينه وبين الشبكات العصبية التلافيفية) بأنه يحاول العثور على مجموعة فرعية من مجموعة البيانات التي يمكن استخدامها للتدريب دون خسارة في أداء النموذج. ويتم تحقيق ذلك من خلال تحديد مجموعة فرعية من البيانات التي يمكن استخدامها لتدريب نموذج يتنبأ بشكل صحيح بمجموعة البيانات بأكملها.
يمكن تقسيم عملية تقليل العينات بأسلوب الجار الأقرب المكثف إلى الخطوات التالية:5
على نحو مماثل لخوارزمية Near Miss، تزيل هذه العملية بشكل أساسي جميع مثيلات فئة الأغلبية البعيدة عن حدود القرار، والتي كما سبق ووضحنا تعد نقاطًا يسهل تصنيفها. كما أنها تضمن إمكانية التنبؤ بكل البيانات الموجودة في مجموعة بياناتنا الأصلية بشكل صحيح باستخدام البيانات الموجودة داخل S فقط. وبهذه الطريقة، يمكن انكماش مجموعة البيانات بدرجة كبيرة مع الحفاظ على حدود القرار بشكل معقول.
تعرض هذه الصورة مثالاً لتطبيق أقرب جيران مكثفين باستخدام عدد 1 من أقرب جيران وعدد 21 من أقرب جيران إلى مجموعتين من مجموعات البيانات. والصورتان العلويتان قبل تطبيق أقرب الجيران المكثفين بينما الصورتان السفليتان بعد ذلك. وكما هو واضح، فإن حدود القرار محفوظة بشكل جيد إلى حد معقول.
الافتراض الأساسي الذي يتبعه تقليل العينات بطريقة Tomek Link هو تقليل التشويش في البيانات عن طريق إزالة النقاط القريبة من حدود القرار وزيادة الفصل بين الفئات. وتتمثل كيفية عمل هذه الطريقة في أنها تحدد "روابط توميك" (Tomek Links)؛ وهي عبارة عن تجميع نقطتين من فئتين مختلفتين دون وجود نقطة ثالثة أقرب إلى أي منهما.2
وفي جميع "روابط توميك"، يتم حذف النقطة الموجودة ضمن فئة الأغلبية. وعن طريق إزالة نقطة فئة الأغلبية القريبة من نقطة فئة الأقلية، يزداد الفصل بين الفئات. وأحد عيوب هذه الطريقة هو التعقيد الحسابي لحساب جميع المسافات الزوجية بين نقاط فئة الأغلبية والأقلية.2 وتظهر فاعلية تقليل العينات بطريقة Tomek Link بشكل أكبر عند دمجها مع طرق أخرى.
تقليل العينات بطريقة أقرب الجيران المحرَّرة (ENN) يشبه تقليل العينات بطريقة Tomek Link، حيث الهدف هو إزالة الأمثلة القريبة من حدود القرار من أجل زيادة الفصل بين الفئات. وبشكل عام، تقوم هذه الطريقة بإزالة نقاط البيانات التي تختلف في فئتها عن غالبية النقاط المجاورة لها.2 وهذا يعني أن تلك العملية تزيل نقاط بيانات فئة الأغلبية حيث تنتمي أغلبية أقرب جيرانها إلى فئة الأقلية، والعكس صحيح. ويمكن تعريف الأغلبية في هذا السياق بحرية: فقد يعني ذلك أن جارًا واحدًا على الأقل ينتمي إلى فئة مختلفة أو أن نسبة الجيران في فئة مختلفة تتجاوز حدًا معينًا.
وعادةً ما يتم إجراء تقليل العينات بطريقة أقرب الجيران المحرَّرة (ENN) مع أقرب 3 جيران، كما هو موضح أدناه.
وهذه الطريقة تعد استراتيجية مبسَّطة بشكل أكبر لأنها تنظر إلى المناطق المجاورة العامة للنقاط بدلاً من النظر إلى جار واحد، لكنها طريقة فعالة للتخلص من التشوش داخل البيانات. ويكون تقليل العينات بطريقة أقرب الجيران المحرَّرة (ENN) أكثر فاعلية عندما يقترن بطرق أخرى.
فيما يتعلق بتقليل عينات البيانات، تقدمت تطورات البحث العلمي الحديث وتدور حاليًا حول تكاملات التعلم العميق. وقد تم بالفعل استخدامه وتوظيفه في مجالات مثل معالجة الصور والبيانات الطبية، والتي تنطوي على استخدام الشبكات العصبية لتقليل عينات البيانات.6 ومن الأمثلة على ذلك طريقة التعلم الآلي SOM-US، التي تستخدم شبكة عصبية ذات طبقتين.7 وفي السنوات الأخيرة، تم أيضًا تطبيق التعلم النشط على تقليل عينات البيانات في محاولة لتخفيف آثار البيانات غير المتوازنة.8 وقد أظهرت التجارب أن أداء هذه النماذج كان أفضل بكثير من الطرق والأساليب التقليدية.
تدور الأبحاث الحالية في مجال تقليل عينات البيانات أيضًا حول دمجها وجمعها مع طرق وأساليب أخرى لإنشاء طرق هجينة نافعة. ومن صور هذا الجمع تطبيق الطريقتين معًا، تقليل العينات وزيادة العينات، للحصول على فوائد كلتيهما، كما حدث على سبيل المثال في: SMOTE+Tomek Link وAgglomerative Hierarchical Clustering (AHC وSPIDER إلى غير ذلك من الأمثلة.9 كما يمكن أيضًا لهذه الطرق على مستوى الخوارزميات أن تتضمن أفكارًا من طرق تقليل العينات التقليدية، كما هو الحال مع Hard Example Mining حيث يركز التدريب فقط على نقاط البيانات "الأصعب".2 وكل هذه الطرق أظهرت أداءً أفضل عندما تم استخدامها مجتمعة عما إذا ما تم استخدام كل طريقة على حدة.
تؤدي زيادة العينات إلى زيادة عدد عينات البيانات في مجموعة البيانات الواحدة. ويهدف القيام بذلك إلى تصحيح البيانات غير المتوازنة وبالتالي تحسين أداء النموذج.
تستخدم الشبكات العصبية التلافيفية بيانات ثلاثية الأبعاد لتصنيف الصور ومهام التعرف على الكائنات.
تعد تجزئة المثيلات مهمة رؤية حوسبية تعتمد على التعلم العميق وتتنبأ بالحدود الدقيقة لكل بكسل لكل مثيل كائن فردي في الصورة.
1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (يوجد الرابط خارج موقع ibm.com).
2 Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023
3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (يوجد الرابط خارج موقع ibm.com).
4 Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (يوجد الرابط خارج موقع ibm.com).
5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (يؤدي الرابط إلى صفحة خارج موقع ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.
6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (يوجد الرابط خارج موقع ibm.com).
7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006 (يؤدي الرابط إلى صفحة خارج موقع ibm.com).
8 Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (يؤدي الرابط إلى صفحة خارج موقع ibm.com).
9 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.