الصفحة الرئيسية الموضوعات تقليل العينات ما المقصود بتقليل العينات؟
استكشف تقليل العينات باستخدام منصة watsonx.ai سجل للتعرف على تحديثات الذكاء الاصطناعي
رسم توضيحي باستخدام مجموعة من الصور التوضيحية للمربعات والمجالات التي تمثل البيانات

تاريخ النشر: 15 يونيو 2024
المساهمون: Jacob Murel، حاصل على درجة الدكتوراة

يؤدي تقليل العينات إلى تقليل عدد عينات البيانات في مجموعة بيانات. ويهدف القيام بذلك إلى تصحيح البيانات غير المتوازنة وبالتالي تحسين أداء النموذج.

تقليل العينات طريقة شائعة لمعالجة البيانات حيث إنها تعالج حالات عدم التوازن في مجموعة البيانات بإزالة البيانات من فئة الأغلبية بحيث تتطابق مع حجم فئة الأقلية. وهذا يتعارض مع طريقة زيادة العينات، التي تتضمن إعادة ترتيب نقاط فئة الأقلية. يحتوي كل من Python scikit-Learn و Matlab على وظائف مدمجة لتنفيذ تقنيات تقليل العينات.

غالبًا ما يتم الخلط بين تقليل العينات في علم البيانات وتقليل العينات في معالجة الإشارات الرقمية (DSP). وإن كانا متشابهين في المضمون. تقليل العينات لمعالجة الإشارات الرقمية (المعروف أيضًا باسم تخفيف البيانات) هو عملية تنقيص النطاق الترددي ومعدل التردد النموذجي في وحدة ضبط التردد، وبالتالي إزالة بعض البيانات الأصلية من الإشارة الأصلية. وغالبًا ما يتم إجراء عملية تقليل تردد أخذ العينات عن طريق تقليل معدل التردد النموذجي بعامل صحيح معين، مع الاحتفاظ بواحد فقط من كل nth عينة. يتم ذلك عن طريق استخدام مرشح التردد المنخفض، المعروف أيضًا باسم مرشح منع التعرج، لتقليل مكونات التردد/التشوش العالية لإشارة زمنية منفصلة بواسطة عامل العدد الصحيح المذكور مسبقًا.

يمكن أيضًا الخلط بين تقليل العينات لموازنة البيانات وتقليل العينات لمعالجة الصور. عندما تحتوي البيانات على الكثير من الميزات، كما هو الحال في صور التصوير بالرنين المغناطيسي عالية الدقة، يمكن أن تصبح العمليات الحسابية باهظة الثمن. يؤدي تقليل العينات في معالجة الصور إلى تقليل أبعاد كل نقطة بيانات من خلال الالتفاف. وهذا ليس مثل موازنة مجموعة البيانات: فهو أسلوب تحسين سيتطلب لاحقًا الاستيفاء لاستعادة البيانات الأصلية.

لماذا تعتبر حوكمة الذكاء الاصطناعي ضرورة تجارية لتوسيع نطاق الذكاء الاصطناعي للمؤسسات

تعرَّف على المعوقات التي تَحُول دون اعتماد الذكاء الاصطناعي، لا سيما عدم تطبيق حوكمة الذكاء الاصطناعي، وعدم إيجاد حلول لإدارة المخاطر.

محتوى ذو صلة

سجِّل للحصول على إرشادات حول نماذج الأساس

لماذا يتم استخدام تقليل العينات؟

يعد تقليل العينات طريقة فعالة لمعالجة حالات عدم التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلاً ناقصًا إلى حد كبير في مجموعة البيانات مقارنة بالمجموعة الحقيقية، مما يؤدي إلى حدوث تحيز غير مقصود. على سبيل المثال، تخيل أن هناك نموذجًا تم تدريبه على تصنيف الصور على أنها تعرض قطة أو كلبًا. وكانت مجموعة البيانات المستخدمة مكونة من قطط بنسبة 90% وكلاب بنسبة 10%. سنلاحظ في هذا السيناريو أن القطط ممثلة تمثيلاً زائدًا، فإذا كان لدينا مصنِّف يتنبأ بالقطط في كل مرة، فسوف يعطي دقة بنسبة 90% لتصنيف القطط، وسيعطي دقة بنسبة 0% لتصنيف الكلاب. وستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى جعل المصنِّفين يحابون الدقة لفئة الأغلبية على حساب فئة الأقلية. وقد تنشأ نفس المشكلة مع مجموعات البيانات متعددة الفئات.1

تفيد عملية تقليل العينات في مواجهة مشكلة مجموعة البيانات غير المتوازنة. حيث إنها تحدد نقاط فئة الأغلبية المراد إزالتها بناءً على معايير محددة. ويمكن أن تتغير هذه المعايير باستخدام أسلوب تقليل العينات المختار. ويؤدي ذلك إلى موازنة مجموعة البيانات عن طريق تقليل عدد العينات بشكل فعال لكل فئة أغلبية ممثلة تمثيلاً زائدًا عن الحد، حتى تحتوي مجموعة البيانات على نسبة متساوية من النقاط في كل الفئات.

في حين أنه يمكن رؤية حالات عدم التوازن ببساطة عن طريق رسم عدد نقاط البيانات في كل فئة، إلا أن ذلك لا يفيدنا في معرفة إذا ما كان سيؤثر بدرجة كبير على النموذج أم لا. ولحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح أسلوب تقليل العينات في تصحيح عدم توازن الفئات. ومعظم هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: إيجابية وسلبية. وتكون الطبقة الإيجابية في الغالب هي فئة الأقلية بينما الطبقة السلبية تكون فئة الأغلبية. وهناك مقياسان شائعان هما منحنيات خصائص تشغيل المستقبل (ROC) ومنحنيات الاسترجاع الدقيق.1

مزايا وعيوب تقليل العينات
المزايا
  • متطلبات تخزين أقل: حينما يكلفنا التخزين كثيرًا من المال، في حالة التخزين السحابي مثلاً، حينئذ يفضل أن نختار تقليل العينات بدلاً من زيادة العينات لتجنب زيادة التكاليف.2
  • تدريب أسرع: يؤدي تقليل حجم البيانات إلى تقليص حجم مجموعات البيانات مما يجعل التدريب أقل كثافة على وحدة المعالجة المركزية أو وحدة معالجة الرسومات، وهو ما يعد أكثر ملاءمة من الناحية الاقتصادية والبيئية.
  • أقل عرضة لفرط التخصيص: تؤدي زيادة العينات إلى توليد بيانات جديدة من بيانات قديمة، مما يتسبب في فرط تخصيص النماذج بالبيانات المقدَّمة. أما تقليل العينات، فهو العكس (أي: يحذف البيانات)، ولا تظهر فيه هذه المشكلة.2
العيوب
  • فقدان المعلومات: قد يؤدي حذف النقاط من فئة الأغلبية إلى فقدان معلومات مهمة. وقد يمثل هذا مشكلة حين يلزم أن يكون تصنيف فئة الأغلبية دقيقًا. هناك مشكلة أخرى؛ إذا أصبحت مجموعة البيانات صغيرة جدًا بحيث لا يمكن للنموذج التدريب عليها.2
  • التحيز الحادث: قد تكون نقاط عينة فئة الأغلبية المتبقية عبارة عن مجموعة متحيزة من البيانات الأصلية، مما يؤثر سلبًا على أداء المصنِّف.
أساليب تقليل العينات
تقليل العينات العشوائي

يعتبر تقليل العينات العشوائي أسلوب حذف حيث يتم اختيار نقاط عشوائية في فئة الأغلبية دون استبدال ثم يتم حذفها من مجموعة البيانات حتى يصبح حجم فئة الأغلبية مساويًا لحجم فئة الأقلية. وهذه طريقة سهلة لحذف مجموعة فرعية من البيانات بشكل عشوائي لأغراض الموازنة. لكن قد تتسبب هذه الطريقة في اختفاء أنماط أو توزيعات مهمة في فئة الأغلبية، مما يؤثر سلبًا على أداء المصنِّف.2

تقليل عينات البيانات باستخدام Near Miss

يعد تقليل العينات بخوارزمية Near Miss أسلوبًا يهدف إلى تحقيق التوازن في توزيع الفئات عن طريق الإزالة العشوائية لعينات محددة من فئة الأغلبية.

من الناحية النظرية، تعمل خوارزمية Near Miss بمبدأ ضرورة الاحتفاظ بالبيانات في الأماكن التي تكون فيها فئات الأغلبية والأقليات متقاربة جدًا، حيث توفر لنا هذه الأماكن معلومات أساسية عند التمييز بين الفئتين.3 تُعرف هذه النقاط عمومًا بأنها نقاط بيانات يصعب تعلمها. وعمومًا يعمل تقليل العينات باستخدام خوارزمية Near Miss على خطوتين:

  • الخطوة 1: احسب المسافة الزوجية بين جميع مثيلات فئة الأغلبية والأقليات.
  • الخطوة 2: استنادًا إلى المسافات المحسوبة، قم بإزالة مثيلات فئة الأغلبية البعيدة عن نقاط الأقلية.

توجد ثلاثة أشكال مختلفة من خوارزمية Near Miss وتوفر طريقة أكثر تحديدًا لاختيار مثيلات فئة الأغلبية لإزالتها.

  • الإصدار 1: يحتفظ هذا الإصدار بأغلبية مثيلات الفئة ذات أصغر مسافة متوسطة إلى مثيلات فئة أقلية N الأقرب الخاصة بها. ومن الممكن أن تكون البيانات الناتجة غير موزَّعة بالتساوي، حيث تكون بعض نقاط فئة الأغلبية قريبة من العديد من نقاط الفئة الأقلية ويكون البعض الآخر قريبًا من عدد قليل جدًا، مما يتسبب في انخفاض الدقة والاستدعاء.4
  • الإصدار 2: يحتفظ هذا الإصدار من تقليل العينات باستخدام خوارزمية Near Miss بمثيلات فئة الأغلبية ذات أصغر متوسط مسافة إلى مثيلات فئة أقلية N الأبعد الخاصة بها. وعلى عكس الإصدار الأول، ينشئ هذا الإصدار توزيعًا أكثر توازنًا لفئة الأغلبية، مما يؤدي إلى نتائج أفضل واردة من المصنِّف4
  • الإصدار 3: يحتفظ هذا الإصدار بأقرب عينات فئة الأغلبية لمثيلات فئة الأقلية الأقرب إلى فئة الأغلبية. ويعمل على خطوتين. أولاً، يتم الاحتفاظ بأقرب جيران من فئة الأغلبية M لكل مثيل من فئة الأقلية. ثم بعد ذلك، من بين مثيلات فئة الأغلبية المتبقية، يتم تحديد المثيلات التي لديها أكبر متوسط مسافة ويتم الاحتفاظ بها. ولأن هذا الإصدار يحتفظ بمثيلات فئة الأغلبية القريبة من العديد من مثيلات فئة الأقلية، فسوف يتمتع بدقة عالية لكن الاستدعاء سيكون منخفضًا.4
تقليل عينات قاعدة الجار الأقرب المكثف

يتميز أسلوب الجار الأقرب المكثف (اختصاره الإنجليزي CNN، وينبغي عدم الخلط بينه وبين الشبكات العصبية التلافيفية) بأنه يحاول العثور على مجموعة فرعية من مجموعة البيانات التي يمكن استخدامها للتدريب دون خسارة في أداء النموذج. ويتم تحقيق ذلك من خلال تحديد مجموعة فرعية من البيانات التي يمكن استخدامها لتدريب نموذج يتنبأ بشكل صحيح بمجموعة البيانات بأكملها.

يمكن تقسيم عملية تقليل العينات بأسلوب الجار الأقرب المكثف إلى الخطوات التالية:5

  1. يمكنك إنشاء مجموعة بيانات جديدة، S، تحتوي على كافة مثيلات فئة الأقلية ومثيل واحد يتم اختياره عشوائيًا لفئة الأغلبية.
  2. ويمكن تدريب مصنِّف 1-NN على مجموعة البيانات الجديدة S.
  3. ولكل نقاط بيانات فئة الأغلبية التي لا توجد في S، استخدم مصنِّف 1-NN للتنبؤ بتسميتها. أما إذا كان المصنِّف 1-NN يتنبأ بالتسمية بشكل صحيح، فتجاهل النقطة. وإلا فأضفها إلى S.

على نحو مماثل لخوارزمية Near Miss، تزيل هذه العملية بشكل أساسي جميع مثيلات فئة الأغلبية البعيدة عن حدود القرار، والتي كما سبق ووضحنا تعد نقاطًا يسهل تصنيفها. كما أنها تضمن إمكانية التنبؤ بكل البيانات الموجودة في مجموعة بياناتنا الأصلية بشكل صحيح باستخدام البيانات الموجودة داخل S فقط. وبهذه الطريقة، يمكن انكماش مجموعة البيانات بدرجة كبيرة مع الحفاظ على حدود القرار بشكل معقول.

تعرض هذه الصورة مثالاً لتطبيق أقرب جيران مكثفين باستخدام عدد 1 من أقرب جيران وعدد 21 من أقرب جيران إلى مجموعتين من مجموعات البيانات. والصورتان العلويتان قبل تطبيق أقرب الجيران المكثفين بينما الصورتان السفليتان بعد ذلك. وكما هو واضح، فإن حدود القرار محفوظة بشكل جيد إلى حد معقول.

طريقة Tomek Link

الافتراض الأساسي الذي يتبعه تقليل العينات بطريقة Tomek Link هو تقليل التشويش في البيانات عن طريق إزالة النقاط القريبة من حدود القرار وزيادة الفصل بين الفئات. وتتمثل كيفية عمل هذه الطريقة في أنها تحدد "روابط توميك" (Tomek Links)؛ وهي عبارة عن تجميع نقطتين من فئتين مختلفتين دون وجود نقطة ثالثة أقرب إلى أي منهما.2

وفي جميع "روابط توميك"، يتم حذف النقطة الموجودة ضمن فئة الأغلبية. وعن طريق إزالة نقطة فئة الأغلبية القريبة من نقطة فئة الأقلية، يزداد الفصل بين الفئات. وأحد عيوب هذه الطريقة هو التعقيد الحسابي لحساب جميع المسافات الزوجية بين نقاط فئة الأغلبية والأقلية.2 وتظهر فاعلية تقليل العينات بطريقة Tomek Link بشكل أكبر عند دمجها مع طرق أخرى.

طريقة أقرب الجيران المحرَّرة

تقليل العينات بطريقة أقرب الجيران المحرَّرة (ENN) يشبه تقليل العينات بطريقة Tomek Link، حيث الهدف هو إزالة الأمثلة القريبة من حدود القرار من أجل زيادة الفصل بين الفئات. وبشكل عام، تقوم هذه الطريقة بإزالة نقاط البيانات التي تختلف في فئتها عن غالبية النقاط المجاورة لها.2 وهذا يعني أن تلك العملية تزيل نقاط بيانات فئة الأغلبية حيث تنتمي أغلبية أقرب جيرانها إلى فئة الأقلية، والعكس صحيح. ويمكن تعريف الأغلبية في هذا السياق بحرية: فقد يعني ذلك أن جارًا واحدًا على الأقل ينتمي إلى فئة مختلفة أو أن نسبة الجيران في فئة مختلفة تتجاوز حدًا معينًا.

وعادةً ما يتم إجراء تقليل العينات بطريقة أقرب الجيران المحرَّرة (ENN) مع أقرب 3 جيران، كما هو موضح أدناه.

وهذه الطريقة تعد استراتيجية مبسَّطة بشكل أكبر لأنها تنظر إلى المناطق المجاورة العامة للنقاط بدلاً من النظر إلى جار واحد، لكنها طريقة فعالة للتخلص من التشوش داخل البيانات. ويكون تقليل العينات بطريقة أقرب الجيران المحرَّرة (ENN) أكثر فاعلية عندما يقترن بطرق أخرى.

الأبحاث الحديثة

فيما يتعلق بتقليل عينات البيانات، تقدمت تطورات البحث العلمي الحديث وتدور حاليًا حول تكاملات التعلم العميق. وقد تم بالفعل استخدامه وتوظيفه في مجالات مثل معالجة الصور والبيانات الطبية، والتي تنطوي على استخدام الشبكات العصبية لتقليل عينات البيانات.6 ومن الأمثلة على ذلك طريقة التعلم الآلي SOM-US، التي تستخدم شبكة عصبية ذات طبقتين.7 وفي السنوات الأخيرة، تم أيضًا تطبيق التعلم النشط على تقليل عينات البيانات في محاولة لتخفيف آثار البيانات غير المتوازنة.8 وقد أظهرت التجارب أن أداء هذه النماذج كان أفضل بكثير من الطرق والأساليب التقليدية.

تدور الأبحاث الحالية في مجال تقليل عينات البيانات أيضًا حول دمجها وجمعها مع طرق وأساليب أخرى لإنشاء طرق هجينة نافعة. ومن صور هذا الجمع تطبيق الطريقتين معًا، تقليل العينات وزيادة العينات، للحصول على فوائد كلتيهما، كما حدث على سبيل المثال في: SMOTE+Tomek Link وAgglomerative Hierarchical Clustering (AHC وSPIDER إلى غير ذلك من الأمثلة.9 كما يمكن أيضًا لهذه الطرق على مستوى الخوارزميات أن تتضمن أفكارًا من طرق تقليل العينات التقليدية، كما هو الحال مع Hard Example Mining حيث يركز التدريب فقط على نقاط البيانات "الأصعب".2 وكل هذه الطرق أظهرت أداءً أفضل عندما تم استخدامها مجتمعة عما إذا ما تم استخدام كل طريقة على حدة.

موارد ذات الصلة ما المقصود بزيادة العينات؟

تؤدي زيادة العينات إلى زيادة عدد عينات البيانات في مجموعة البيانات الواحدة. ويهدف القيام بذلك إلى تصحيح البيانات غير المتوازنة وبالتالي تحسين أداء النموذج.

ما هي الشبكات العصبية التلافيفية؟

تستخدم الشبكات العصبية التلافيفية بيانات ثلاثية الأبعاد لتصنيف الصور ومهام التعرف على الكائنات.

ما المقصود بتجزئة المثيل؟

تعد تجزئة المثيلات مهمة رؤية حوسبية تعتمد على التعلم العميق وتتنبأ بالحدود الدقيقة لكل بكسل لكل مثيل كائن فردي في الصورة.

اتخِذ الخطوة التالية

يمكنك تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئ الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (يوجد الرابط خارج موقع ibm.com).

2 Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (يوجد الرابط خارج موقع ibm.com).

4 Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (يوجد الرابط خارج موقع ibm.com).

5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (يؤدي الرابط إلى صفحة خارج موقع ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (يوجد الرابط خارج موقع ibm.com).

7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006 (يؤدي الرابط إلى صفحة خارج موقع ibm.com).

8 Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (يؤدي الرابط إلى صفحة خارج موقع ibm.com).

9 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.