My IBM Log in اشترك

ما المقصود بتقليل العينات؟

15 يونيو 2024

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

يؤدي تقليل عدد العينات إلى تقليل عدد العينات البيانات في مجموعة البيانات. ويهدف القيام بذلك إلى تصحيح اختلال توازن البيانات، مما يسهم في تحسين أداء النموذج.

تقليل العينات طريقة شائعة لمعالجة البيانات حيث إنها تعالج حالات عدم التوازن في مجموعة البيانات بإزالة البيانات من فئة الأغلبية بحيث تتطابق مع حجم فئة الأقلية. وهذا يتعارض مع طريقة زيادة العينات، التي تتضمن إعادة ترتيب نقاط فئة الأقلية. تحتوي كل من مكتبة scikit-Learn في Python و Matlab على دوال مدمجة لتنفيذ تقنيات تقليل العينات.

غالبًا ما يتم الخلط بين تقليل العينات في علم البيانات وتقليل العينات في معالجة الإشارات الرقمية (DSP). وإن كانا متشابهين في المضمون. تقليل العينات لمعالجة الإشارات الرقمية (المعروف أيضًا باسم تخفيف البيانات) هو عملية تنقيص النطاق الترددي ومعدل التردد النموذجي في وحدة ضبط التردد، وبالتالي إزالة بعض البيانات الأصلية من الإشارة الأصلية. وغالبًا ما يتم إجراء عملية تقليل تردد أخذ العينات عن طريق تقليل معدل التردد النموذجي بعامل صحيح معين، مع الاحتفاظ بواحد فقط من كل nth عينة. يتم ذلك عن طريق استخدام مرشح التردد المنخفض، المعروف أيضًا باسم مرشح منع التعرج، لتقليل مكونات التردد/التشوش العالية لإشارة زمنية منفصلة بواسطة عامل العدد الصحيح المذكور مسبقًا.

يمكن أيضًا الخلط بين تقليل عدد العينات لموازنة البيانات وتقليل عدد العينات لمعالجة الصور. عندما تحتوي البيانات على الكثير من الميزات، كما هو الحال في صور التصوير بالرنين المغناطيسي عالية الدقة، يمكن أن تصبح العمليات الحسابية باهظة الثمن. يعمل تقليل عدد العينات في معالجة الصور على خفض الأبعاد لكل نقطة بيانات من خلال التلافيف. وهذا يختلف عن موازنة مجموعة البيانات: فهو أسلوب تحسين يستلزم لاحقًا استخدام الاستيفاء لاستعادة البيانات الأصلية.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا يتم استخدام تقليل العينات؟

يعد تقليل عدد العينات وسيلة فعالة لمعالجة حالات اختلال التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلًا ناقصًا بشكل كبير مقارنةً بالمجموعة الأصلية، مما يؤدي إلى حدوث تحيز غير مقصود. على سبيل المثال، افترض أن هناك نموذجًا تم تدريبه على تصنيف الصور إلى فئتين: قطة أو كلب. وكانت مجموعة البيانات المستخدمة تحتوي على 90% قطط و10% كلاب. سنلاحظ في هذا السيناريو أن القطط ممثلة تمثيلاً زائدًا، فإذا كان لدينا نموذج تصنيف يتنبأ دائمًا بالقطط، فسوف يحقق دقة بنسبة 90% لتصنيف القطط، ولكنه سيحقق دقة بنسبة 0% لتصنيف الكلاب. وستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى تحيز النماذج نحو فئة الأغلبية على حساب فئة الأقلية. وقد تنشأ المشكلة ذاتها مع مجموعات البيانات التي تحتوي على أكثر من فئتين.1

تساعد عملية تقليل عدد العينات في معالجة مشكلة اختلال التوازن في مجموعة البيانات. حيث إنها تحدد نقاط فئة الأغلبية المراد إزالتها استنادًا إلى معايير محددة. ويمكن أن تتغير هذه المعايير وفقًا لأسلوب تقليل عدد العينات المختار. ويؤدي ذلك إلى موازنة مجموعة البيانات عن طريق خفض عدد العينات في فئة الأغلبية الممثلة تمثيلًا زائدًا، حتى تحتوي مجموعة البيانات على توزيع متساوٍ للنقاط عبر جميع الفئات.

على الرغم من أنه يمكن ملاحظة اختلال التوازن ببساطة من خلال رسم عدد نقاط البيانات في كل فئة، فإن ذلك لا يوضح ما إذا كان سيؤثر بشكل كبير على النموذج. ولكن لحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح تقنية تقليل عدد العينات في تصحيح اختلال التوازن بين الفئات. وتكون أغلبية هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: فئة موجبة وفئة سالبة. وعادةً ما تكون الفئة الموجبة هي فئة الأقلية، بينما تكون الفئة السالبة هي فئة الأغلبية. وهناك مقياسان شائعان للتقييم هما منحنى خاصية تشغيل المستقبِل (ROC) ومنحنى الاسترجاع الدقيق.1

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

مزايا وعيوب تقليل العينات

المزايا

  • متطلبات تخزين أقل: حينما يكون التخزين مكلفًا، كما هو الحال في التخزين السحابي، حينئذ يفضل أن نختار تقليل عدد العينات بدلاً من زيادة عدد العينات لتجنب ارتفاع التكاليف.2
  • تدريب أسرع: يؤدي تقليل عدد العينات إلى تقليص حجم مجموعات البيانات، مما يجعل التدريب أقل استهلاكًا لموارد وحدة المعالجة المركزية (CPU) أو وحدة معالجة الرسوميات (GPU)، وهو ما يجعله أكثر كفاءة من الناحية الاقتصادية والبيئية.
  • أقل عرضة للإفراط في التخصيص: تؤدي زيادة عدد العينات إلى توليد بيانات جديدة من بيانات قديمة، مما قد يجعل النماذج تميل إلى الإفراط في التخصيص للبيانات المقدَّمة. أما تقليل عدد العينات، فهو عكس ذلك (حيث يتم حذف البيانات)، وبالتالي لا يواجه هذه المشكلة.2
  • ،

العيوب

  • فقدان المعلومات: قد يؤدي حذف نقاط من فئة الأغلبية إلى فقدان معلومات مهمة، مما قد يمثل مشكلة إذا كانت دقة تصنيف فئة الأغلبية ضرورية. كما قد تنشأ مشكلة أخرى إذا أصبحت مجموعة البيانات صغيرة جدًا بحيث لا تكفي لتدريب النموذج.2
  • التحيز المُستحدث: قد تكون نقاط العينة المتبقية من فئة الأغلبية عبارة عن مجموعة متحيزة من البيانات الأصلية، مما يؤثر سلبًا على أداء المصنِّف.

أساليب تقليل العينات

تقليل العينات العشوائي

التقليل العشوائي لعدد العينات هو أسلوب حذف يتم فيه اختيار نقاط عشوائية من فئة الأغلبية دون استبدال، ثم حذفها من مجموعة البيانات حتى يتساوى حجم فئة الأغلبية مع حجم فئة الأقلية. وهذه طريقة سهلة لحذف مجموعة فرعية من البيانات عشوائيًا لتحقيق التوازن. لكن قد تتسبب هذه الطريقة في فقدان أنماط أو توزيعات مهمة في فئة الأغلبية، مما يؤثر سلبًا على أداء المصنِّف.2

تقليل عينات البيانات باستخدام Near Miss

يعد تقليل عدد العينات بخوارزمية Near Miss أسلوبًا يهدف إلى تحقيق التوازن في توزيع الفئات عن طريق الإزالة العشوائية لبعض عينات من فئة الأغلبية.

من الناحية النظرية، تعمل خوارزمية Near Miss بمبدأ ضرورة الاحتفاظ بالبيانات في الأماكن التي تكون فيها فئتا الأغلبية والأقلية متقاربتين جدًا، حيث توفر لنا هذه الأماكن معلومات أساسية للتمييز بين الفئتين.3 تُعرف هذه النقاط عمومًا بأنها نقاط بيانات يصعب على النموذج تعلّمها. يعمل تقليل عدد العينات باستخدام خوارزمية Near Miss بوجه عام على خطوتين:

  • الخطوة 1: احسب المسافة الزوجية بين جميع المثيلات من فئة الأغلبية والأقلية.
  • الخطوة 2: استنادًا إلى المسافات المحسوبة، يتم إزالة مثيلات فئة الأغلبية البعيدة عن نقاط فئة الأقلية.

توجد ثلاثة إصدارات مختلفة من خوارزمية Near Miss، التي توفر طريقة أكثر دقة لاختيار مثيلات فئة الأغلبية التي يجب إزالتها.

  • الإصدار 1: يحتفظ هذا الإصدار بمثيلات فئة الأغلبية ذات أصغر متوسط مسافة إلى أقرب N مثيلات من فئة الأقلية الخاصة بها. ومن الممكن أن تكون البيانات الناتجة غير موزَّعة بالتساوي، حيث تكون بعض نقاط فئة الأغلبية قريبة جدًا من العديد من نقاط فئة الأقلية، في حين يكون البعض الآخر بعيدًا عنها تمامًا، مما يتسبب في انخفاض الدقة والاستدعاء.4
  • الإصدار 2: يحتفظ هذا الإصدار من تقليل عدد العينات باستخدام خوارزمية Near Miss بمثيلات فئة الأغلبية ذات أصغر متوسط مسافة إلى أبعد N مثيلات من فئة الأقلية الخاصة بها. وعلى عكس الإصدار الأول، ينتج هذا الإصدار توزيعًا أكثر توازنًا لفئة الأغلبية، مما يؤدي إلى تحسين أداء المصنِّف4
  • الإصدار 3: يحتفظ هذا الإصدار بأقرب عينات من فئة الأغلبية لمثيلات فئة الأقلية الأقرب إلى فئة الأغلبية. ويعمل على خطوتين. أولاً، يتم الاحتفاظ بأقرب M جيران من فئة الأغلبية لكل مثيل من فئة الأقلية. ثم بعد ذلك، يتم تحديد المثيلات المتبقية من بين مثيلات فئة الأغلبية التي لديها أكبر متوسط مسافة والاحتفاظ بها. وبما أن هذا الإصدار يحتفظ بمثيلات فئة الأغلبية القريبة من العديد من مثيلات فئة الأقلية، فسوف يتمتع بدقة عالية، لكن معدل الاستدعاء سيكون منخفضًا.4

تقليل عينات قاعدة الجار الأقرب المكثف

يسعى أقرب الجيران المكثفين (اختصارًا CNN، ولا ينبغي الخلط بينه وبين الشبكات العصبية التلافيفية) إلى العثور على مجموعة فرعية من مجموعة بيانات يمكن استخدامها للتدريب دون خسارة في أداء النموذج. يتم تحقيق ذلك من خلال تحديد مجموعة فرعية من البيانات التي يمكن استخدامها لتدريب نموذج قادر على التنبؤ الصحيح بمجموعة البيانات بأكملها.

يمكن تقسيم عملية تقليل عدد العينات بأسلوب الجار الأقرب المكثف إلى الخطوات التالية:5

  1. يمكنك إنشاء مجموعة بيانات جديدة، S، تحتوي على كافة مثيلات فئة الأقلية وعينة واحدة فقط من فئة الأغلبية يتم اختيارها عشوائيًا.
  2. ويمكن تدريب مصنِّف 1-NN على مجموعة البيانات الجديدة S.
  3. بالنسبة لجميع نقاط بيانات فئة الأغلبية غير الموجودة في S، استخدم المصنِّف 1-NN للتنبؤ بتسميتها. أما إذا كان المصنِّف 1-NN يتنبأ بالتسمية بشكل صحيح، فتجاهل النقطة. أما إذا لم يتنبأ بها بشكل صحيح، فأضفها إلى S.

على نحو مماثل لخوارزمية Near Miss، تزيل هذه العملية بشكل أساسي جميع مثيلات فئة الأغلبية البعيدة عن حدود القرار، والتي كما سبق ووضحنا تعد نقاطًا يسهل تصنيفها. كما أنها تضمن إمكانية التنبؤ بكل البيانات الموجودة في مجموعة بياناتنا الأصلية بشكل صحيح باستخدام البيانات الموجودة داخل S فقط. وبهذه الطريقة، يمكن تقليص حجم مجموعة البيانات بدرجة كبيرة مع الحفاظ على حدود القرار بشكل معقول.

تعرض هذه الصورة مثالاً لتطبيق أقرب جيران مكثفين باستخدام عدد 1 من أقرب جيران وعدد 21 من أقرب جيران على مجموعتين من البيانات. والصورتان العلويتان تمثلان البيانات قبل تطبيق أقرب الجيران المكثفين، في حين أن الصورتين السفليتين توضحان النتيجة بعد التطبيق. وكما هو واضح، فإن حدود القرار لا تزال محفوظة بشكل جيد إلى حد معقول.

طريقة Tomek Link

الافتراض الأساسي الذي يتبعه أسلوب تقليل عدد العينات بطريقة Tomek Link هو تقليل التشويش في البيانات عن طريق إزالة النقاط القريبة من حدود القرار وزيادة الفصل بين الفئات. وتتمثل كيفية عمل هذه الطريقة في أنها تحدد "روابط توميك" (Tomek Links)؛ وهي عبارة عن زوج من النقاط ينتمي كل منهما إلى فئة مختلفة، دون وجود نقطة ثالثة أقرب إلى أي منهما.2

وفي جميع روابط توميك (Tomek Links)، يتم حذف النقطة الموجودة ضمن فئة الأغلبية. وعن طريق إزالة نقطة فئة الأغلبية القريبة من نقطة فئة الأقلية، يزداد الفصل بين الفئات. من بين عيوب هذه الطريقة التعقيد الحسابي المرتبط بحساب جميع المسافات الزوجية بين نقاط فئتي الأغلبية والأقلية.2 وتظهر فاعلية تقليل عدد العينات بطريقة Tomek Link بشكل أكبر عند دمجها مع طرق أخرى.

طريقة أقرب الجيران المحرَّرة

تقليل عدد العينات بطريقة أقرب الجيران المحرَّرة (ENN) يشبه تقليل عدد العينات بطريقة Tomek Link، حيث يكون الهدف هو إزالة الأمثلة القريبة من حدود القرار لزيادة الفصل بين الفئات. وبوجه عام، تعمل هذه الطريقة على إزالة نقاط البيانات التي تختلف في فئتها عن غالبية النقاط المجاورة لها.2 وهذا يعني أن العملية تزيل نقاط بيانات فئة الأغلبية التي تنتمي أغلبية أقرب جيرانها إلى فئة الأقلية، والعكس صحيح. في هذا السياق، يمكن تحديد مفهوم الأغلبية بحرية: فقد يشير إلى وجود جار واحد على الأقل ينتمي إلى فئة مختلفة، أو إلى تجاوز نسبة الجيران في فئة مختلفة حدًا معينًا.

وعادةً ما يتم إجراء تقليل عدد العينات بطريقة أقرب الجيران المحرَّرة (ENN) مع أقرب 3 جيران، كما هو موضح أدناه.

تُعد هذه الطريقة استراتيجية أكثر شمولًا لأنها تنظر إلى المنطقة المجاورة العامة للنقاط بدلاً من التركيز على جار واحد فقط، لكنها تظل طريقة فعالة للتخلص من التشويش داخل البيانات. ويكون تقليل عدد العينات بطريقة أقرب الجيران المحرَّرة (ENN) أكثر فاعلية عند دمجه مع طرق أخرى.

الأبحاث الحديثة

تدور التطورات الحالية في تقليل عدد العينات حول تكامل التعلم العميق. وقد تم تطبيق هذا النهج في مجالات مثل معالجة الصور والبيانات الطبية، حيث تُستخدم الشبكات العصبية لتقليل عدد العينات في البيانات.6 أحد الأمثلة على ذلك هو SOM-US، الذي يستخدم شبكة عصبية مكونة من طبقتين.7 وفي السنوات الأخيرة، تم تطبيق التعلم النشط على تقليل عدد العينات في محاولة للتخفيف من آثار عدم توازن البيانات.8 وقد أظهرت التجارب أن هذه النماذج تحقق أداءً أفضل بكثير من التقنيات التقليدية.

تدور الأبحاث الحالية في تقليل عدد العينات أيضًا حول دمجها مع تقنيات أخرى لإنشاء أساليب هجينة. إحدى هذه التقنيات هو دمج تقليل عينات البيانات مع زيادة عدد العينات للحصول على فوائدهما معًا. تشمل بعض الأمثلة على ذلك: SMOTE + Tomek Link والتجميع الهرمي التكتلي ("AHC") و SPIDER.9 يمكن أن تتضمن التقنيات القائمة على مستوى الخوارزمية أيضًا أفكارًا من تقنيات تقليل عدد العينات التقليدية، مثل تقنية Hard Example Mining حيث يركز التدريب فقط على نقاط البيانات "الأصعب".2 وقد أظهرت جميع هذه التقنيات أداءً أفضل مقارنة باستخدام كل تقنية بمفردها.

حلول ذات صلة

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (محتوى الرابط موجود خارج موقع ibm.com).

2 Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (محتوى الرابط موجود خارج موقع ibm.com).

4 Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (محتوى الرابط موجود خارج موقع ibm.com).

5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (محتوى الرابط موجود خارج موقع ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg  (محتوى الرابط موجود خارج موقع ibm.com).

7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006  (محتوى الرابط موجود خارج موقع ibm.com).

8 Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (محتوى الرابط موجود خارج موقع ibm.com).

9 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.