ما المقصود بزيادة العينات؟

29 أبريل 2024

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

تؤدي زيادة العينات إلى زيادة عدد عينات البيانات في مجموعة البيانات الواحدة. ويهدف القيام بذلك إلى تصحيح البيانات غير المتوازنة وبالتالي تحسين أداء النموذج.

تُعدّ عملية زيادة عدد العينات، والمعروفة أيضًا باسم زيادة حجم العينات، تقنية لمعالجة البيانات وتحسينها، تهدف إلى تصحيح اختلال التوازن بين الفئات في مجموعة البيانات من خلال إضافة بيانات جديدة. تتم هذه العملية باستخدام عينات أصلية من فئات الأقلية حتى يصبح حجم جميع الفئات متساويًا. يحتوي كل من Python scikit-learn وMatlab على دوال مدمجة لتنفيذ تقنيات زيادة العينات.

غالبًا ما يتم الخلط بين زيادة عدد العينات في علوم البيانات وزيادة عدد العينات في معالجة الإشارات الرقمية (DSP). ورغم التشابه بينهما من حيث المفهوم، إلا أنهما يختلفان في التطبيق. وعلى غرار زيادة عدد العينات في علوم البيانات، فإن زيادة عدد العينات في معالجة الإشارات الرقمية (DSP) تعمل على إنشاء المزيد من العينات في مجال التردد انطلاقًا من إشارة الإدخال (وتحديدًا إشارة زمنية منفصلة) من خلال استيفاء معدلات أخذ عينات أعلى. يتم توليد هذه العينات الجديدة عن طريق إدخال أصفار في الإشارة الأصلية واستخدام مرشح تمرير منخفض للاستيفاء، وهذا يختلف عن طريقة زيادة عدد العينات المستخدمة في موازنة البيانات.

تختلف زيادة عدد العينات لموازنة البيانات أيضًا عن زيادة عدد العينات في معالجة الصور. ففي الحالة الأخيرة، يتم أولًا تقليل دقة الصور عالية الوضوح (عن طريق إزالة وحدات البكسل) لتسريع العمليات الحسابية، ثم تُستخدم الالتفافات لاستعادة الصورة إلى أبعادها الأصلية (عن طريق إضافة وحدات البكسل مجددًا).

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا يجب استخدام زيادة عدد العينات؟

يعد زيادة عدد العينات وسيلة فعالة لمعالجة حالات اختلال التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلًا ناقصًا بشكل كبير مقارنةً بالمجموعة الأصلية، مما يؤدي إلى حدوث تحيز غير مقصود. على سبيل المثال، افترض أن هناك نموذجًا تم تدريبه على تصنيف الصور إلى فئتين: قطة أو كلب. وكانت مجموعة البيانات المستخدمة تحتوي على 90% قطط و10% كلاب. سنلاحظ في هذا السيناريو أن القطط ممثلة تمثيلاً زائدًا، فإذا كان لدينا نموذج تصنيف يتنبأ دائمًا بالقطط، فسوف يحقق دقة بنسبة 90% لتصنيف القطط، ولكنه سيحقق دقة بنسبة 0% لتصنيف الكلاب. وستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى تحيز النماذج نحو فئة الأغلبية على حساب فئة الأقلية. وقد تنشأ المشكلة ذاتها مع مجموعات البيانات التي تحتوي على أكثر من فئتين.1

تعمل زيادة عدد العينات على معالجة مشكلة اختلال التوازن في مجموعة البيانات، حيث يتم إضافة نقاط بيانات مُولدة استنادًا إلى خصائص فئة الأقلية في المجموعة الأصلية. يساهم ذلك في موازنة مجموعة البيانات من خلال زيادة عدد العينات بشكل فعال لفئة الأقلية غير الممثلة بشكل كافٍ، حتى تصل نسبة العينات إلى مستوى متساوٍ عبر جميع الفئات.

على الرغم من أنه يمكن ملاحظة اختلال التوازن ببساطة من خلال رسم عدد نقاط البيانات في كل فئة، فإن ذلك لا يوضح ما إذا كان سيؤثر بشكل كبير على النموذج. ولكن لحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح تقنية زيادة عدد العينات في تصحيح اختلال التوازن بين الفئات. وتكون أغلبية هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: فئة موجبة وفئة سالبة. وعادةً ما تكون الفئة الموجبة هي فئة الأقلية، بينما تكون الفئة السالبة هي فئة الأغلبية. وهناك مقياسان شائعان للتقييم هما منحنى خاصية تشغيل المستقبِل (ROC) ومنحنى الاسترجاع الدقيق.1

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

مزايا وعيوب زيادة العينات

المزايا

  • عدم فقدان المعلومات: على عكس تقليل عدد العينات، الذي يزيل نقاط البيانات من فئة الأغلبية، تقوم زيادة عدد العينات بتوليد نقاط بيانات جديدة، مما يمنع فقدان أي معلومات.
  • زيادة البيانات بتكاليف منخفضة: تُعد زيادة عدد العينات فعالة بشكل خاص، وغالبًا ما تكون الخيار الوحيد لزيادة حجم مجموعة البيانات عند الطلب، في الحالات التي لا يمكن فيها الحصول على البيانات إلا من خلال الملاحظة المباشرة. على سبيل المثال، بعض الأمراض الطبية النادرة قد لا تتيح إمكانية جمع بيانات إضافية بسهولة.

العيوب

  • الإفراط في التخصيص: نظرًا لأن زيادة عدد العينات تولّد بيانات جديدة استنادًا إلى بيانات فئة الأقلية الحالية، فقد يؤدي ذلك إلى الإفراط في تخصيص المصنف للبيانات. تفترض زيادة عدد العينات أن البيانات المتوفرة تعكس الواقع بشكل كافٍ، وإذا لم يكن الأمر كذلك، فقد يفشل المصنف في التعميم بشكل فعال.
  • التشويش في البيانات: يمكن أن يؤدي زيادة عدد العينات إلى زيادة مقدار التشويش في البيانات، مما يقلل من موثوقية المصنف والأداء.2
  • التعقيد الحسابي: من خلال زيادة كمية البيانات، ستزيد تكلفة تدريب المصنِّف من الناحية الحسابية، وهو ما قد يمثل مشكلة عند استخدام الحوسبة السحابية.2

تقنيات زيادة عدد العينات

الزيادة العشوائية لعدد العينات

أخذ العينات العشوائية الزائدة هو عملية تكرار عشوائي لنقاط البيانات في فئة الأقلية حتى يتساوى حجمها مع فئة الأغلبية.

على الرغم من تشابههما في طبيعتهما، إلا أن الزيادة العشوائية لعدد العينات تختلف عن التشغيل التمهيدي. التشغيل التمهيدي هو تقنية تعلم جماعية تعيد أخذ العينات من جميع الفئات. على النقيض من ذلك، تقوم الزيادة العشوائية لعدد العينات بإعادة أخذ العينات من فئة الأقلية فقط. وبالتالي، يمكن اعتبار الزيادة العشوائية لعدد العينات شكلاً أكثر تخصصًا من التشغيل التمهيدي.

على الرغم من بساطته، إلا أن الزيادة العشوائية لعدد العينات تنطوي على بعض القيود. نظرًا لأنها تعتمد فقط على إضافة نقاط بيانات مكررة، فقد يؤدي ذلك إلى الإفراط في التخصيص3. ومع ذلك، فإنها لا تزال تتمتع بالعديد من المزايا مقارنة بالطرق الأخرى، مثل سهولة التنفيذ، وعدم الحاجة إلى افتراضات معقدة بشأن البيانات، وانخفاض التعقيد الزمني بفضل خوارزميتها البسيطة2.

تقنية SMOTE

تمثل تقنية زيادة عدد عينات الأقلية الاصطناعية (SMOTE) إحدى تقنيات زيادة عدد العينات، وقد طُرحت لأول مرة عام 2002، حيث تقوم بتوليد نقاط بيانات جديدة استنادًا إلى النقاط الموجودة في فئة الأقلية4. تتألف هذه التقنية من العملية التالية:2

  1. حدد الجار الأقرب K لجميع نقاط بيانات فئة الأقلية. عادةً ما يكون K هو 5.
  2. كرر الخطوات من 3 إلى 5 لكل نقطة بيانات في فئة الأقلية:
  3. اختر أحد أقرب الجيران K لنقطة البيانات.
  4. اختيار نقطة عشوائية على القطعة المستقيمة التي تربط بين هاتين النقطتين في فضاء الميزات لتوليد عينة إخراج جديدة. تُعرف هذه العملية باسم الاستيفاء.
  5. وفقًا لمستوى زيادة عدد العينات المطلوب، يتم تكرار الخطوتين 3 و4 باستخدام أحد الجيران الأقرب المختلفين.

تعالج تقنية SMOTE مشكلة الإفراط في التخصيص الناتجة عن الزيادة العشوائية لعدد العينات من خلال إضافة بيانات جديدة غير مرئية مسبقًا إلى مجموعة البيانات بدلاً من مجرد تكرار البيانات الموجودة. لهذا السبب، يعتبر بعض الباحثين أن SMOTE هي تقنية أكثر كفاءة لزيادة عدد العينات مقارنةً بتقنية الزيادة العشوائية لعدد العينات.

من ناحية أخرى، يؤدي توليد نقاط البيانات الاصطناعية في تقنية SMOTE إلى إضافة تشويش إضافي إلى مجموعة البيانات، مما قد يجعل المصنف أقل استقرارًا1. كما أن النقاط الاصطناعية والتشويش الناتج عن تقنية SMOTE قد تؤدي بشكل غير مقصود إلى تداخل بين فئتي الأقلية والأغلبية لا يعكس الواقع، مما يؤدي إلى ما يُعرف بـ التعميم المفرط5.

تقنية Borderline SMOTE

يستخدم أحد المكونات الإضافية الشائعة، Borderline SMOTE، لمعالجة مشكلة الضوضاء في البيانات الاصطناعية وإنشاء نقاط بيانات أكثر صعوبة. تشير نقاط البيانات الأكثر صعوبة إلى النقاط القريبة من حد القرار، مما يجعل تصنيفها أكثر تعقيدًا. وتعد هذه النقاط الصعبة أكثر فائدة للنموذج أثناء عملية التعلم2.

تعمل تقنية Borderline SMOTE على تحديد نقاط فئة الأقلية القريبة من عدد كبير من نقاط فئة الأغلبية وتضعها في مجموعة DANGER. تمثل نقاط مجموعة DANGER بيانات يصعب تعلمها، وذلك لأنها أكثر تعقيدًا في التصنيف مقارنة بالنقاط المحاطة فقط بنقاط فئة الأقلية. تستبعد هذه العملية النقاط التي يكون جميع جيرانها الأقرب من فئة الأغلبية، حيث تُعتبر تشويشًا. بعد ذلك، تواصل خوارزمية SMOTE عملها كالمعتاد باستخدام مجموعة DANGER3.

ADASYN

تتشابه طريقة أخذ العينات الاصطناعية التكيفية (ADASYN) مع Borderline SMOTE من حيث أنها تولد بيانات أكثر تعقيدًا يصعب على النموذج تعلمها، لكنها تسعى أيضًا إلى الحفاظ على توزيع بيانات فئة الأقلية6. يتم ذلك عن طريق إنشاء توزيع مُرجح لجميع نقاط الأقلية استنادًا إلى عدد أمثلة فئة الأغلبية في نطاقها. بعد ذلك، تعتمد التقنية بشكل أكبر على نقاط فئة الأقلية الأقرب إلى فئة الأغلبية عند توليد بيانات جديدة.

تسير العملية على النحو التالي:2

  1. إنشاء نموذج الجار الأقرب (KNN) على مجموعة البيانات بالكامل.
  2. يتم تخصيص "عامل صعوبة" لكل نقطة في فئة الأقلية، يُرمز له بالرمز r، وهو نسبة عدد نقاط فئة الأغلبية إلى العدد الإجمالي للجيران في نموذج الجار الأقرب KNN.
  3. على غرار تقنية SMOTE، يتم توليد النقاط الاصطناعية عبر الاستيفاء الخطي بين بيانات فئة الأقلية وجيرانها، ولكن يتم تحديد عدد النقاط المولدة بناءً على عامل الصعوبة لكل نقطة. يؤدي ذلك إلى زيادة عدد النقاط في المناطق التي تحتوي على بيانات أقل لفئة الأقلية، وتقليل عددها في المناطق التي تحتوي على بيانات أكثر.

تحويل البيانات/زيادة البيانات

تعمل زيادة البيانات على توليد بيانات جديدة من خلال توليد تنوعات من البيانات الأصلية. تُستخدم زيادة البيانات في مجموعة متنوعة من مجالات التعلم الآلي.

يتمثل الشكل الأساسي الأكثر بساطة لزيادة البيانات في تحويل المدخلات الأولية لمجموعة البيانات. على سبيل المثال، في رؤية الكمبيوتر، يمكن استخدام زيادات الصور مثل القص، والتمويه، والانعكاس وغيرها لإنشاء المزيد من الصور التي يمكن للنموذج تصنيفها. وبالمثل، يمكن استخدام زيادة البيانات أيضًا في مهام معالجة اللغة الطبيعية، مثل استبدال الكلمات بمرادفاتها أو إنشاء جمل مكافئة دلاليًا.

وجد الباحثون أن زيادة البيانات تعزز دقة النموذج بشكل فعال في مهام رؤية الكمبيوتر ومعالجة اللغة الطبيعية، لأنها تضيف بيانات مماثلة بتكلفة منخفضة. ومع ذلك، من المهم مراعاة بعض التحذيرات قبل تنفيذ هذه التقنيات. في الزيادات الهندسية التقليدية، يجب التأكد من "سلامة" التحويلات قبل تطبيقها. على سبيل المثال، دوران صورة الرقم "9" قد يجعلها تبدو مثل الرقم "6"، مما يؤدي إلى تغيير معناها الدلالي7.

الأبحاث الحديثة

تمحورت التطورات الحديثة في تقنيات زيادة عدد العينات حول امتدادات SMOTE والتعلم العميق. تهدف هذه الأساليب إلى تحسين أداء النماذج ومعالجة بعض أوجه القصور المرتبطة بزيادة عدد العينات، مثل التحيز المُدخل في توزيع فئة الأقلية.

تشمل بعض التطورات في تقنية SMOTE ما يُعرف باسم تقنية SMOTE المعتمدة على احتمالية التنبؤ بفئة الأقلية (MPP-SMOTE)، والتي تزيد عدد العينات استنادًا إلى الاحتمالات المقدرة لظهور كل عينة من فئة الأقلية8. كما تم اقتراح تقنية زيادة عدد العينات الحدّية متعددة التصنيفات (MLBOTE) لتوسيع نطاق تقنية SMOTE ليشمل تصنيف الفئات المتعددة9. وقد تفوقت كلتا التقنيتين على جميع إصدارات تقنية SMOTE الأخرى، مع الحفاظ على الأنماط الأصلية في البيانات.

تم استخدام الشبكات العصبية أيضًا في تطوير تقنيات زيادة عدد العينات. وقد أثارت الشبكات التوليدية التنافسية (GANs) اهتمامًا ملحوظًا، حيث حققت نتائج واعدة، إلا أن زمن التدريب الأطول يجعل هذه التقنية أبطأ مقارنةً بطرق زيادة عدد العينات التقليدية10.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (محتوى الرابط موجود خارج موقع ibm.com). (1,2,10)

2 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 (محتوى الرابط موجود خارج موقع ibm.com). (3,4,6,8,9,12,14-17)

3 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 (محتوى الرابط موجود خارج موقع ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, 2018.

4 Nitesh Chawla, et al., SMOTE: Synthetic Minority Over-sampling Technique, JAIR, 01 June 2002, https://www.jair.org/index.php/jair/article/view/10302 (محتوى الرابط موجود خارج موقع ibm.com).

5 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023. Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (محتوى الرابط موجود خارج موقع ibm.com).

6 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

7 Connor Shorten and Taghi Khoshgoftaar, A survey on Image Data Augmentation for Deep Learning, Springer, 06 July 2019**,** https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0 (محتوى الرابط موجود خارج موقع ibm.com).

8 Zhen Wei, Li Zhang, and Lei Zhao, Minority prediction probability based oversampling technique for imbalanced learning, Science Direct, 06 December 2022, https://www.sciencedirect.com/science/article/abs/pii/S0020025522014578?casa_token=TVVIEM3xTDEAAAAA:LbzQSgIvuYDWbDTBKWb4ON-CUiTUg0EUeoQf9q12IjLgXFk0NQagfh0bU3DMUSyHL_mjd_V890o (محتوى الرابط موجود خارج موقع ibm.com).

9 Zeyu Teng, et al., Multi-label borderline oversampling technique, ScienceDirect, 14 September 2023, https://www.sciencedirect.com/science/article/abs/pii/S0031320323006519?casa_token=NO8dLh60_vAAAAAA:AWPCvCP8PQG43DvkQFChZF2-3uzB1GJBBtgPURevWe_-aR0-WTbLqOSAsiwxulNAuh_4mIDZx-Y (محتوى الرابط موجود خارج موقع ibm.com).

10 Justin Engelmann and Stefan Lessmann, Conditional Wasserstein GAN-based oversampling of tabular data for imbalanced learning, 15 July 2021, ScienceDirect, https://www.sciencedirect.com/science/article/abs/pii/S0957417421000233?casa_token=O0d1BtspA8YAAAAA:n2Uv3v2yHvjl9APVU9V_13rQ9K_KwT0P__nzd6hIngNcZJE-fmQufDgR6XT1uMmDBHx8bLXPVho (محتوى الرابط موجود خارج موقع ibm.com). Shuai Yang, et al., Fault diagnosis of wind turbines with generative adversarial network-based oversampling method, IOP Science, 12 January 2023, https://iopscience.iop.org/article/10.1088/1361-6501/acad20/meta (محتوى الرابط موجود خارج موقع ibm.com).