ما المقصود بزيادة العينات؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

ما المقصود بزيادة العينات؟

تؤدي زيادة العينات إلى زيادة عدد عينات البيانات في مجموعة البيانات الواحدة. ويهدف القيام بذلك إلى تصحيح البيانات غير المتوازنة وبالتالي تحسين أداء النموذج.

تُعَد عملية زيادة عدد العينات، والمعروفة أيضًا باسم زيادة حجم العينات، تقنية لمعالجة البيانات وتحسينها، تهدف إلى تصحيح اختلال التوازن بين الفئات في مجموعة البيانات من خلال إضافة بيانات جديدة. تتم هذه العملية باستخدام عينات أصلية من فئات الأقلية حتى يصبح حجم جميع الفئات متساويًا. يحتوي كل من Python scikit-learn وMatlab على دوال مدمجة لتنفيذ تقنيات زيادة العينات.

غالبًا ما يتم الخلط بين زيادة عدد العينات في علوم البيانات وزيادة عدد العينات في معالجة الإشارات الرقمية (DSP). ورغم التشابه بينهما من حيث المفهوم، فإنهما يختلفان في التطبيق. وعلى غرار زيادة عدد العينات في علوم البيانات، فإن زيادة عدد العينات في معالجة الإشارات الرقمية (DSP) تعمل على إنشاء المزيد من العينات في مجال التردد انطلاقًا من إشارة الإدخال (وتحديدًا إشارة زمنية منفصلة) من خلال استيفاء معدلات أخذ عينات أعلى. يتم توليد هذه العينات الجديدة عن طريق إدخال أصفار في الإشارة الأصلية واستخدام مرشح تمرير منخفض للاستيفاء، وهذا يختلف عن طريقة زيادة عدد العينات المستخدمة في موازنة البيانات.

تختلف زيادة عدد العينات لموازنة البيانات أيضًا عن زيادة عدد العينات في معالجة الصور. ففي الحالة الأخيرة، يتم أولًا تقليل دقة الصور عالية الوضوح (عن طريق إزالة وحدات البكسل) لتسريع العمليات الحسابية، ثم تُستخدم الالتفافات لاستعادة الصورة إلى أبعادها الأصلية (عن طريق إضافة وحدات البكسل مجددًا).

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

لماذا يجب استخدام زيادة عدد العينات؟

تُعَد زيادة البيانات طريقة فعَّالة لمعالجة عدم التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلًا ناقصًا إلى حد كبير في مجموعة البيانات مقارنةً بالمجموعة الحقيقية، ما يؤدي إلى حدوث تحيّز غير مقصود. على سبيل المثال، تخيَّل أن هناك نموذجًا تم تدريبه على تصنيف الصور على أنها تعرض قطة أو كلبًا. وكانت مجموعة البيانات المستخدمة مكونة من قطط بنسبة 90% وكلاب بنسبة 10%. سنلاحظ في هذا السيناريو أن القطط ممثَّلة تمثيلًا زائدًا، فإذا كان لدينا مصنِّف يتنبأ بالقطط في كل مرة، فسوف يعطي دقة بنسبة 90% لتصنيف القطط، وسيعطي دقة بنسبة 0% لتصنيف الكلاب. ستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى ميل المصنِّفات لتحقيق دقة أعلى للفئة الأكثر تمثيلًا على حساب الفئة الأقل تمثيلًا. وقد تنشأ المشكلة نفسها مع مجموعات البيانات متعددة الفئات.1

تعمل زيادة عدد العينات على معالجة مشكلة اختلال التوازن في مجموعة البيانات، حيث تتم إضافة نقاط بيانات تم توليدها استنادًا إلى خصائص فئة الأقلية في المجموعة الأصلية. يساهم ذلك في موازنة مجموعة البيانات من خلال زيادة عدد العينات بشكل فعَّال لفئة الأقلية غير الممثَّلة بشكل كافٍ، حتى تصل نسبة العينات إلى مستوى متساوٍ عبر جميع الفئات.

في حين أنه يمكن رؤية حالات عدم التوازن ببساطة عن طريق رسم عدد نقاط البيانات في كل فئة، فإن ذلك لا يفيدنا في معرفة إذا ما كان سيؤثِّر بدرجة كبيرة في النموذج أم لا. ولحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح أسلوب زيادة العينات في تصحيح عدم توازن الفئات. ومعظم هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: إيجابية وسلبية. وتكون الطبقة الإيجابية في الغالب هي فئة الأقلية بينما الطبقة السلبية تكون فئة الأغلبية. وهناك مقياسان شائعان هما منحنيات خصائص تشغيل المستقبل (ROC) ومنحنيات الاسترجاع الدقيق.1

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

مزايا وعيوب زيادة العينات

المزايا

  • عدم فقدان المعلومات: على عكس تقليل العينات، الذي يزيل نقاط البيانات من فئة الأغلبية، تعمل زيادة العينات على توليد نقاط بيانات جديدة، ما يمنع فقدان أي معلومات.
  • زيادة البيانات بتكاليف منخفضة: تُعَد زيادة العينات فعَّالة بشكل خاص، وغالبًا ما تكون الطريقة الوحيدة لزيادة حجم مجموعة البيانات عند الطلب في الحالات التي لا يمكن فيها الحصول على البيانات إلا من خلال المراقبة. على سبيل المثال، بعض الحالات الطبية نادرة جدًا بحيث لا تسمح بجمع المزيد من البيانات.

العيوب

  • الإفراط في التخصيص: نظرًا لأن عملية أخذ العينات الإضافية تُنشئ بيانات جديدة استنادًا إلى بيانات فئة الأقلية الموجودة، يمكن أن يكون المصنِّف مفرطًا في تخصيص البيانات. تفترض عملية زيادة العينات أن البيانات الحالية تمثِّل الواقع بشكل كافٍ؛ وإذا لم يكن هذا هو الحال، فقد لا يتمكن المصنِّف من التعميم بشكل جيد.
  • ضوضاء البيانات: يمكن أن تؤدي زيادة العينات إلى زيادة كمية الضوضاء في البيانات، ما يقلل من موثوقية المصنِّف والأداء.2
  • التعقيد الحسابي: من خلال زيادة كمية البيانات، فإن تدريب المصنِّف سيكون أكثر تكلفة حسابية، وهو ما قد يشكِّل مشكلة عند استخدام الحوسبة السحابية.2

تقنيات زيادة عدد العينات

الزيادة العشوائية لعدد العينات

تُعَد الزيادة العشوائية في العينات عملية تكرار عشوائي لنقاط البيانات في فئة الأقلية حتى يتساوى حجمها مع فئة الأغلبية.

رغم تشابههما في الطبيعة، فإن الزيادة العشوائية للعينات مختلفة عن التشغيل التمهيدي. يُعَد التشغيل التمهيدي (Bootstrapping) تقنية التعلم التجميعي التي تُعيد أخذ العينات من جميع الفئات. على النقيض من ذلك، فإن الزيادة العشوائية للعينات تُعيد أخذ العينات من فئة الأقلية فقط. وبالتالي يمكن فهم الزيادة العشوائية للعينات على أنها شكل أكثر تخصصًا من التشغيل التمهيدي.

على الرغم من بساطتها، فإن الزيادة العشوائية للعينات لها قيود. نظرًا لأن الزيادة العشوائية للعينات تُضيف نقاط بيانات مكررة فقط، فقد يؤدي ذلك إلى الإفراط في التخصيص.3 ولكنها لا تزال تتمتع بالعديد من المزايا مقارنةً بالطرق الأخرى: سهولة تنفيذها، وعدم وجود افتراضات مطولة حول البيانات، وانخفاض التعقيد الزمني بسبب بساطة الخوارزمية.2

تقنية SMOTE

تقنية التكبير الصناعي للأقليات، أو SMOTE، هي تقنية زيادة عينات تم تقديمها لأول مرة في عام 2002، تعمل على إنشاء نقاط بيانات جديدة استنادًا إلى النقاط الموجودة في الفئة الأقل تمثيلًا.4 وتتكون من العملية التالية:2

  1. تحديد الجار الأقرب K لجميع نقاط بيانات فئة الأقلية. عادةً ما يكون K هو 5.
  2. تكرار الخطوات من 3 إلى 5 لكل نقطة بيانات في فئة الأقلية:
  3. اختيار أحد أقرب الجيران K لنقطة البيانات.
  4. اختيار نقطة عشوائية على القطعة المستقيمة التي تربط بين هاتين النقطتين في فضاء الميزات لتوليد عينة إخراج جديدة. تُعرَف هذه العملية باسم الاستيفاء.
  5. وفقًا لمستوى زيادة عدد العينات المطلوب، يتم تكرار الخطوتين 3 و4 باستخدام أحد الجيران الأقرب المختلفين.

تعالج تقنية SMOTE مشكلة الإفراط في التخصيص الناتجة عن الزيادة العشوائية لعدد العينات من خلال إضافة بيانات جديدة غير مرئية مسبقًا إلى مجموعة البيانات بدلًا من مجرد تكرار البيانات الموجودة. لهذا السبب، يَعتبر بعض الباحثين أن SMOTE هي تقنية أكثر كفاءة لزيادة عدد العينات مقارنةً بتقنية الزيادة العشوائية لعدد العينات.

من ناحية أخرى، يضيف توليد نقاط البيانات الاصطناعية في SMOTE ضوضاء إضافية إلى مجموعة البيانات، ما قد يجعل المصنِّف أقل استقرارًا.1 قد تؤدي النقاط الاصطناعية والضوضاء الناتجة عن SMOTE أيضًا عن غير قصد إلى تداخل بين الفئات الأقل تمثيلًا والفئات الأكثر تمثيلًا، وهو ما لا يعكس الواقع، ما يؤدي إلى ما يُسمى بالإفراط في التعميم.5

تقنية Borderline SMOTE

أحد الامتدادات الشائعة، Borderline SMOTE، يُستخدم لمواجهة مشكلة الضوضاء في مجموعة البيانات الاصطناعية ولتوليد نقاط بيانات "أصعب". نقاط البيانات "الأصعب" هي نقاط بيانات قريبة من الحد، وبالتالي يصعب تصنيفها. هذه النقاط الأصعب أكثر فائدة للنموذج في التعلم.2

تعمل تقنية Borderline SMOTE على تحديد نقاط فئة الأقلية القريبة من عدد كبير من نقاط فئة الأغلبية وتضعها في مجموعة DANGER. تمثل نقاط مجموعة DANGER بيانات يصعب تعلمها، وذلك لأنها أكثر تعقيدًا في التصنيف مقارنةً بالنقاط المحاطة فقط بنقاط فئة الأقلية. تستبعد هذه العملية النقاط التي يكون جميع جيرانها الأقرب من فئة الأغلبية، حيث تُعتبر تشويشًا. بعد ذلك، تواصِل خوارزمية SMOTE عملها كالمعتاد باستخدام مجموعة DANGER.‏3

ADASYN

تتشابه طريقة أخذ العينات الاصطناعية التكيفية (ADASYN) مع Borderline SMOTE من حيث أنها تولِّد بيانات أكثر تعقيدًا يصعب على النموذج تعلمها. لكنها تسعى أيضًا إلى الحفاظ على توزيع بيانات فئة الأقلية.6 يتم ذلك عن طريق إنشاء توزيع مُرجح لجميع نقاط الأقلية استنادًا إلى عدد أمثلة فئة الأغلبية في نطاقها. بعد ذلك، تعتمد التقنية بشكل أكبر على نقاط فئة الأقلية الأقرب إلى فئة الأغلبية عند توليد بيانات جديدة.

تسير العملية على النحو التالي:2

  1. إنشاء نموذج الجار الأقرب (KNN) على مجموعة البيانات بالكامل.
  2. يتم تخصيص "عامل صعوبة" لكل نقطة في فئة الأقلية، يُرمز له بالرمز r، وهو نسبة عدد نقاط فئة الأغلبية إلى العدد الإجمالي للجيران في نموذج الجار الأقرب KNN.
  3. على غرار تقنية SMOTE، يتم توليد النقاط الاصطناعية عبر الاستيفاء الخطي بين بيانات فئة الأقلية وجيرانها، ولكن يتم تحديد عدد النقاط التي تم توليدها بناءً على عامل الصعوبة لكل نقطة. يؤدي ذلك إلى زيادة عدد النقاط في المناطق التي تحتوي على بيانات أقل لفئة الأقلية، وتقليل عددها في المناطق التي تحتوي على بيانات أكثر.

تحويل البيانات/زيادة البيانات

تعمل زيادة البيانات على توليد بيانات جديدة من خلال توليد تنوعات من البيانات الأصلية. تُستخدم زيادة البيانات في مجموعة متنوعة من مجالات التعلم الآلي.

يتمثل الشكل الأساسي الأكثر بساطة لزيادة البيانات في تحويل المدخلات الأولية لمجموعة البيانات. على سبيل المثال، في رؤية الكمبيوتر، يمكن استخدام زيادات الصور مثل القص والتمويه والانعكاس وغيرها لإنشاء المزيد من الصور التي يمكن للنموذج تصنيفها. وبالمثل، يمكن استخدام زيادة البيانات أيضًا في مهام معالجة اللغة الطبيعية، مثل استبدال الكلمات بمرادفاتها أو إنشاء جمل مكافئة دلاليًا.

وجد الباحثون أن زيادة البيانات تعزز دقة النموذج بشكل فعَّال في مهام رؤية الكمبيوتر ومعالجة اللغة الطبيعية، لأنها تضيف بيانات مماثلة بتكلفة منخفضة. ومع ذلك، من المهم مراعاة بعض التحذيرات قبل تنفيذ هذه التقنيات. في الزيادات الهندسية التقليدية، يجب التأكد من "سلامة" التحويلات قبل تطبيقها. على سبيل المثال، دوران صورة الرقم "9" قد يجعلها تبدو مثل الرقم "6"، ما يؤدي إلى تغيير معناها الدلالي.7

الأبحاث الحديثة

تمحورت التطورات الحديثة في تقنيات زيادة عدد العينات حول امتدادات SMOTE والتعلم العميق. تهدف هذه الأساليب إلى تحسين أداء النماذج ومعالجة بعض أوجه القصور المرتبطة بزيادة عدد العينات، مثل التحيز المُدخل في توزيع فئة الأقلية.

تشمل بعض التطورات في تقنية SMOTE ما يُعرف باسم تقنية SMOTE المعتمدة على احتمالية التنبؤ بفئة الأقلية (MPP-SMOTE)، والتي تزيد عدد العينات استنادًا إلى الاحتمالات المقدرة لظهور كل عينة من فئة الأقلية8. كما تم اقتراح تقنية زيادة عدد العينات الحدّية متعددة التصنيفات (MLBOTE) لتوسيع نطاق تقنية SMOTE ليشمل تصنيف الفئات المتعددة.9 وقد تفوقت كِلتا التقنيتين على جميع إصدارات تقنية SMOTE الأخرى، مع الحفاظ على الأنماط الأصلية في البيانات.

تم استخدام الشبكات العصبية أيضًا في تطوير تقنيات زيادة عدد العينات. وقد أثارت الشبكات التنافسية التوليدية (GANs) اهتمامًا ملحوظًا، حيث حققت نتائج واعدة، إلا إن زمن التدريب الأطول يجعل هذه التقنية أبطأ مقارنةً بطرق زيادة عدد العينات التقليدية.10

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (الرابط موجود خارج موقع ibm.com). (1، 2، 10)

2 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 (الرابط موجود خارج موقع ibm.com). (3، 4، 6، 8، 9، 12، من 14 إلى 17)

3 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 (الرابط موجود خارج موقع ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, 2018.

4 Nitesh Chawla, et al., SMOTE: Synthetic Minority Over-sampling Technique, JAIR, 01 June 2002, https://www.jair.org/index.php/jair/article/view/10302 (الرابط موجود خارج موقع ibm.com).

5 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023. Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (الرابط موجود خارج موقع ibm.com).

6 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

7 Connor Shorten and Taghi Khoshgoftaar, A survey on Image Data Augmentation for Deep Learning, Springer, 06 July 2019**,** https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0 (الرابط موجود خارج موقع ibm.com).

8 Zhen Wei, Li Zhang, and Lei Zhao, Minority prediction probability based oversampling technique for imbalanced learning, Science Direct, 06 December 2022, https://www.sciencedirect.com/science/article/abs/pii/S0020025522014578?casa_token=TVVIEM3xTDEAAAAA:LbzQSgIvuYDWbDTBKWb4ON-CUiTUg0EUeoQf9q12IjLgXFk0NQagfh0bU3DMUSyHL_mjd_V890o (link resides outside ibm.com).

9 Zeyu Teng, et al., Multi-label borderline oversampling technique, ScienceDirect, 14 September 2023, https://www.sciencedirect.com/science/article/abs/pii/S0031320323006519?casa_token=NO8dLh60_vAAAAAA:AWPCvCP8PQG43DvkQFChZF2-3uzB1GJBBtgPURevWe_-aR0-WTbLqOSAsiwxulNAuh_4mIDZx-Y (link resides outside ibm.com).

10 Justin Engelmann and Stefan Lessmann, Conditional Wasserstein GAN-based oversampling of tabular data for imbalanced learning, 15 July 2021, ScienceDirect, https://www.sciencedirect.com/science/article/abs/pii/S0957417421000233?casa_token=O0d1BtspA8YAAAAA:n2Uv3v2yHvjl9APVU9V_13rQ9K_KwT0P__nzd6hIngNcZJE-fmQufDgR6XT1uMmDBHx8bLXPVho (link resides outside ibm.com). Shuai Yang, et al., Fault diagnosis of wind turbines with generative adversarial network-based oversampling method, IOP Science, 12 January 2023, https://iopscience.iop.org/article/10.1088/1361-6501/acad20/meta (الرابط موجود خارج موقع ibm.com).