تُعَد زيادة البيانات طريقة فعَّالة لمعالجة عدم التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلًا ناقصًا إلى حد كبير في مجموعة البيانات مقارنةً بالمجموعة الحقيقية، ما يؤدي إلى حدوث تحيّز غير مقصود. على سبيل المثال، تخيَّل أن هناك نموذجًا تم تدريبه على تصنيف الصور على أنها تعرض قطة أو كلبًا. وكانت مجموعة البيانات المستخدمة مكونة من قطط بنسبة 90% وكلاب بنسبة 10%. سنلاحظ في هذا السيناريو أن القطط ممثَّلة تمثيلًا زائدًا، فإذا كان لدينا مصنِّف يتنبأ بالقطط في كل مرة، فسوف يعطي دقة بنسبة 90% لتصنيف القطط، وسيعطي دقة بنسبة 0% لتصنيف الكلاب. ستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى ميل المصنِّفات لتحقيق دقة أعلى للفئة الأكثر تمثيلًا على حساب الفئة الأقل تمثيلًا. وقد تنشأ المشكلة نفسها مع مجموعات البيانات متعددة الفئات.1
تعمل زيادة عدد العينات على معالجة مشكلة اختلال التوازن في مجموعة البيانات، حيث تتم إضافة نقاط بيانات تم توليدها استنادًا إلى خصائص فئة الأقلية في المجموعة الأصلية. يساهم ذلك في موازنة مجموعة البيانات من خلال زيادة عدد العينات بشكل فعَّال لفئة الأقلية غير الممثَّلة بشكل كافٍ، حتى تصل نسبة العينات إلى مستوى متساوٍ عبر جميع الفئات.
في حين أنه يمكن رؤية حالات عدم التوازن ببساطة عن طريق رسم عدد نقاط البيانات في كل فئة، فإن ذلك لا يفيدنا في معرفة إذا ما كان سيؤثِّر بدرجة كبيرة في النموذج أم لا. ولحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح أسلوب زيادة العينات في تصحيح عدم توازن الفئات. ومعظم هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: إيجابية وسلبية. وتكون الطبقة الإيجابية في الغالب هي فئة الأقلية بينما الطبقة السلبية تكون فئة الأغلبية. وهناك مقياسان شائعان هما منحنيات خصائص تشغيل المستقبل (ROC) ومنحنيات الاسترجاع الدقيق.1