تشير زيادة البيانات بمعناها العام إلى طرق لاستكمال ما يُسمَّى بمجموعات البيانات غير المكتملة من خلال توفير نقاط بيانات مفقودة من أجل زيادة قابلية تحليل مجموعة البيانات.1 يظهر هذا في التعلم الآلي من خلال إنشاء نسخ معدلة من البيانات الموجودة مسبقًا لزيادة حجم وتنوع مجموعة البيانات. وبالتالي، فيما يتعلق بالتعلم الآلي، يمكن فهم البيانات المعززة على أنها بيانات مصطنعة توفر بيانات العالم الحقيقي الغائبة المحتملة.
تعمل زيادة البيانات على تحسين تطوير نموذج التعلم الآلي وتعميمه. بعبارة أخرى، يمكن لزيادة البيانات تقليل فرط التخصيص وتحسين فاعلية النموذج.2 إن مجموعات البيانات الكبيرة والمتنوعة تعني أداءً محسّنًا للنموذج، وهو من البديهيات في مجال التعلم الآلي. ومع ذلك، قد يكون جمع بيانات كافية أمرًا صعبًا بسبب عدة عوامل، منها الاعتبارات الأخلاقية ومخاوف الخصوصية، أو الجهد الكبير المطلوب لتجميع البيانات يدويًا. توفِّر زيادة البيانات وسيلة فعَّالة لزيادة حجم مجموعة البيانات وتنوعها. في الواقع، يستخدم الباحثون زيادة البيانات على نطاق واسع لتصحيح مجموعات البيانات غير المتوازنة.3
توفر العديد من إطارات عمل التعلم العميق، مثل PyTorch وKeras وTensorflow وظائف لزيادة البيانات، وخاصةً مجموعات البيانات المكونة من الصور. كما اعتُمدت حزمة Ablumentations من Python (متوفرة على Github) في العديد من مشاريع المصدر المفتوح. تُتيح Albumentations زيادة بيانات الصور والنصوص.