يُشير تعزيز البيانات بمعناه العام إلى طرق لاستكمال ما يُعرَف باسم مجموعات البيانات غير المكتملة من خلال توفير نقاط بيانات مفقودة من أجل زيادة قابلية تحليل مجموعة البيانات.1 يظهر هذا في التعلم الآلي من خلال إنشاء نسخ معدلة من البيانات الموجودة مسبقًا لزيادة حجم مجموعة البيانات وتنوعها. بذلك، في سياق التعلم الآلي، تُعَد البيانات المعززة تزويدًا اصطناعيًا للبيانات الحقيقية التي قد تكون غير متوفرة.
تعمل زيادة البيانات على تحسين تطوير نموذج التعلم الآلي وتعميمه. بعبارة أخرى، يمكن لزيادة البيانات تقليل فرط التخصيص وتحسين فاعلية النموذج.2 إن مجموعات البيانات الكبيرة والمتنوعة تعني أداءً محسّنًا للنموذج، وهو من البديهيات في مجال التعلم الآلي. ومع ذلك، قد يكون جمع بيانات كافية أمرًا صعبًا بسبب عدة عوامل، منها الاعتبارات الأخلاقية ومخاوف الخصوصية، أو الجهد الكبير المطلوب لتجميع البيانات يدويًا. توفِّر زيادة البيانات وسيلة فعَّالة لزيادة حجم مجموعة البيانات وتنوعها. في الواقع، يستخدم الباحثون زيادة البيانات على نطاق واسع لتصحيح مجموعات البيانات غير المتوازنة.3
يوفر العديد من إطارات عمل التعلم العميق، مثل PyTorch وKeras وTensorflow، وظائف لتعزيز البيانات، وخاصةً مجموعات البيانات المكوَّنة من الصور. كما اعتُمدت حزمة Ablumentations من Python (متوفرة على Github) في العديد من مشاريع المصدر المفتوح. يُتيح Albumentations تعزيز بيانات الصور والنصوص.