En su sentido más general, el aumento de datos denota métodos para complementar los llamados conjuntos de datos incompletos al proporcionar puntos de datos que faltan para aumentar la analizabilidad del conjunto de datos1. Esto se manifiesta en el machine learning al generar copias modificadas de datos preexistentes para aumentar el tamaño y la diversidad de un conjunto de datos. Así, con respecto al machine learning, los datos aumentados pueden entenderse como el suministro artificial de datos del mundo real potencialmente ausentes.
El aumento de datos mejora la optimización y generalización del modelo de machine learning. En otras palabras, el aumento de datos puede reducir el sobreajuste y mejorar la solidez del modelo2. Que los conjuntos de datos grandes y diversos equivalen a un mejor rendimiento del modelo es un axioma del machine learning. Sin embargo, por varias razones (desde cuestiones éticas y de privacidad hasta el simple esfuerzo que requiere mucho tiempo para recopilar manualmente los datos necesarios), puede resultar complicado obtener datos suficientes. El aumento de datos proporciona un medio eficaz para aumentar el tamaño y la variabilidad de los conjuntos de datos. De hecho, los investigadores utilizan ampliamente el aumento de datos para corregir conjuntos de datos desequilibrados3.
Muchos marcos de deep learning, como PyTorch, Keras y Tensorflow, proporcionan funciones para aumentar los datos, principalmente conjuntos de datos de imágenes. El paquete Python Ablumentations (disponible en Github) también se ha adoptado en muchos proyectos de código abierto. Albumentations permite aumentar los datos de imagen y texto.