En su sentido más general, el aumento de datos denota métodos para complementar los llamados conjuntos de datos incompletos proporcionando puntos de datos faltantes para aumentar la analizabilidad del conjunto de datos.1 Esto se manifiesta en el aprendizaje automático al generar copias modificadas de datos preexistentes para aumentar el tamaño y la diversidad de un conjunto de datos. Por lo tanto, con respecto al aprendizaje, los datos aumentados pueden entenderse como el suministro artificial de datos potencialmente ausentes del mundo real.
El aumento de datos mejora la optimización y generalización del modelo de aprendizaje automático. En otras palabras, el aumento de datos puede reducir el sobreajuste y mejorar la robustez del modelo2. El hecho de que los conjuntos de datos grandes y diversos equivalgan a un mejor rendimiento del modelo es un axioma del aprendizaje automático. Sin embargo, por varias razones, desde preocupaciones respecto de los aspectos de ética y privacidad hasta simplemente el tardado esfuerzo para compilar manualmente los datos necesarios, adquirir suficientes datos puede ser una tarea difícil. El aumento de datos proporciona un medio eficaz para aumentar el tamaño y la variabilidad del conjunto de datos. De hecho, los investigadores utilizan ampliamente el aumento de datos para corregir conjuntos de datos desequilibrados3.
Muchos marcos de aprendizaje profundo, como PyTorch, Keras y Tensorflow proporcionan funciones para aumentar los datos, principalmente conjuntos de datos de imágenes. El paquete Python Ablumentations (disponible en Github) también se adopta en muchos proyectos de código abierto. Las albumentaciones permiten aumentar los datos de imagen y texto.