¿Qué es el aumento de datos?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

¿Qué es el aumento de datos?

El aumento de datos emplea datos preexistentes para crear nuevas muestras de datos que pueden mejorar la optimización y la generalidad del modelo.

En su sentido más general, el aumento de datos denota métodos para complementar los llamados conjuntos de datos incompletos proporcionando puntos de datos faltantes para aumentar la analizabilidad del conjunto de datos.¹ Esto se manifiesta en el aprendizaje automático al generar copias modificadas de datos preexistentes para aumentar el tamaño y la diversidad de un conjunto de datos. Por lo tanto, con respecto al aprendizaje, los datos aumentados pueden entenderse como el suministro artificial de datos potencialmente ausentes del mundo real.

El aumento de datos mejora la optimización y generalización del modelo de aprendizaje automático. En otras palabras, el aumento de datos puede reducir el sobreajuste y mejorar la robustez del modelo². El hecho de que los conjuntos de datos grandes y diversos equivalgan a un mejor rendimiento del modelo es un axioma del aprendizaje automático. Sin embargo, por varias razones, desde preocupaciones respecto de los aspectos de ética y privacidad hasta simplemente el tardado esfuerzo para compilar manualmente los datos necesarios, adquirir suficientes datos puede ser una tarea difícil. El aumento de datos proporciona un medio eficaz para aumentar el tamaño y la variabilidad del conjunto de datos. De hecho, los investigadores utilizan ampliamente el aumento de datos para corregir conjuntos de datos desequilibrados³.

Muchos marcos de aprendizaje profundo, como PyTorch, Keras y Tensorflow proporcionan funciones para aumentar los datos, principalmente conjuntos de datos de imágenes. El paquete Python Ablumentations (disponible en Github) también se adopta en muchos proyectos de código abierto. Las albumentaciones permiten aumentar los datos de imagen y texto.

Datos aumentados frente a datos sintéticos

Tenga en cuenta que el aumento de datos es distinto de los datos sintéticos. Es cierto que ambos son algoritmos generativos que agregan nuevos datos a una recopilación de datos para mejorar el rendimiento de los modelos de aprendizaje automático. Sin embargo, losdatos sintéticos se refieren a la generación automática de datos completamente artificiales. Un ejemplo es el uso de imágenes generadas por computadora, en lugar de datos del mundo real, para entrenar un modelo de detección de objetos. Por el contrario, el aumento de datos copia los datos existentes y transforma esas copias para aumentar la diversidad y la cantidad de datos en un conjunto determinado.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Técnicas de aumento de datos

Existen diversos métodos para el aumento de datos. Las técnicas específicas empleadas para aumentar los datos dependen de la naturaleza de los datos con los que trabaja un usuario. Tenga en cuenta que el aumento de datos generalmente se implementa durante el preprocesamiento en el conjunto de datos de entrenamiento. En algunos estudios se investiga el efecto del aumento en el conjunto de validación o prueba, pero las aplicaciones de aumento fuera de los conjuntos de entrenamiento son más escasas⁴.

Aumento de la imagen

El aumento de datos se ha aplicado ampliamente en la investigación para diversas tareas de visión artificial, desde la clasificación de imágenes hasta la detección de objetos. En este sentido, existen numerosas investigaciones sobre la manera en que las imágenes aumentadas mejoran el rendimiento de las redes neuronales convolucionales (CNN, sigla en inglés de convolutional neural networks) más avanzadas en el procesamiento de imágenes.

Muchos tutoriales y recursos no académicos clasifican el aumento de datos de imágenes en dos categorías: transformaciones geométricas y transformaciones fotométricas (o espacio de color). Ambas consisten en una manipulación relativamente simple de archivos de imagen. La primera categoría denota técnicas que alteran el espacio y el diseño de la imagen original, como el redimensionamiento, el zoom o los cambios de orientación (por ejemplo, giro horizontal). Las transformaciones fotométricas alteran los canales RGB (sigla en inglés de red-green-blue; rojo, verde, azul) de una imagen. Los ejemplos de transformación fotométrica incluyen el ajuste de saturación y la escala de grises de una imagen⁵.

Ejemplo de aumento de imagen básico para imagen de gato

Algunas fuentes categorizan la inyección de ruido con transformaciones geométricas⁶, mientras que otras la clasifican con transformaciones fotométricas⁷. La inyección de ruido inserta píxeles aleatorios negros, blancos o de color en una imagen de acuerdo con una distribución gaussiana.

Ejemplo de inyección de ruido para el aumento de imágenes

Como ilustra la inyección de ruido, la clasificación binaria de las técnicas de aumento de imágenes en geométricas y fotométricas no cubre toda la gama de posibles estrategias de aumento. Las técnicas de aumento de imagen excluidas son la de filtro o kernel (nitidez o desenfoque de una imagen) y la combinación de imágenes. Un ejemplo de esto último es el recorte aleatorio y la aplicación de parches. Esta técnica toma muestras aleatorias de secciones de varias imágenes para crear una nueva imagen. Esta nueva imagen es una composición hecha a partir de las muestras de las secciones de las imágenes de entrada. Una técnica relacionada es el borrado aleatorio, que elimina una parte aleatoria de una imagen⁸. Estas tareas son útiles para el reconocimiento de imágenes, ya que los casos de uso del mundo real pueden requerir que las máquinas identifiquen objetos parcialmente ocultos.

Visualización para recorte aleatorio de imágenes de golden retriever

El aumento a nivel de instancia es otro aumento. El aumento a nivel de instancia esencialmente copia regiones etiquetadas (por ejemplo, cuadros delimitadores) de una imagen y las inserta en otra imagen. Este enfoque entrena a la imagen para identificar objetos contra diferentes fondos, así como objetos ocultos por otros objetos. El aumento a nivel de instancia es un enfoque particularmente destacado para tareas de reconocimiento específicas de la región, como la detección de objetos y las tareas de segmentación de imágenes⁹.

Aumento de texto

Al igual que el aumento de imágenes, el aumento de datos de texto consta de muchas técnicas y métodos que se emplean en diversas tareas de procesamiento de lenguaje natural (PLN). Algunos recursos dividen el aumento de texto en métodos basados en reglas (o “fáciles”) y neuronales. Por supuesto, al igual que con la división binaria de las técnicas de aumento de imágenes, esta categorización no lo abarca todo.

Los métodos basados en reglas incluyen técnicas relativamente sencillas de buscar y reemplazar, como la eliminación o inserción aleatoria. Estos métodos también abarcan el reemplazo de sinónimos. En esta estrategia, una o más palabras de una cadena se reemplazan por sus respectivos sinónimos registrados en un diccionario de sinónimos predefinido, como WordNet o Paraphrase Database. La inversión y conversión a voz pasiva de oraciones, donde el objeto y el sujeto intercambian posiciones, también son ejemplos de métodos basados en reglas¹⁰.

Visualización gráfica de ampliaciones de texto basadas en reglas

Según su clasificación, los métodos neuronales emplean redes neuronales para generar nuevas muestras de texto a partir de los datos de entrada. Un método neuronal notable es la retrotraducción o traducción inversa, la cual emplea traducción automática para traducir los datos de entrada a un idioma de destino y luego de vuelta al idioma de entrada original. De esta manera, la traducción inversa aprovecha las variaciones lingüísticas que dan lugar a traducciones automáticas para generar variaciones semánticas en un conjunto de datos de un solo idioma con el fin de aumentarlas. Las investigaciones indican que esto es eficaz para mejorar el rendimiento de los modelos de traducción automática¹¹.

Visualización del aumento de la traducción con la frase Estoy bailando en el club

Otra estrategia son los aumentos de textos mixtos. En esta técnica se despliegan métodos de borrado e inserción basados en reglas a través de incrustaciones de redes neuronales. En concreto, los transformadores preentrenados (por ejemplo, BERT) generan incrustaciones de texto a nivel de palabra o frase, transformando el texto en puntos vectoriales, como en un modelo bag of words. La transformación de texto en puntos vectoriales suele tener como objetivo captar la similitud lingüística, es decir, se cree que las palabras o frases más cercanas entre sí en el espacio vectorial comparten significados o frecuencias similares. Los aumentos mixtos interpolan cadenas de texto situadas a una distancia determinada entre sí para producir nuevos datos que son los datos de entrada acumulados¹².

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Investigación reciente

A muchos usuarios se les dificulta identificar qué estrategias de aumento de datos deben implementar. ¿Las técnicas de aumento de datos varían en eficacia entre conjuntos de datos y tareas? Las investigaciones comparativas sobre técnicas de aumento de datos indican que múltiples formas de aumento tienen un mayor impacto positivo que uno solo, pero determinar la combinación óptima de técnicas depende del conjunto de datos y de la tarea en cuestión¹³. Pero, ¿cómo se seleccionan las técnicas óptimas?

Aumento automatizado

Para abordar este problema, las investigaciones han recurrido al aumento automatizado de datos. Un método de aumento automatizado emplea el aprendizaje por refuerzo para identificar las técnicas de aumento que devuelven la mayor precisión de validación en un conjunto de datos determinado¹⁴. Se demostró que este enfoque implementa estrategias que mejoran el rendimiento tanto en los datos dentro como fuera de la muestra.¹⁵ Otro método prometedor para el aumento automatizado identifica y aumenta los falsos positivos de las salidas del clasificador. De esta manera, el aumento automático identifica las mejores estrategias para corregir los elementos que se clasifican erróneamente con frecuencia¹⁶.

Redes generativas

Más recientemente, las investigaciones han recurrido a las redes y modelos generativos para identificar estrategias de aumento óptimas dependientes de la tarea¹⁷ y de la clase¹⁸. Esto incluye trabajar con redes generativas antagonistas (GAN, sigla en inglés de generative adversarial network). Las GAN son redes de aprendizaje profundo que suelen emplearse para generar datos sintéticos, y en investigaciones recientes se estudia su uso para el aumento de datos. Algunos experimentos, por ejemplo, indican que el aumento de datos sintéticas de conjuntos de imágenes médicas mejoran el rendimiento de los modelos de clasificación¹⁹ y segmentación²⁰ más que los aumentos tradicionales. En relación con lo anterior, las investigaciones sobre el aumento de texto aprovechan los modelos de lenguaje grandes (LLM) y los chatbots para generar datos aumentados. Estos experimentos emplean LLM para generar muestras aumentadas de datos de entrada con técnicas de combinación y sinonimización, lo que muestra un mayor impacto positivo para los modelos de clasificación de textos que el aumento tradicional²¹.

Los investigadores y desarrolladores adoptan ampliamente técnicas de aumento de datos al entrenar modelos para diversas tareas de aprendizaje automático. Por el contrario, los datos sintéticos son un área de investigación comparativamente más nueva. Los experimentos comparativos con datos sintéticos y reales muestran resultados mixtos: los modelos entrenados completamente con datos sintéticos a veces tienen un rendimiento superior y a veces inferior al de los modelos entrenados con datos del mundo real. Quizá, como era de esperarse, estas investigaciones indican que los datos sintéticos son más útiles cuando reflejan características de los datos del mundo real²².

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Informe de IA en acción

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo

Notas de pie de página

Todos los enlaces se encuentran fuera de ibm.com.

^f Martin Tanner y Wing Hung Wong, “The Calculation of Posterior Distributions by Data Augmentation”. Journal of the American Statistical Association, Vol. 82, No. 398 (1987), págs. 528-540.

² Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles y Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, vol. 34, 2021.

¹⁹ Manisha Saini y Seba Susan,"Tackling class imbalance in computer vision: a contemporary review," Artificial Intelligence Review, Vol. 54, 2023.

⁴ Fabio Perez, Cristina Vasconcelos, Sandra Avila, and Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endcopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018.

⁵ Connor Shorten y Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019.

⁶ Duc Haba, Data Augmentation with Python. Packt Publishing, 2023.

⁷ Mingle Xu, Sook Yoon, Alvaro Fuentes y Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, vol. 137.

⁸ Connor Shorten y Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, . Terrance DeVries y Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017.

⁹ Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue y Thomas S. Huang, "Towards Instance-Level Image-To-Image Translation", Registros de la conferencia de IEEE/CVF sobre los talleres de visión artificial y reconocimiento de patrones (CVPR), 2019, págs. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le y Barret Zoph, "Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation", Registros de la conferencia de IEEE/CVF sobre los talleres de visión artificial y reconocimiento de patrones (CVPR), 2021, págs. 2918-2928.

¹⁰ Connor Shorten, Taghi M. Khoshgoftaar and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, and Tal Linzen, "Syntactic Data Augmentation Increases Robustness to Inference Heuristics", Registros del 58. o congreso anual de la Asociación para la Lingüística Computacional, 2020, págs. 2339-2352.

¹¹ Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Rico Sennrich, Barry Haddow y Alexandra Birch, "Improving Neural Machine Translation Models with Monolingual Data", Registros del 54. o congreso anual de la Asociación para la Lingüística Computacional, 2020, págs. 86-96.

¹² Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu y Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Actas de la 28.ª Conferencia Internacional sobre Lingüística Computacional, 2020. Hongyu Guo, Yongyi Mao y Richong Zhang, "Augmenting Data with Mixup for Sentence Classification: An Empirical Study", 2019.

¹³ Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao, and Furao Shen, “Image Data Augmentation for Deep Learning: A Survey,” 2023. Alhassan Mumuni y Fuseini Mumuni, “Aumento de datos: una encuesta integral de enfoques modernos”, Array, vol. 16, 2022. Evgin Goveri, "Medical image data augmentation: techniques, comparisons and interpretations", Artificial Intelligence Review, Vol. 56, 2023, págs. 12561-12605.

¹⁴ Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan y Quoc V. Le, "AutoAugment: Learning Augmentation Strategies From Data", Registros de la conferencia de IEEE/CVF sobre los talleres de visión artificial y reconocimiento de patrones (CVPR), 2019, págs. 113-123.

¹⁵ Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, and Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16^th European Conference on Computer Vision, 2020.

¹⁶ Sandareka Wickramanayake, Wynne Hsu, and Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, vol. 34, 2021.

¹⁷ rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati, and Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation,” Proceedings of the 26^th International Conference on Information Processing in Medical Imaging, 2019.

¹⁸ Cédric Rommel, Thomas Moreau, Joseph Paillard, y Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals,” Conferencia Internacional sobre Representaciones de Aprendizaje, 2022.

¹⁹ Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger, and Hayit Greenspan, “GAN-basedsynthetic medical image Augmentation for Increased CNN Performance in Liver lesion Classification,” Neurocomputing, 2018, págs. 321-331.

²⁰ Veit Sandfort, Ke Yan, Perry Pickhardt, and Ronald Summers, “Data Augmentation using generative adversarial networks (CycleGAN) to better generalizability in CT segmentation Tasks,” Scientific Reports, 2019.

²¹ Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee y Woomyoung Park, "GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation", Conclusiones de la Asociación para la Lingüística Computacional: EMNLP 2021, págs. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu , y Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023.

²² Bram Vanherle, Steven Moonen, Frank Van Reeth y Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data”, 33^rd British Machine Vision Conference, 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu y Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data,” SN Computer Science, vol. 4 de febrero de 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba y Mauricio Villegas, "Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition", Registros de la conferencia de invierno de IEEE/CVF sobre aplicaciones de la visión artificial (WACV), 2020, págs. 3502-3511.

¿Qué es el aumento de datos?

Autores

¿Qué es el aumento de datos?

Datos aumentados frente a datos sintéticos

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

Técnicas de aumento de datos

Aumento de la imagen

Aumento de texto

Decodificación de la IA: Resumen semanal de noticias

Investigación reciente

Aumento automatizado

Redes generativas

Recursos

Notas de pie de página