Cos'è la data augmentation?

Autori

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Cos'è la data augmentation?

La data augmentation utilizza dati preesistenti per creare nuovi campioni di dati in grado di migliorare l'ottimizzazione e la generalizzabilità del modello.

Nel suo senso più generale, la data augmentation denota metodi per integrare i cosiddetti set di dati incompleti fornendo punti dati mancanti al fine di aumentare l'analizzabilità del set di dati.¹ Ciò si manifesta nel machine learning generando copie modificate di dati preesistenti per aumentare le dimensioni e la diversità di un set di dati. Pertanto, per quanto riguarda il machine learning, i dati aumentati possono essere intesi come la fornitura artificiale di dati del mondo reale potenzialmente assenti.

La data augmentation migliora l'ottimizzazione e la generalizzazione dei modelli di machine learning. In altre parole, la data augmentation può ridurre l'overfitting e migliorare la robustezza del modello.² Il fatto che set di dati grandi e diversificati equivalgano a migliori prestazioni del modello è un assioma del machine learning. Tuttavia, per una serie di ragioni (da problemi di etica e privacy al semplice dispendioso sforzo di compilazione manuale dei dati necessari), acquisire dati sufficienti può essere difficile. La data augmentation fornisce un mezzo efficace per aumentare le dimensioni e la variabilità dei set di dati. In effetti, i ricercatori utilizzano ampiamente la data augmentation per correggere i set di dati sbilanciati.³

Molti framework di deep learning, come PyTorch, Keras e Tensorflow, forniscono funzioni per aumentare i dati, principalmente set di dati di immagini. Il pacchetto Python Ablumentations (disponibile su Github) è adottato anche in molti progetti open source. Albumentations consente di aumentare i dati di immagini e testo.

Dati aumentati e dati sintetici

Tieni presente la data augmentation è distinta dai dati sintetici. Certo, entrambi sono algoritmi generativi che aggiungono nuovi dati a una raccolta di dati per migliorare le prestazioni dei modelli di machine learning. I dati sintetici, tuttavia, si riferiscono alla generazione automatica di dati completamente artificiali. Un esempio è l'utilizzo di immagini generate al computer, anziché di dati del mondo reale, per addestrare un modello di rilevamento di oggetti. Al contrario, la data augmentation copia i dati esistenti e li trasforma per aumentare la diversità e la quantità di dati in un determinato set.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Tecniche di data augmentation

Esistono diversi metodi di data augmentation. Le tecniche specifiche utilizzate per aumentare i dati dipendono dalla natura dei dati con cui un utente sta lavorando. Si noti che la data augmentation viene in genere implementata durante la pre-elaborazione del set di dati di addestramento. Alcuni studi indagano l'effetto della data augmentation sulla convalida o sul set di test, ma le applicazioni della data augmentation al di fuori dei set di addestramento sono più rare.⁴

Image augmentation

La data augmentation è stata ampiamente implementata nella ricerca per una serie di attività di computer vision, dalla classificazione delle immagini al rilevamento degli oggetti. Pertanto, c'è una vasta ricerca su come le immagini aumentate migliorino le prestazioni delle reti neurali convoluzionali (CNN) all'avanguardia nell'elaborazione delle immagini.

Molti tutorial e risorse non accademiche classificano la data augmentation relativa alle immagini in due categorie: trasformazioni geometriche e trasformazioni fotometriche (o spazio colore). Entrambe consistono in una manipolazione relativamente semplice di file immagine. La prima categoria indica tecniche che alterano lo spazio e il layout dell'immagine originale, come il ridimensionamento, lo zoom o i cambiamenti di orientamento (ad esempio, capovolgimento orizzontale). Le trasformazioni fotometriche alterano i canali RGB (rosso-verde-blu) di un'immagine. Esempi di trasformazione fotometrica includono la regolazione della saturazione e la scala di grigi di un'immagine.⁵

Esempio di image augmentation di base per l'immagine di un gatto

Alcune fonti classificano l'iniezione di rumore con le trasformazioni geometriche,⁶ mentre altre la classificano con le trasformazioni fotometriche.⁷ L'iniezione di rumore inserisce pixel casuali neri, bianchi o a colori in un'immagine secondo una distribuzione gaussiana.

Esempio di iniezione di rumore per l'image augmentation

Come illustra l'iniezione di rumore, la classificazione binaria delle tecniche di image augmentation in geometriche e fotometriche non riesce a coprire l'intera gamma di possibili strategie di image augmentation. Le tecniche di image augmentation escluse sono il filtraggio con kernel (nitidezza o sfocatura di un'immagine) e la miscelazione di immagini. Un esempio di quest'ultima è il ritaglio casuale e il patching. Questa tecnica campiona in modo casuale sezioni da diverse immagini per creare una nuova immagine. Questa nuova immagine è un composito composto dalle sezioni campionate delle immagini di input. Una tecnica correlata è la cancellazione casuale, che elimina una parte casuale di un'immagine.⁸ Tali attività sono utili nelle attività di riconoscimento delle immagini, poiché i casi d'uso del mondo reale possono richiedere alle macchine di identificare oggetti parzialmente oscurati.

Visualizzazione per ritaglio casuale per l'immagine di un golden retriever

Un altro tipo di augmentation è l'instance-level augmentation. L'instance-level augmentation copia essenzialmente le regioni etichettate (ad esempio, i riquadri di delimitazione) da un'immagine e le inserisce in un'altra immagine. Questo approccio addestra l'immagine a identificare gli oggetti su sfondi diversi e gli oggetti oscurati da altri oggetti. L'instance-level augmentation è un approccio particolarmente importante per le attività di riconoscimento specifiche della regione, come il rilevamento degli oggetti e le attività di segmentazione delle immagini.⁹

Text augmentation

Come l'image augmentation, la text augmentation è costituita da molte tecniche e metodi utilizzati in una serie di attività di elaborazione del linguaggio naturale (NLP). Alcune risorse dividono la text augmentation in metodi basati su regole (o "facili") e neurali. Naturalmente, come per la divisione binaria delle tecniche di image augmentation, questa categorizzazione non è onnicomprensiva.

Gli approcci basati su regole includono tecniche di ricerca e sostituzione relativamente semplici, come la cancellazione o l'inserimento casuale. Gli approcci basati su regole comprendono anche la sostituzione dei sinonimi. In questa strategia, una o più parole in una stringa vengono sostituite con i rispettivi sinonimi registrati in un thesaurus predefinito, come WordNet o il Paraphrase Database. L'inversione e la passivazione della frase, in cui l'oggetto e il soggetto vengono scambiati, sono anch'essi esempi di approcci basati su regole.¹⁰

Visualizzazione grafica delle text augmentation basate su regole

Secondo la loro classificazione, i metodi neurali utilizzano reti neurali per generare nuovi campioni di testo dai dati di input. Un metodo neurale degno di nota è la traduzione inversa. Utilizza la traduzione automatica per tradurre i dati di input in una lingua di destinazione e poi di nuovo nella lingua di input originale. In questo modo, la traduzione inversa utilizza le variazioni linguistiche che risultano dalle traduzioni automatiche per generare variazioni semantiche nel set di dati in una sola lingua, ai fini dell'augmentation. La ricerca suggerisce che ciò è efficace per migliorare le prestazioni del modello di traduzione automatica.¹¹

Visualizzazione della translation augmentation con la frase "I am dancing in the club"

Un'altra strategia è la combinazione di text augmentation. Questo approccio implementa metodi di eliminazione e inserimento basati su regole utilizzando incorporamenti di reti neurali. In particolare, i trasformatori pre-addestrati (ad esempio, BERT) generano incorporamenti di testo a livello di parola o frase, trasformando il testo in punti vettoriali, come in un modello bag of words. La trasformazione del testo in punti vettoriali mira generalmente a catturare la similitudine linguistica, ovvero si ritiene che parole o frasi più vicine l'una all'altra nello spazio vettoriale condividano significati o frequenze simili. La combinazione di augmentation interpola stringhe di testo entro una distanza specificata l'una dall'altra per produrre nuovi dati che sono un'aggregazione dei dati di input.¹²

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Ricerche recenti

Molti utenti hanno difficoltà a identificare quali strategie di data augmentation implementare. Le tecniche di data augmentation variano in termini di efficacia tra set di dati e attività? La ricerca comparativa sulle tecniche di data augmentation suggerisce che più forme di augmentation hanno un impatto positivo maggiore di una, ma la determinazione della combinazione ottimale di tecniche dipende dal set di dati e dalle attività.¹³ Ma come si fa a selezionare le tecniche ottimali?

Automazione dell'augmentation

Per risolvere questo problema, la ricerca si è rivolta all'automazione della data augmentation. Un approccio di automazione dell'augmentation utilizza l'apprendimento per rinforzo per identificare le tecniche di augmentation che restituiscono la massima precisione di convalida su un set di dati.¹⁴ Questo approccio ha dimostrato di implementare strategie che migliorano le prestazioni sia sui dati in entrata che in uscita dai campioni.¹⁵ Un altro approccio promettente per l'automazione dell'augmentation identifica e aumenta i falsi positivi dagli output dei classificatori. In questo modo, l'automazione dell'augmentation identifica le migliori strategie per correggere gli elementi spesso classificati in modo errato.¹⁶

Reti generative

Più recentemente, la ricerca si è rivolta a reti e modelli generativi per identificare strategie di augmentation ottimali dipendenti dall'attività¹⁷ e dalla classe.¹⁸ Questo include anche il lavoro con le reti generative avversarie (GAN). Le GAN sono reti di deep learning in genere utilizzate per generare dati sintetici e una ricerca recente ne indaga l'utilizzo per la data augmentation. Ad esempio, alcuni esperimenti suggeriscono che l'augmentation di dati sintetici di set di immagini mediche migliorano le prestazioni dei modelli di classificazione¹⁹ e segmentazione²⁰ più delle augmentation classiche. Allo stesso modo, la ricerca sulla text augmentation utilizza i modelli linguistici di grandi dimensioni (LLM) e i chatbot per generare dati aumentati. Questi esperimenti utilizzano gli LLM per generare campioni aumentati di dati di input con tecniche di combinazione e sinonimizzazione, mostrando un impatto positivo maggiore per i modelli di classificazione del testo rispetto all'augmentation classica.²¹

Ricercatori e sviluppatori adottano ampiamente tecniche di data augmentation durante l'addestramento di modelli per varie attività di machine learning. Al contrario, i dati sintetici sono un'area di ricerca relativamente più recente. Gli esperimenti comparativi su dati sintetici rispetto a quelli reali mostrano risultati contrastanti, con modelli addestrati interamente su dati sintetici a volte con prestazioni superiori e a volte inferiori a modelli addestrati su dati del mondo reale. Forse non sorprende che questa ricerca suggerisca che i dati sintetici siano più utili quando riflettono le caratteristiche dei dati del mondo reale.²²

Data science e MLOps per i leader dei dati

Unisci le forze con altri leader per promuovere i tre pilastri essenziali di MLOps e un'AI affidabile: fiducia nei dati, fiducia nei modelli e fiducia nei processi.

Risorse

Migliora le tue competenze nel ML

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.

Report AI in Action

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Note a piè di pagina

Tutti i link sono esterni a ibm.com.

^f Martin Tanner and Wing Hung Wong, "The Calculation of Posterior Distributions by Data Augmentation", Journal of the American Statistical Association, Vol. 82, N. 398 (1987), pagg. 528-540.

² Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles, e Timothy A Mann,"Data Augmentation Can Improve Robustness", Advances in Neural Information Processing Systems, Vol. 34, 2021.

¹⁹ Manisha Saini e Seba Susan,"Tackling class imbalance in computer vision: a contemporary review," Artificial Intelligence Review, Vol. 54, 2023.

⁴ Fabio Perez, Cristina Vasconcelos, Sandra Avila, e Eduardo Valle, "Data Augmentation for Skin Lesion Analysis", OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018.

⁵ Connor Shorten e Taghi M. Khoshgoftaa, "A survey on Image Data Augmentation for Deep Learning", Journal of Big Data, 2019.

⁶ Duc Haba, Data Augmentation with Python, Packt Publishing, 2023.

⁷ Mingle Xu, Sook Yoon, Alvaro Fuentes, e Dong Sun Park, "A Comprehensive Survey of Image Augmentation Techniques for Deep Learning", Patter Recognition, Vol. 137.

⁸ Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, . Terrance DeVries and Graham W. Taylor, "Improved Regularization of Convolutional Neural Networks with Cutout", 2017.

⁹ Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue e Thomas S. Huang,"Towards Instance-Level Image-To-Image Translation", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pagg. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le e Barret Zoph,"Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pagg. 2918-2928.

¹⁰ Connor Shorten, Taghi M. Khoshgoftaar and Borko Furht, "Text Data Augmentation for Deep Learning", Journal of Big Data, 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler e Tal Linzen, "Syntactic Data Augmentation Increases Robustness to Inference Heuristics", Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pagg. 2339-2352.

¹¹ Connor Shorten, Taghi M. Khoshgoftaar, e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Rico Sennrich, Barry Haddow e Alexandra Birch,"Improving Neural Machine Translation Models with Monolingual Data", Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016, pagg. 86-96.

¹² Connor Shorten, Taghi M. Khoshgoftaar, e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu, and Lifang He, "Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks", Proceedings of the 28th International Conference on Computational Linguistics, 2020. Hongyu Guo, Yongyi Mao e Richong Zhang,"Augmenting Data with Mixup for Sentence Classification: An Empirical Study", 2019.

¹³ Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao, e Furao Shen, "Image Data Augmentation for Deep Learning: A Survey", 2023. Alhassan Mumuni e Fuseini Mumuni, "Data augmentation: A comprehensive survey of modern approaches", Array, vol. 16, 2022. Evgin Goveri,"Medical image data augmentation: techniques, comparisons and interpretations", Artificial Intelligence Review, Vol. 56, 2023, pagg. 12561-12605.

¹⁴ Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan e Quoc V. Le,"AutoAugment: Learning Augmentation Strategies From Data", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pagg. 113-123.

¹⁵ Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, e Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16^th European Conference on Computer Vision, 2020.

¹⁶ Sandareka Wickramanayake, Wynne Hsu, e Mong Li Lee, "Explanation-based Data Augmentation for Image Classification", Advances in Neural Information Processing Systems, Vol. 34, 2021.

¹⁷ rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati, e Ender Konukoglu, "Semi-supervised and Task-Driven Data Augmentation", Proceedings of the 26^th International Conference on Information Processing in Medical Imaging, 2019.

¹⁸ Cédric Rommel, Thomas Moreau, Joseph Paillard e Alexandre Gramfort, "ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals", International Conference on Learning Representations, 2022.

¹⁹ Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger e Hayit Greenspan,"GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification", Neurocomputing, 2018, pagg. 321-331.

²⁰ Veit Sandfort, Ke Yan, Perry Pickhardt e Ronald Summers, "Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks", Scientific Reports, 2019.

²¹ Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, e Woomyoung Park,"GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation", Findings of the Association for Computational Linguistics: EMNLP 2021, pagg. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu e Xiang Li,"AugGPT: Leveraging ChatGPT for Text Data Augmentation", 2023.

²² Bram Vanherle, Steven Moonen, Frank Van Reeth e Nick Michiels, "Analysis of Training Object Detection Models with Synthetic Data", 33^rd British Machine Vision Conference, 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu e Pierre Nugues, "Object Detector Differences When Using Synthetic and Real Training Data", SN Computer Science, Vol. 4, 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba e Mauricio Villegas,"Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition", Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pagg. 3502-3511.

Cos'è la data augmentation?

Cos'è la data augmentation?

Dati aumentati e dati sintetici

Le ultime tendenze in materia di AI, proposte da esperti

Grazie per aver effettuato l'iscrizione!

Tecniche di data augmentation

Image augmentation

Text augmentation

Decoding AI: Weekly News Roundup

Ricerche recenti

Automazione dell'augmentation

Reti generative

Risorse

Note a piè di pagina