Dalam pengertian yang paling umum, augmentasi data merujuk pada metode memperluas kumpulan data yang disebut tidak lengkap dengan menyediakan titik data yang hilang untuk meningkatkan analisis kumpulan data.1 Hal ini terwujud dalam machine learning dengan menghasilkan salinan yang dimodifikasi dari data yang sudah ada sebelumnya untuk meningkatkan ukuran dan keragaman kumpulan data. Dengan demikian, sehubungan dengan machine learning, data yang ditambah dapat dipahami sebagai penyediaan data dunia nyata yang berpotensi tidak ada secara artifisial.
Augmentasi data meningkatkan optimasi dan generalisasi model machine learning. Dengan kata lain, augmentasi data dapat mengurangi overfitting dan meningkatkan ketahanan model.2 Kumpulan data yang besar dan beragam sama dengan peningkatan kinerja model adalah aksioma machine learning. Namun demikian, karena beberapa alasan—mulai dari masalah etika dan privasi hingga upaya mengumpulkan data yang diperlukan secara manual yang memakan waktu—memperoleh data yang memadai bisa jadi sulit. Augmentasi data menyediakan satu cara efektif untuk meningkatkan ukuran dan variabilitas kumpulan data. Faktanya, para peneliti banyak menggunakan augmentasi data untuk memperbaiki kumpulan data yang tidak seimbang.3
Banyak kerangka kerja pembelajaran mendalam, seperti PyTorch, Keras, dan Tensorflow menyediakan fungsi untuk menambah data, terutama kumpulan data gambar. Paket Python Ablumentations ( tersedia di Github) juga diadopsi di banyak proyek sumber terbuka. Albumentasi memungkinkan untuk menambah data gambar dan teks.