Apa itu augmentasi data?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Apa itu augmentasi data?

Augmentasi data menggunakan data yang sudah ada sebelumnya untuk membuat sampel data baru yang dapat meningkatkan optimasi model dan generalisasi.

Dalam pengertian yang paling umum, augmentasi data merujuk pada metode memperluas kumpulan data yang disebut tidak lengkap dengan menyediakan titik data yang hilang untuk meningkatkan analisis kumpulan data.1 Hal ini terwujud dalam machine learning dengan menghasilkan salinan yang dimodifikasi dari data yang sudah ada sebelumnya untuk meningkatkan ukuran dan keragaman kumpulan data. Dengan demikian, sehubungan dengan machine learning, data yang ditambah dapat dipahami sebagai penyediaan data dunia nyata yang berpotensi tidak ada secara artifisial.

Augmentasi data meningkatkan optimasi dan generalisasi model machine learning. Dengan kata lain, augmentasi data dapat mengurangi overfitting dan meningkatkan ketahanan model.2 Kumpulan data yang besar dan beragam sama dengan peningkatan kinerja model adalah aksioma machine learning. Namun demikian, karena beberapa alasan—mulai dari masalah etika dan privasi hingga upaya mengumpulkan data yang diperlukan secara manual yang memakan waktu—memperoleh data yang memadai bisa jadi sulit. Augmentasi data menyediakan satu cara efektif untuk meningkatkan ukuran dan variabilitas kumpulan data. Faktanya, para peneliti banyak menggunakan augmentasi data untuk memperbaiki kumpulan data yang tidak seimbang.3

Banyak kerangka kerja pembelajaran mendalam, seperti PyTorch, Keras, dan Tensorflow menyediakan fungsi untuk menambah data, terutama kumpulan data gambar. Paket Python Ablumentations ( tersedia di Github) juga diadopsi di banyak proyek sumber terbuka. Albumentasi memungkinkan untuk menambah data gambar dan teks.

Data tambahan vs. data sintetis

Perhatikan bahwa augmentasi data berbeda dari data sintetis. Harus diakui, keduanya adalah algoritma generatif yang menambahkan data baru ke dalam pengumpulan data untuk meningkatkan kinerja model machine learning. Data sintetis, bagaimana pun juga, mengacu pada pembuatan otomatis data yang sepenuhnya buatan. Contohnya adalah menggunakan gambar yang dihasilkan komputer—sebagai lawan dari data dunia nyata—untuk melatih model deteksi objek. Sebaliknya, augmentasi data menyalin data yang ada dan mengubah salinan tersebut untuk meningkatkan keragaman dan jumlah data dalam kumpulan tertentu.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Teknik augmentasi data

Ada berbagai metode augmentasi data. Teknik spesifik yang digunakan untuk menambah data bergantung pada sifat data yang digunakan pengguna. Perhatikan bahwa augmentasi data biasanya diimplementasikan selama pra-pemrosesan pada kumpulan data pelatihan. Beberapa penelitian menyelidiki efek augmentasi pada set validasi atau set pengujian, tetapi aplikasi augmentasi di luar set pelatihan lebih jarang terjadi.4

Pengembangan gambar

Augmentasi data telah diimplementasikan secara luas dalam penelitian untuk berbagai tugas visi komputer, mulai dari klasifikasi gambar hingga deteksi objek. Dengan demikian, ada banyak penelitian tentang bagaimana gambar yang diperbesar meningkatkan kinerja neural networks konvolusional (CNN) canggih dalam pemrosesan gambar.

Banyak tutorial dan sumber daya non-akademik mengklasifikasikan augmentasi data gambar ke dalam dua kategori: transformasi geometris dan transformasi fotometrik (atau, ruang warna). Keduanya terdiri atas manipulasi file gambar yang relatif sederhana. Categories pertama menunjukkan teknik yang mengubah ruang dan tata-letak gambar asli, seperti mengubah ukuran, memperbesar, atau mengubah orientasi (misalnya, membalikkan gambar secara horizontal). Transformasi fotometrik mengubah saluran RGB (merah-hijau-biru) gambar. Contoh transformasi fotometrik termasuk penyesuaian saturasi dan skala abu-abu gambar.5

Contoh augmentasi gambar dasar untuk gambar kucing

Beberapa sumber mengkategorikan injeksi noise dengan transformasi geometris,6 sementara sumber lain mengklasifikasikannya dengan transformasi fotometrik.7 Injeksi noise menyisipkan piksel hitam, putih, atau warna secara acak ke dalam gambar menurut distribusi Gaussian.

Contoh injeksi noise untuk augmentasi gambar

Seperti yang diilustrasikan oleh injeksi noise, klasifikasi biner teknik augmentasi gambar ke dalam geometrik dan fotometrik gagal untuk mencakup seluruh rentang strategi augmentasi yang mungkin. Teknik augmentasi gambar yang dikecualikan adalah pemfilteran kernel (mempertajam atau mengaburkan gambar) dan pencampuran gambar. Contoh yang terakhir adalah pemotongan dan tambalan acak. Teknik ini secara acak mengambil sampel bagian dari beberapa gambar untuk membuat gambar baru. Gambar baru ini adalah komposit yang dibuat dari bagian sampel dari gambar input. Teknik terkait adalah penghapusan acak, yang menghapus bagian acak dari gambar.8 Tugas semacam itu berguna dalam tugas pengenalan gambar, karena contoh penggunaan di dunia nyata mungkin mengharuskan mesin untuk mengidentifikasi objek yang dikaburkan sebagian.

Visualisasi untuk pemangkasan acak untuk gambar golden retriever

Augmentasi tingkat instann adalah augmentasi lain. Augmentasi tingkat contoh pada dasarnya menyalin wilayah berlabel (misalnya, kotak pembatas) dari satu gambar dan menyisipkannya ke gambar lain. Pendekatan semacam itu melatih gambar untuk mengenali objek pada latar belakang yang berbeda serta objek yang dikaburkan oleh objek lainnya. Augmentasi tingkat instans adalah pendekatan yang sangat menonjol untuk tugas pengenalan wilayah tertentu, seperti deteksi objek dan tugas segmentasi gambar.9

Pengembangan teks

Seperti augmentasi gambar, augmentasi data teks terdiri atas banyak teknik, dan metode yang digunakan di berbagai tugas pemrosesan bahasa alami (NLP). Beberapa sumber daya membagi augmentasi teks menjadi metode berbasis aturan (atau “mudah”) dan saraf. Tentu saja, seperti halnya pembagian biner teknik augmentasi gambar, kategorisasi ini tidak mencakup semuanya.

Pendekatan berbasis aturan mencakup teknik temukan dan ganti yang relatif sederhana, seperti penghapusan atau penyisipan acak. Pendekatan berbasis aturan juga mencakup penggantian sinonim. Dalam strategi ini, satu atau beberapa kata dalam sebuah string diganti dengan sinonimnya masing-masing seperti yang tercatat dalam tesaurus yang sudah ditentukan, seperti WordNet atau Database Paraphrase. Inversi kalimat dan pemasifan, di mana objek dan subjek ditukar, juga merupakan contoh pendekatan berbasis aturan.10

Visualisasi bagan dari augmentasi teks berbasis aturan

Sesuai klasifikasinya, metode neural menggunakan neural networks untuk menghasilkan sampel teks baru dari data input. Salah satu metode neural yang terkenal adalah terjemah balik. Metode ini menggunakan terjemahan mesin untuk menerjemahkan data input ke dalam bahasa target dan kemudian kembali ke bahasa masukan asli. Dengan cara ini, penerjemahan balik memanfaatkan variasi linguistik yang menghasilkan terjemahan otomatis untuk menghasilkan variasi semantik dalam kumpulan data satu bahasa untuk tujuan augmentasi. Penelitian menunjukkan bahwa ini efektif untuk meningkatkan kinerja model terjemahan mesin.11

Visualisasi penambahan terjemahan dengan frasa saya sedang berdansa di klub

Augmentasi teks campuran adalah strategi lain. Pendekatan ini menerapkan metode penghapusan dan penyisipan berbasis aturan menggunakan neural networks. Secara khusus, transformator yang dilatih sebelumnya (misalnya, BERT) menghasilkan penyematan teks tingkat kata atau kalimat, mengubah teks menjadi titik vektor, seperti dalam bag of words model kata. Transformasi teks menjadi titik-titik vektor umumnya bertujuan untuk menangkap kemiripan linguistik, yaitu kata-kata atau kalimat yang berdekatan satu sama lain dalam ruang vektor diyakini memiliki makna atau frekuensi yang sama. Penambahan campuran menginterpolasi string teks dalam jarak tertentu satu sama lain untuk menghasilkan data baru yang merupakan gabungan dari data input.12

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Penelitian terbaru

Banyak pengguna kesulitan mengidentifikasi strategi augmentasi data mana yang akan diterapkan. Apakah teknik augmentasi data bervariasi dalam kemanjuran antara kumpulan data dan tugas? Penelitian komparatif mengenai teknik augmentasi data menunjukkan bahwa beberapa bentuk augmentasi memiliki dampak positif yang lebih besar daripada satu bentuk saja, tetapi menentukan kombinasi teknik yang optimal tergantung pada kumpulan data dan tugas.13 Namun, bagaimana cara memilih teknik yang optimal?

Augmentasi otomatis

Untuk mengatasi masalah ini, penelitian telah beralih ke augmentasi data otomatis. Salah satu pendekatan augmentasi otomatis menggunakan pembelajaran penguatan untuk mengidentifikasi teknik augmentasi yang mengembalikan akurasi validasi tertinggi pada kumpulan data yang diberikan.14 Pendekatan ini telah terbukti menerapkan strategi yang meningkatkan kinerja baik di dalam maupun di luar data sampel.15 Pendekatan lain yang menjanjikan untuk augmentasi otomatis mengidentifikasi dan menambah positif palsu dari output pengklasifikasi.Dengan cara ini, augmentasi otomatis mengidentifikasi strategi terbaik untuk mengoreksi item yang sering salah klasifikasi.16 Dengan cara ini, augmentasi otomatis mengidentifikasi strategi terbaik untuk mengoreksi item yang sering salah klasifikasi.16

Jaringan generatif

Baru-baru ini, penelitian telah beralih ke jaringan dan model generatif untuk mengidentifikasi strategi augmentasi optimal yang bergantung pada tugas17 dan bergantung pada kelas.18 Ini termasuk bekerja dengan jaringan adversarial generatif (GAN). GAN adalah jaringan pembelajaran mendalam yang biasanya digunakan untuk menghasilkan data sintetis, dan penelitian terbaru menyelidiki penggunaannya untuk augmentasi data. Beberapa eksperimen, misalnya, menunjukkan bahwa penambahan data sintetis pada set gambar medis meningkatkan kinerja model klasifikasi19 dan segmentasi20 lebih baik daripada penambahan klasik. Sejalan dengan itu, penelitian tentang augmentasi teks memanfaatkan model bahasa besar (LLM) dan chatbot untuk menghasilkan data yang diperluas. Eksperimen ini menggunakan LLM untuk menghasilkan sampel yang ditambah dari data input dengan teknik campuran dan sinonim, yang menunjukkan dampak positif yang lebih besar untuk model klasifikasi teks daripada augmentasi klasik.21

Para peneliti dan pengembang secara luas mengadopsi teknik augmentasi data ketika melatih model untuk berbagai tugas machine learning. Sebaliknya, data sintetis adalah bidang penelitian yang relatif lebih baru. Eksperimen komparatif pada data sintetis versus data nyata menunjukkan hasil yang beragam, dengan model yang dilatih sepenuhnya pada data sintetis terkadang mengungguli model yang dilatih pada data dunia nyata. Mungkin tidak mengherankan, penelitian ini menunjukkan bahwa data sintetis paling berguna jika mencerminkan karakteristik data dunia nyata.22

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

Semua tautan berada di luar ibm.com

f Martin Tanner and Wing Hung Wong, “The Calculation of Posterior Distributions by Data Augmentation,” Journal of the American Statistical Association, Vol. 82, No. 398 (1987), hlm. 528-540.

2 Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles, and Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

3 Manisha Saini and Seba Susan, “Tackling class imbalance in computer vision: A contemporary review,” Artificial Intelligence Review, Vol. 54, 2023.

4 Fabio Perez, Cristina Vasconcelos, Sandra Avila, and Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018.

5 Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019.

6 Duc Haba, Data Augmentation with Python, Packt Publishing, 2023.

7 Mingle Xu, Sook Yoon, Alvaro Fuentes, and Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, Vol. 137.

8 Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, . Terrance DeVries and Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017.

9 Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue, and Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, and Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 2918-2928.

10 Connor Shorten, Taghi M. Khoshgoftaar, dan Borko Furht, "Augmentasi Data Teks untuk Pembelajaran Mendalam," Journal of Big Data, 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, dan Tal Linzen,"Augmentasi Data Sintaksis Meningkatkan Ketangguhan Heuristik Inferensi," Prosiding Pertemuan Tahunan ke-58 Asosiasi Linguistik Komputasi, 2020, pp. 2339-2352.

11 Connor Shorten, Taghi M. Khoshgoftaar, dan Borko Furht, "Augmentasi Data Teks untuk Pembelajaran Mendalam," Jurnal Big Data, 2021, . Rico Sennrich, Barry Haddow, dan Alexandra Birch, “MeningkatkanModel Terjemahan Mesin Neural dengan Data Monolingual,” Prosiding Pertemuan Tahunan ke-54 Asosiasi Linguistik Komputasi, 2016, hlm. 86-96.

12 Connor Shorten, Taghi M. Khoshgoftaar, dan Borko Furht, "Augmentasi Data Teks untuk Pembelajaran Mendalam," Jurnal Big Data, 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu, dan Lifang He, “Mixup-Transformer: Augmentasi Data Dinamis untuk Tugas NLP,” Prosiding Konferensi Internasional ke-28 tentang Linguistik Komputasi, 2020. Hongyu Guo, Yongyi Mao, dan Richong Zhang, “MenambahData dengan Mixup untuk Klasifikasi Kalimat: Sebuah Studi Empiris,” 2019.

13 Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao, dan Furao Shen, "Augmentasi Data Gambar untuk Pembelajaran Mendalam: Sebuah Survei," 2023. Alhassan Mumuni dan Fuseini Mumuni, “Augmentasi data: Survei komprehensif pendekatan modern,” Array, Vol. 16, 2022. Evgin Goveri, "Augmentasidata citra medis: teknik, perbandingan dan interpretasi," Tinjauan Kecerdasan Buatan, Vol. 56, 2023, pp. 12561-12605.

14 Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, dan Quoc V. Le,"AutoAugment: Strategi Augmentasi Pembelajaran Dari Data," Prosiding Konferensi IEEE/CVF tentang Visi Komputer dan Pengenalan Pola (CVPR), 2019, pp. 113-123.

15 Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, dan Quoc V. Le, "Mempelajari Strategi Augmentasi Data untuk Deteksi Objek," Prosiding Konferensi Eropake-16 tentang Visi Komputer, 2020.

16 Sandareka Wickramanayake, Wynne Hsu, and Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

17 Rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati, dan Ender Konukoglu, "Semi-supervised and Task-Driven Data Augmentation," Prosiding Konferensi Internasionalke-26 tentang Pemrosesan Informasi dalam Pencitraan Medis, 2019.

18 Cédric Rommel, Thomas Moreau, Joseph Paillard, dan Alexandre Gramfort, "ADDA: Augmentasi Data yang Dapat Dibedakan Secara Otomatis Berdasarkan Kelas untuk Sinyal EEG," Konferensi Internasional tentang Representasi Pembelajaran, 2022.

19 Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger, dan Hayit Greenspan, "Augmentasicitra medis sintetis berbasis GAN untuk meningkatkan kinerja CNN dalam klasifikasi lesi hati," Neurocomputing, 2018, pp. 321-331.

20 Veit Sandfort, Ke Yan, Perry Pickhardt, and Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks,” Scientific Reports, 2019.

21 Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, and Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation,” Findings of the Association for Computational Linguistics: EMNLP 2021, pp. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023.

22 Bram Vanherle, Steven Moonen, Frank Van Reeth, dan Nick Michiels, "Analisis Model Deteksi Objek Pelatihan dengan Data Sintetis,"  Konferensi Visi Mesin Inggris ke-33, 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu, dan Pierre Nugues, "Perbedaan Pendeteksi Objek Saat Menggunakan Data Pelatihan Sintetis dan Nyata," SN Computer Science, Vol. 4, 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba, dan Mauricio Villegas,"Adaptasi Penulisan Tanpa Pengawasan untuk Pengenalan Kata Tulisan Tangan Sintetis-ke-Sebenarnya," Prosiding Konferensi Musim Dingin IEEE / CVF tentang Aplikasi Visi Komputer (WACV), 2020, pp. 3502-3511.