Data sintetis adalah data buatan yang dirancang untuk menggambarkan data dari dunia nyata. Data ini dihasilkan melalui metode statistik atau dengan menggunakan teknik kecerdasan buatan (AI) seperti pembelajaran mendalam dan AI generatif.
Meskipun dihasilkan secara artifisial, data sintetis mempertahankan sifat statistik yang mendasari data asli yang menjadi dasarnya. Dengan demikian, kumpulan data sintetis dapat melengkapi atau bahkan menggantikan kumpulan data nyata.
Data sintetis dapat bertindak sebagai placeholder bagi data uji dan terutama digunakan untuk melatih model machine learning, berfungsi sebagai solusi potensial terhadap kebutuhan yang terus meningkat—tetapi dengan pasokannya terbatas—akan data pelatihan dunia nyata berkualitas tinggi untuk model AI. Namun, data sintetis juga mendapatkan daya tarik di sektor-sektor seperti keuangan dan perawatan kesehatan di mana datanya terbatas, memakan waktu lama untuk diperoleh, atau sulit diakses karena masalah privasi data dan persyaratan keamanan. Bahkan, firma riset Gartner memperkirakan bahwa 75% bisnis akan menggunakan AI generatif untuk membuat data pelanggan sintetis pada tahun 2026.1
Data sintetis dapat datang dalam bentuk multimedia, tabular, atau teks. Data teks sintetis dapat digunakan untuk pemrosesan bahasa alami (NLP), sedangkan data tabular sintetis dapat digunakan untuk membuat tabel basis data relasional. Multimedia sintetis, seperti video, gambar, atau data tidak terstruktur lainnya, dapat diterapkan untuk tugas-tugas visi komputer seperti klasifikasi gambar, pengenalan gambar, dan deteksi objek.
Data sintetis juga dapat diklasifikasikan menurut tingkat sintesisnya:
Data sintetis sepenuhnya merupakan pembuatan data yang sama sekali baru yang tidak menyertakan informasi dunia nyata apa pun. Data ini memperkirakan atribut, pola, dan hubungan yang mendasari data nyata untuk menirukannya sedekat mungkin.
Organisasi keuangan, misalnya, mungkin kekurangan sampel transaksi yang mencurigakan untuk melatih model AI dalam deteksi penipuan. Mereka kemudian dapat menghasilkan data sintetis sepenuhnya yang mewakili transaksi penipuan untuk meningkatkan pelatihan model, yang mirip dengan pendekatan perusahaan jasa keuangan J.P. Morgan.
Data sintetis sebagian berasal dari informasi dunia nyata tetapi menggantikan bagian dari kumpulan dataasli—biasanya yang berisi informasi sensitif—dengan nilai buatan. Teknik menjaga privasi ini membantu melindungi data pribadi sambil tetap mempertahankan karakteristik data asli.
Data sintetis sebagian dapat sangat berharga dalam penelitian klinis, misalnya, di mana data nyata sangat penting untuk hasil, tetapi melindungi informasi identifikasi pribadi (PII) pasien dan rekam medis juga sama pentingnya.
Data sintetis hibrida menggabungkan kumpulan data nyata dengan yang sintetis sepenuhnya. Data ini mengambil rekaman dari kumpulan data asli dan secara acak memasangkannya dengan catatan dari rekan sintetis mereka. Data sintetis hybrid dapat digunakan untuk menganalisis dan memperoleh insight dari data pelanggan, misalnya, tanpa melacak kembali data sensitif apa pun ke pelanggan tertentu.
Organisasi dapat memilih untuk menghasilkan data sintetis mereka sendiri. Mereka juga dapat menggunakan solusi seperti Synthetic Data Vault, pustaka Python untuk membuat data sintetis, atau algoritma sumber terbuka, kerangka kerja, paket,dan alat lainnya. Kumpulan data bawaan, seperti IBM Synthetic Data Sets, adalah pilihan lain.
Berikut adalah beberapa teknik pembuatan data sintetis yang umum:
Metodologi ini cocok untuk data yang distribusi, korelasi, dan sifat-sifatnya sudah diketahui sehingga dapat disimulasikan melalui model matematika.
Dalam pendekatan berbasis distribusi, fungsi statistik dapat digunakan untuk mendefinisikan distribusi data. Kemudian, dengan mengambil sampel secara acak dari distribusi ini, titik data baru dapat dihasilkan.
Untuk strategi berbasis korelasi, interpolasi atau ekstrapolasi dapat diterapkan. Pada data deret waktu, misalnya, interpolasi linier dapat membuat titik data baru di antara titik-titik data yang berdekatan, sedangkan ekstrapolasi linier dapat menghasilkan titik data di luar titik data yang sudah ada.
Generative adversarial networks (GANs) melibatkan pasangan neural networks: generator yang membuat data sintetis dan diskriminator yang bertindak sebagai musuh yang membedakan antara data nyata dan buatan. Kedua jaringan dilatih secara berulang, dengan masukan diskriminator meningkatkan output generator sampai diskriminator tidak lagi dapat membedakan antara data buatan dan data nyata. GAN sering digunakan untuk pembuatan gambar.
Model transformer, seperti generative pretrained transformers (GPT) dari OpenAI, berfungsi sebagai dasar dari model bahasa kecil (SLM) dan model bahasa besar (LLM). Transformer memproses data menggunakan encoder dan decoder.
Encoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input. Mekanisme perhatian diri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya. Dekoder kemudian menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.
Model transformator unggul dalam memahami struktur dan pola dalam bahasa. Karena itu, mereka dapat digunakan untuk membuat data teks buatan atau menghasilkan data tabular sintetis.
Variational autoencoder (VAE) adalah model generatif yang menghasilkan variasi dari data yang dilatih. Encoder memampatkan data input ke dalam ruang dimensi yang lebih rendah, menangkap informasi yang berarti yang terkandung dalam input. Sebuah decoder kemudian merekonstruksi data baru dari representasi terkompresi ini. Seperti GAN, VAE dapat digunakan untuk menghasilkan gambar sintetis.
Strategi simulasi ini memerlukan pemodelan sistem yang kompleks sebagai lingkungan virtual yang berisi entitas individual, yang juga dikenal sebagai agen. Agen beroperasi berdasarkan serangkaian aturan yang telah ditetapkan sebelumnya, berinteraksi dengan lingkungannya dan agen lainnya. Pemodelan berbasis agen mensimulasikan interaksi dan perilaku agen ini untuk menghasilkan data sintetis.
Misalnya, model berbasis agen dalam epidemiologi mewakili individu dalam suatu populasi sebagai agen. Setelah memodelkan interaksi agen, data sintetis seperti tingkat kontak dan kemungkinan infeksi dapat dihasilkan. Data tersebut kemudian dapat membantu dalam memprediksi penyebaran penyakit menular dan memeriksa efek intervensi.
Data sintetis adalah teknologi yang berkembang, yang menawarkan keuntungan berikut bagi perusahaan:
Tim ilmu data dapat menyesuaikan data sintetis agar sesuai dengan spesifikasi dan kebutuhan bisnis yang tepat. Dan karena ilmuwan data memiliki kontrol lebih besar atas kumpulan data sintetis, pengelolaan dan analisisnya menjadi lebih mudah.
Menghasilkan data sintetis menghilangkan proses pengumpulan data nyata yang memakan waktu, membuatnya lebih cepat untuk diproduksi dan membantu mempercepat alur kerja. Data sintetis juga dilengkapi dengan label sebelumnya, sehingga menghilangkan langkah membosankan untuk memberi label data dalam jumlah besar secara manual dan membuat anotasi dengan tangan.
Data sintetis menyerupai data dunia nyata, tetapi dapat dibuat sedemikian rupa sehingga data pribadi apa pun tidak dapat dilacak ke individu tertentu. Ini bertindak sebagai bentuk anonimisasi data, membantu menjaga keamanan informasi sensitif. Data sintetis juga memungkinkan perusahaan untuk menghindari masalah kekayaan intelektual dan hak cipta, tidak memerlukan lagi web crawler yang mengais dan mengumpulkan informasi dari situs web tanpa sepengetahuan atau persetujuan pengguna.
Kumpulan data buatan dapat membantu meningkatkan keberagaman, menciptakan atau menambah data untuk kelompok yang kurang terwakili dalam pelatihan AI. Data sintetis juga dapat mengisi celah ketika data asli langka atau data nyata tidak ada. Selain itu, memasukkan edge case atau outlier sebagai titik data dapat memperluas cakupan kumpulan data sintetis, yang mencerminkan variabilitas dan ketidakpastian dunia nyata.
Terlepas dari manfaatnya, data sintetis juga membawa beberapa kelemahan. Mengikuti praktik terbaik untuk pembuatan data sintetis dapat membantu mengatasi kelemahan ini dan memungkinkan perusahaan untuk memaksimalkan nilai data buatan.
Berikut adalah beberapa tantangan yang berkaitan dengan data sintetis:
Data sintetis masih dapat menunjukkan bias yang mungkin ada dalam data dunia nyata yang menjadi dasarnya. Menggunakan beragam sumber data dan menambahkan beberapa sumber data, termasuk dari berbagai wilayah dan kelompok demografis, dapat membantu mengurangi bias.
Keruntuhan model terjadi ketika model AI berulang kali dilatih pada data yang dihasilkan AI, menyebabkan kinerja model menurun. Perpaduan yang sehat antara kumpulan data pelatihan nyata dan buatan dapat membantu mencegah masalah ini.
Selama proses pembuatan data sintetis, persaingan antara akurasi dan privasi terjadi. Memprioritaskan akurasi mungkin berarti menyimpan lebih banyak data pribadi, sementara menjaga privasi tetap di atas segalanya dapat menyebabkan berkurangnya akurasi. Menemukan keseimbangan yang tepat untuk contoh penggunaan perusahaan sangat penting.
Pemeriksaan dan pengujian tambahan harus dilakukan untuk memvalidasi kualitas data sintetis setelah dihasilkan. Ini memperkenalkan langkah tambahan ke alur kerja, tetapi sangat penting untuk memastikan kumpulan data buatan bebas dari kesalahan, inkonsistensi, atau ketidakakuratan.
Data sintetis serbaguna dan dapat dihasilkan untuk berbagai aplikasi. Berikut adalah beberapa industri di mana data sintetis dapat menjadi aset:
Pemodelan berbasis agen dapat digunakan untuk menghasilkan data buatan yang terkait dengan arus lalu lintas, sehingga dapat membantu meningkatkan sistem jalan dan transportasi. Penggunaan data sintetis dapat membantu produsen mobil menghindari proses yang mahal dan memakan waktu untuk mendapatkan data kecelakaan yang sebenarnya untuk pengujian keselamatan kendaraan. Pembuat kendaraan otonom dapat menggunakan data sintetis untuk melatih mobil swakemudi dalam menavigasi skenario yang berbeda.
Data keuangan sintetis dapat diimplementasikan untuk menilai dan mengelola risiko, pemodelan prediktif dan forecasting, dan pengujian algoritma perdagangan, di antara aplikasi lainnya. IBM Synthetic Data Sets, misalnya, terdiri dari data simulasi untuk membantu deteksi penipuan dalam kartu kredit dan klaim asuransi rumah dan simulasi transaksi perbankan untuk solusi anti-pencucian uang.
Kumpulan data sintetis dapat membantu perusahaan farmasi mempercepat pengembangan obat. Sementara itu, para peneliti medis dapat menggunakan data sintetis sebagian untuk uji klinis atau data sintetis sepenuhnya untuk membuat catatan pasien buatan atau pencitraan medis untuk memformulasikan perawatan yang inovatif atau pencegahan. Pemodelan berbasis agen juga dapat diterapkan dalam epidemiologi untuk mempelajari penularan dan intervensi penyakit.
Perusahaan manufaktur dapat menggunakan data sintetis untuk meningkatkan kemampuan pemeriksaan visual model visi komputer yang memeriksa produk secara real time untuk menemukan cacat dan penyimpangan dari standar. Kumpulan data buatan juga dapat meningkatkan pemeliharaan prediktif, dengan data sensor sintetis membantu machine learning mengantisipasi kegagalan peralatan dengan lebih baik dan merekomendasikan tindakan yang tepat dan tepat waktu.
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 April 2024
Dapatkan insight unik tentang lingkungan solusi ABI yang terus berkembang, dengan menyoroti temuan utama, asumsi, dan rekomendasi bagi para pemimpin data dan analitik.
Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.
Jelajahi panduan pemimpin data untuk membangun organisasi berbasis data dan mendorong keunggulan bisnis.
Pelajari bagaimana pendekatan data lakehouse terbuka dapat memberikan data yang dapat dipercaya dan analitik serta eksekusi proyek AI yang lebih cepat.
Hubungkan strategi data dan analitik Anda dengan tujuan bisnis menggunakan 4 langkah utama ini.
Lihat lebih dalam alasan tantangan intelijen bisnis tetap ada dan maknanya bagi pengguna di seluruh organisasi.
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 April 2024