Apa yang dimaksud dengan data sintetis?

31 Januari 2023

Apa yang dimaksud dengan data sintetis?

Data sintetis adalah data buatan yang dirancang untuk menggambarkan data dari dunia nyata. Data ini dihasilkan melalui metode statistik atau dengan menggunakan teknik kecerdasan buatan (AI) seperti pembelajaran mendalam dan AI generatif.

Meskipun dihasilkan secara artifisial, data sintetis mempertahankan sifat statistik yang mendasari data asli yang menjadi dasarnya. Dengan demikian, kumpulan data sintetis dapat melengkapi atau bahkan menggantikan kumpulan data nyata.

Data sintetis dapat bertindak sebagai placeholder bagi data uji dan terutama digunakan untuk melatih model machine learning, berfungsi sebagai solusi potensial terhadap kebutuhan yang terus meningkat—tetapi dengan pasokannya terbatas—akan data pelatihan dunia nyata berkualitas tinggi untuk model AI. Namun, data sintetis juga mendapatkan daya tarik di sektor-sektor seperti keuangan dan perawatan kesehatan di mana datanya terbatas, memakan waktu lama untuk diperoleh, atau sulit diakses karena masalah privasi data dan persyaratan keamanan. Bahkan, firma riset Gartner memperkirakan bahwa 75% bisnis akan menggunakan AI generatif untuk membuat data pelanggan sintetis pada tahun 2026.1

Jenis data sintetis

Data sintetis dapat datang dalam bentuk multimedia, tabular, atau teks. Data teks sintetis dapat digunakan untuk pemrosesan bahasa alami (NLP), sedangkan data tabular sintetis dapat digunakan untuk membuat tabel basis data relasional. Multimedia sintetis, seperti video, gambar, atau data tidak terstruktur lainnya, dapat diterapkan untuk tugas-tugas visi komputer seperti klasifikasi gambar, pengenalan gambar, dan deteksi objek.

Data sintetis juga dapat diklasifikasikan menurut tingkat sintesisnya:

  • Sintetis sepenuhnya

  • Sintetis sebagian

  • Hibrida

Sintetis sepenuhnya

Data sintetis sepenuhnya merupakan pembuatan data yang sama sekali baru yang tidak menyertakan informasi dunia nyata apa pun. Data ini memperkirakan atribut, pola, dan hubungan yang mendasari data nyata untuk menirukannya sedekat mungkin.

Organisasi keuangan, misalnya, mungkin kekurangan sampel transaksi yang mencurigakan untuk melatih model AI dalam deteksi penipuan. Mereka kemudian dapat menghasilkan data sintetis sepenuhnya yang mewakili transaksi penipuan untuk meningkatkan pelatihan model, yang mirip dengan pendekatan perusahaan jasa keuangan J.P. Morgan.

Sintetis sebagian

Data sintetis sebagian berasal dari informasi dunia nyata tetapi menggantikan bagian dari kumpulan dataasli—biasanya yang berisi informasi sensitif—dengan nilai buatan. Teknik menjaga privasi ini membantu melindungi data pribadi sambil tetap mempertahankan karakteristik data asli.

Data sintetis sebagian dapat sangat berharga dalam penelitian klinis, misalnya, di mana data nyata sangat penting untuk hasil, tetapi melindungi informasi identifikasi pribadi (PII) pasien dan rekam medis juga sama pentingnya.

Hibrida

Data sintetis hibrida menggabungkan kumpulan data nyata dengan yang sintetis sepenuhnya. Data ini mengambil rekaman dari kumpulan data asli dan secara acak memasangkannya dengan catatan dari rekan sintetis mereka. Data sintetis hybrid dapat digunakan untuk menganalisis dan memperoleh insight dari data pelanggan, misalnya, tanpa melacak kembali data sensitif apa pun ke pelanggan tertentu.

Bagaimana data sintetis dihasilkan?

Organisasi dapat memilih untuk menghasilkan data sintetis mereka sendiri. Mereka juga dapat menggunakan solusi seperti Synthetic Data Vault, pustaka Python untuk membuat data sintetis, atau algoritma sumber terbuka, kerangka kerja, paket,dan alat lainnya. Kumpulan data bawaan, seperti IBM Synthetic Data Sets, adalah pilihan lain.

Berikut adalah beberapa teknik pembuatan data sintetis yang umum:

  • Metode statistik

  • Generative adversarial networks (GANs)

  • Model transformator

  • Variational autoencoders (VAEs)

  • Pemodelan berbasis agen

Metode statistik

Metodologi ini cocok untuk data yang distribusi, korelasi, dan sifat-sifatnya sudah diketahui sehingga dapat disimulasikan melalui model matematika.

Dalam pendekatan berbasis distribusi, fungsi statistik dapat digunakan untuk mendefinisikan distribusi data. Kemudian, dengan mengambil sampel secara acak dari distribusi ini, titik data baru dapat dihasilkan.

Untuk strategi berbasis korelasi, interpolasi atau ekstrapolasi dapat diterapkan. Pada data deret waktu, misalnya, interpolasi linier dapat membuat titik data baru di antara titik-titik data yang berdekatan, sedangkan ekstrapolasi linier dapat menghasilkan titik data di luar titik data yang sudah ada.

Generative adversarial networks (GANs)

Generative adversarial networks (GANs) melibatkan pasangan neural networks: generator yang membuat data sintetis dan diskriminator yang bertindak sebagai musuh yang membedakan antara data nyata dan buatan. Kedua jaringan dilatih secara berulang, dengan masukan diskriminator meningkatkan output generator sampai diskriminator tidak lagi dapat membedakan antara data buatan dan data nyata. GAN sering digunakan untuk pembuatan gambar.

model transformator

Model transformer, seperti generative pretrained transformers (GPT) dari OpenAI, berfungsi sebagai dasar dari model bahasa kecil (SLM) dan model bahasa besar (LLM). Transformer memproses data menggunakan encoder dan decoder.

Encoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input. Mekanisme perhatian diri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya. Dekoder kemudian menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.

Model transformator unggul dalam memahami struktur dan pola dalam bahasa. Karena itu, mereka dapat digunakan untuk membuat data teks buatan atau menghasilkan data tabular sintetis.

Variational autoencoders (VAEs)

Variational autoencoder (VAE) adalah model generatif yang menghasilkan variasi dari data yang dilatih. Encoder memampatkan data input ke dalam ruang dimensi yang lebih rendah, menangkap informasi yang berarti yang terkandung dalam input. Sebuah decoder kemudian merekonstruksi data baru dari representasi terkompresi ini. Seperti GAN, VAE dapat digunakan untuk menghasilkan gambar sintetis.

Pemodelan berbasis agen

Strategi simulasi ini memerlukan pemodelan sistem yang kompleks sebagai lingkungan virtual yang berisi entitas individual, yang juga dikenal sebagai agen. Agen beroperasi berdasarkan serangkaian aturan yang telah ditetapkan sebelumnya, berinteraksi dengan lingkungannya dan agen lainnya. Pemodelan berbasis agen mensimulasikan interaksi dan perilaku agen ini untuk menghasilkan data sintetis.

Misalnya, model berbasis agen dalam epidemiologi mewakili individu dalam suatu populasi sebagai agen. Setelah memodelkan interaksi agen, data sintetis seperti tingkat kontak dan kemungkinan infeksi dapat dihasilkan. Data tersebut kemudian dapat membantu dalam memprediksi penyebaran penyakit menular dan memeriksa efek intervensi.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Manfaat data sintetis

Data sintetis adalah teknologi yang berkembang, yang menawarkan keuntungan berikut bagi perusahaan:

  • Kustomisasi

  • Efisiensi

  • Peningkatan privasi data

  • Data yang lebih kaya

Kustomisasi

Tim ilmu data dapat menyesuaikan data sintetis agar sesuai dengan spesifikasi dan kebutuhan bisnis yang tepat. Dan karena ilmuwan data memiliki kontrol lebih besar atas kumpulan data sintetis, pengelolaan dan analisisnya menjadi lebih mudah.

Efisiensi

Menghasilkan data sintetis menghilangkan proses pengumpulan data nyata yang memakan waktu, membuatnya lebih cepat untuk diproduksi dan membantu mempercepat alur kerja. Data sintetis juga dilengkapi dengan label sebelumnya, sehingga menghilangkan langkah membosankan untuk memberi label data dalam jumlah besar secara manual dan membuat anotasi dengan tangan.

Peningkatan privasi data

Data sintetis menyerupai data dunia nyata, tetapi dapat dibuat sedemikian rupa sehingga data pribadi apa pun tidak dapat dilacak ke individu tertentu. Ini bertindak sebagai bentuk anonimisasi data, membantu menjaga keamanan informasi sensitif. Data sintetis juga memungkinkan perusahaan untuk menghindari masalah kekayaan intelektual dan hak cipta, tidak memerlukan lagi web crawler yang mengais dan mengumpulkan informasi dari situs web tanpa sepengetahuan atau persetujuan pengguna.

Data yang lebih kaya

Kumpulan data buatan dapat membantu meningkatkan keberagaman, menciptakan atau menambah data untuk kelompok yang kurang terwakili dalam pelatihan AI. Data sintetis juga dapat mengisi celah ketika data asli langka atau data nyata tidak ada. Selain itu, memasukkan edge case atau outlier sebagai titik data dapat memperluas cakupan kumpulan data sintetis, yang mencerminkan variabilitas dan ketidakpastian dunia nyata.

Tantangan data sintetis

Terlepas dari manfaatnya, data sintetis juga membawa beberapa kelemahan. Mengikuti praktik terbaik untuk pembuatan data sintetis dapat membantu mengatasi kelemahan ini dan memungkinkan perusahaan untuk memaksimalkan nilai data buatan.

Berikut adalah beberapa tantangan yang berkaitan dengan data sintetis:

  • Bias

  • Keruntuhan model

  • Keseimbangan antara keakuratan dan privasi

  • Verifikasi

Bias

Data sintetis masih dapat menunjukkan bias yang mungkin ada dalam data dunia nyata yang menjadi dasarnya. Menggunakan beragam sumber data dan menambahkan beberapa sumber data, termasuk dari berbagai wilayah dan kelompok demografis, dapat membantu mengurangi bias.

Keruntuhan model

Keruntuhan model terjadi ketika model AI berulang kali dilatih pada data yang dihasilkan AI, menyebabkan kinerja model menurun. Perpaduan yang sehat antara kumpulan data pelatihan nyata dan buatan dapat membantu mencegah masalah ini.

Keseimbangan antara akurasi dan privasi

Selama proses pembuatan data sintetis, persaingan antara akurasi dan privasi terjadi. Memprioritaskan akurasi mungkin berarti menyimpan lebih banyak data pribadi, sementara menjaga privasi tetap di atas segalanya dapat menyebabkan berkurangnya akurasi. Menemukan keseimbangan yang tepat untuk contoh penggunaan perusahaan sangat penting.

Verifikasi

Pemeriksaan dan pengujian tambahan harus dilakukan untuk memvalidasi kualitas data sintetis setelah dihasilkan. Ini memperkenalkan langkah tambahan ke alur kerja, tetapi sangat penting untuk memastikan kumpulan data buatan bebas dari kesalahan, inkonsistensi, atau ketidakakuratan.

Contoh penggunaan data sintetis

Data sintetis serbaguna dan dapat dihasilkan untuk berbagai aplikasi. Berikut adalah beberapa industri di mana data sintetis dapat menjadi aset:

  • Otomotif

  • Keuangan

  • Perawatan kesehatan

  • Manufaktur

Otomotif

Pemodelan berbasis agen dapat digunakan untuk menghasilkan data buatan yang terkait dengan arus lalu lintas, sehingga dapat membantu meningkatkan sistem jalan dan transportasi. Penggunaan data sintetis dapat membantu produsen mobil menghindari proses yang mahal dan memakan waktu untuk mendapatkan data kecelakaan yang sebenarnya untuk pengujian keselamatan kendaraan. Pembuat kendaraan otonom dapat menggunakan data sintetis untuk melatih mobil swakemudi dalam menavigasi skenario yang berbeda.

Keuangan

Data keuangan sintetis dapat diimplementasikan untuk menilai dan mengelola risiko, pemodelan prediktif dan forecasting, dan pengujian algoritma perdagangan, di antara aplikasi lainnya. IBM Synthetic Data Sets, misalnya, terdiri dari data simulasi untuk membantu deteksi penipuan dalam kartu kredit dan klaim asuransi rumah dan simulasi transaksi perbankan untuk solusi anti-pencucian uang.

Pelayanan Kesehatan

Kumpulan data sintetis dapat membantu perusahaan farmasi mempercepat pengembangan obat. Sementara itu, para peneliti medis dapat menggunakan data sintetis sebagian untuk uji klinis atau data sintetis sepenuhnya untuk membuat catatan pasien buatan atau pencitraan medis untuk memformulasikan perawatan yang inovatif atau pencegahan. Pemodelan berbasis agen juga dapat diterapkan dalam epidemiologi untuk mempelajari penularan dan intervensi penyakit.

Manufaktur

Perusahaan manufaktur dapat menggunakan data sintetis untuk meningkatkan kemampuan pemeriksaan visual model visi komputer yang memeriksa produk secara real time untuk menemukan cacat dan penyimpangan dari standar. Kumpulan data buatan juga dapat meningkatkan pemeliharaan prediktif, dengan data sensor sintetis membantu machine learning mengantisipasi kegagalan peralatan dengan lebih baik dan merekomendasikan tindakan yang tepat dan tepat waktu.

Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Catatan kaki
Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki