Apa yang dimaksud dengan data sintetis?

Penulis

Staff Writer

IBM Think

Apa yang dimaksud dengan data sintetis?

Data sintetis adalah data buatan yang dirancang untuk menggambarkan data dari dunia nyata. Data ini dihasilkan melalui metode statistik atau dengan menggunakan teknik kecerdasan buatan (AI) seperti pembelajaran mendalam dan AI generatif.

Meskipun dihasilkan secara artifisial, data sintetis mempertahankan sifat statistik yang mendasari data asli yang menjadi dasarnya. Dengan demikian, kumpulan data sintetis dapat melengkapi atau bahkan menggantikan kumpulan data nyata.

Data sintetis dapat bertindak sebagai placeholder bagi data uji dan terutama digunakan untuk melatih model machine learning, berfungsi sebagai solusi potensial terhadap kebutuhan yang terus meningkat—tetapi dengan pasokannya terbatas—akan data pelatihan dunia nyata berkualitas tinggi untuk model AI. Namun, data sintetis juga mendapatkan daya tarik di sektor-sektor seperti keuangan dan perawatan kesehatan di mana datanya terbatas, memakan waktu lama untuk diperoleh, atau sulit diakses karena masalah privasi data dan persyaratan keamanan. Bahkan, firma riset Gartner memperkirakan bahwa 75% bisnis akan menggunakan AI generatif untuk membuat data pelanggan sintetis pada tahun 2026.¹

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Jenis data sintetis

Data sintetis dapat datang dalam bentuk multimedia, tabular, atau teks. Data teks sintetis dapat digunakan untuk pemrosesan bahasa alami (NLP), sedangkan data tabular sintetis dapat digunakan untuk membuat tabel basis data relasional. Multimedia sintetis, seperti video, gambar, atau data tidak terstruktur lainnya, dapat diterapkan untuk tugas-tugas visi komputer seperti klasifikasi gambar, pengenalan gambar, dan deteksi objek.

Data sintetis juga dapat diklasifikasikan menurut tingkat sintesisnya:

Sintetis sepenuhnya
Sintetis sebagian
Hibrida

Sintetis sepenuhnya

Data sintetis sepenuhnya merupakan pembuatan data yang sama sekali baru yang tidak menyertakan informasi dunia nyata apa pun. Data ini memperkirakan atribut, pola, dan hubungan yang mendasari data nyata untuk menirukannya sedekat mungkin.

Organisasi keuangan, misalnya, mungkin kekurangan sampel transaksi yang mencurigakan untuk melatih model AI dalam deteksi penipuan. Mereka kemudian dapat menghasilkan data sintetis sepenuhnya yang mewakili transaksi penipuan untuk meningkatkan pelatihan model.

Sintetis sebagian

Data sintetis sebagian berasal dari informasi dunia nyata tetapi menggantikan bagian dari kumpulan dataasli—biasanya yang berisi informasi sensitif—dengan nilai buatan. Teknik menjaga privasi ini membantu melindungi data pribadi sambil tetap mempertahankan karakteristik data asli.

Data sintetis sebagian dapat sangat berharga dalam penelitian klinis, misalnya, di mana data nyata sangat penting untuk hasil, tetapi melindungi informasi identifikasi pribadi (PII) pasien dan rekam medis juga sama pentingnya.

Hybrid

Data sintetis hibrida menggabungkan kumpulan data nyata dengan yang sintetis sepenuhnya. Data ini mengambil rekaman dari kumpulan data asli dan secara acak memasangkannya dengan catatan dari rekan sintetis mereka. Data sintetis hybrid dapat digunakan untuk menganalisis dan memperoleh insight dari data pelanggan, misalnya, tanpa melacak kembali data sensitif apa pun ke pelanggan tertentu.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Bagaimana data sintetis dihasilkan?

Organisasi dapat memilih untuk menghasilkan data sintetis mereka sendiri. Mereka juga dapat menggunakan solusi seperti Synthetic Data Vault, pustaka Python untuk membuat data sintetis, atau algoritma sumber terbuka, kerangka kerja, paket,dan alat lainnya. Kumpulan data bawaan, seperti IBM Synthetic Data Sets, adalah pilihan lain.

Berikut adalah beberapa teknik pembuatan data sintetis yang umum:

Metode statistik
Generative adversarial networks (GANs)
Model transformator
Variational autoencoders (VAEs)
Pemodelan berbasis agen

Metode statistik

Metodologi ini cocok untuk data yang distribusi, korelasi, dan sifat-sifatnya sudah diketahui sehingga dapat disimulasikan melalui model matematika.

Dalam pendekatan berbasis distribusi, fungsi statistik dapat digunakan untuk mendefinisikan distribusi data. Kemudian, dengan mengambil sampel secara acak dari distribusi ini, titik data baru dapat dihasilkan.

Untuk strategi berbasis korelasi, interpolasi atau ekstrapolasi dapat diterapkan. Pada data deret waktu, misalnya, interpolasi linier dapat membuat titik data baru di antara titik-titik data yang berdekatan, sedangkan ekstrapolasi linier dapat menghasilkan titik data di luar titik data yang sudah ada.

Generative adversarial networks (GANs)

Generative adversarial networks (GANs) melibatkan pasangan neural networks: generator yang membuat data sintetis dan diskriminator yang bertindak sebagai musuh yang membedakan antara data nyata dan buatan. Kedua jaringan dilatih secara berulang, dengan masukan diskriminator meningkatkan output generator sampai diskriminator tidak lagi dapat membedakan antara data buatan dan data nyata. GAN sering digunakan untuk pembuatan gambar.

model transformer

Model transformer, seperti generative pretrained transformers (GPT) dari OpenAI, berfungsi sebagai dasar dari model bahasa kecil (SLM) dan model bahasa besar (LLM). Transformer memproses data menggunakan encoder dan decoder.

Encoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input. Mekanisme perhatian diri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya. Dekoder kemudian menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.

Model transformator unggul dalam memahami struktur dan pola dalam bahasa. Karena itu, mereka dapat digunakan untuk membuat data teks buatan atau menghasilkan data tabular sintetis.

Variational autoencoders (VAE)

Variational autoencoder (VAE) adalah model generatif yang menghasilkan variasi dari data yang dilatih. Encoder memampatkan data input ke dalam ruang dimensi yang lebih rendah, menangkap informasi yang berarti yang terkandung dalam input. Sebuah decoder kemudian merekonstruksi data baru dari representasi terkompresi ini. Seperti GAN, VAE dapat digunakan untuk menghasilkan gambar sintetis.

Pemodelan berbasis agen

Strategi simulasi ini memerlukan pemodelan sistem yang kompleks sebagai lingkungan virtual yang berisi entitas individual, yang juga dikenal sebagai agen. Agen beroperasi berdasarkan serangkaian aturan yang telah ditetapkan sebelumnya, berinteraksi dengan lingkungannya dan agen lainnya. Pemodelan berbasis agen mensimulasikan interaksi dan perilaku agen ini untuk menghasilkan data sintetis.

Misalnya, model berbasis agen dalam epidemiologi mewakili individu dalam suatu populasi sebagai agen. Setelah memodelkan interaksi agen, data sintetis seperti tingkat kontak dan kemungkinan infeksi dapat dihasilkan. Data tersebut kemudian dapat membantu dalam memprediksi penyebaran penyakit menular dan memeriksa efek intervensi.

Manfaat data sintetis

Data sintetis adalah teknologi yang berkembang, yang menawarkan keuntungan berikut bagi perusahaan:

Kustomisasi
Efisiensi
Peningkatan privasi data
Data yang lebih kaya

Kustomisasi

Tim ilmu data dapat menyesuaikan data sintetis agar sesuai dengan spesifikasi dan kebutuhan bisnis yang tepat. Dan karena ilmuwan data memiliki kontrol lebih besar atas kumpulan data sintetis, pengelolaan dan analisisnya menjadi lebih mudah.

Efisiensi

Menghasilkan data sintetis menghilangkan proses pengumpulan data nyata yang memakan waktu, membuatnya lebih cepat untuk diproduksi dan membantu mempercepat alur kerja. Data sintetis juga dilengkapi dengan label sebelumnya, sehingga menghilangkan langkah membosankan untuk memberi label data dalam jumlah besar secara manual dan membuat anotasi dengan tangan.

Peningkatan privasi data

Data sintetis menyerupai data dunia nyata, tetapi dapat dibuat sedemikian rupa sehingga data pribadi apa pun tidak dapat dilacak ke individu tertentu. Ini bertindak sebagai bentuk anonimisasi data, membantu menjaga keamanan informasi sensitif. Data sintetis juga memungkinkan perusahaan untuk menghindari masalah kekayaan intelektual dan hak cipta, tidak memerlukan lagi web crawler yang mengais dan mengumpulkan informasi dari situs web tanpa sepengetahuan atau persetujuan pengguna.

Data yang lebih kaya

Kumpulan data buatan dapat membantu meningkatkan keberagaman, menciptakan atau menambah data untuk kelompok yang kurang terwakili dalam pelatihan AI. Data sintetis juga dapat mengisi celah ketika data asli langka atau data nyata tidak ada. Selain itu, memasukkan edge case atau outlier sebagai titik data dapat memperluas cakupan kumpulan data sintetis, yang mencerminkan variabilitas dan ketidakpastian dunia nyata.

Tantangan data sintetis

Terlepas dari manfaatnya, data sintetis juga membawa beberapa kelemahan. Mengikuti praktik terbaik untuk pembuatan data sintetis dapat membantu mengatasi kelemahan ini dan memungkinkan perusahaan untuk memaksimalkan nilai data buatan.

Berikut adalah beberapa tantangan yang berkaitan dengan data sintetis:

Bias
Keruntuhan model
Keseimbangan antara keakuratan dan privasi
Verifikasi

Bias

Data sintetis masih dapat menunjukkan bias yang mungkin ada dalam data dunia nyata yang menjadi dasarnya. Menggunakan beragam sumber data dan menambahkan beberapa sumber data, termasuk dari berbagai wilayah dan kelompok demografis, dapat membantu mengurangi bias.

Keruntuhan model

Keruntuhan model terjadi ketika model AI berulang kali dilatih pada data yang dihasilkan AI, menyebabkan kinerja model menurun. Perpaduan yang sehat antara kumpulan data pelatihan nyata dan buatan dapat membantu mencegah masalah ini.

Keseimbangan antara akurasi dan privasi

Selama proses pembuatan data sintetis, persaingan antara akurasi dan privasi terjadi. Memprioritaskan akurasi mungkin berarti menyimpan lebih banyak data pribadi, sementara menjaga privasi tetap di atas segalanya dapat menyebabkan berkurangnya akurasi. Menemukan keseimbangan yang tepat untuk contoh penggunaan perusahaan sangat penting.

Verifikasi

Pemeriksaan dan pengujian tambahan harus dilakukan untuk memvalidasi kualitas data sintetis setelah dihasilkan. Ini memperkenalkan langkah tambahan ke alur kerja, tetapi sangat penting untuk memastikan kumpulan data buatan bebas dari kesalahan, inkonsistensi, atau ketidakakuratan.

Contoh penggunaan data sintetis

Data sintetis serbaguna dan dapat dihasilkan untuk berbagai aplikasi. Berikut adalah beberapa industri di mana data sintetis dapat menjadi aset:

Otomotif
Keuangan
Perawatan kesehatan
Manufaktur

Otomotif

Pemodelan berbasis agen dapat digunakan untuk menghasilkan data buatan yang terkait dengan arus lalu lintas, sehingga dapat membantu meningkatkan sistem jalan dan transportasi. Penggunaan data sintetis dapat membantu produsen mobil menghindari proses yang mahal dan memakan waktu untuk mendapatkan data kecelakaan yang sebenarnya untuk pengujian keselamatan kendaraan. Pembuat kendaraan otonom dapat menggunakan data sintetis untuk melatih mobil swakemudi dalam menavigasi skenario yang berbeda.

Keuangan

Data keuangan sintetis dapat diimplementasikan untuk menilai dan mengelola risiko, pemodelan prediktif dan forecasting, dan pengujian algoritma perdagangan, di antara aplikasi lainnya. IBM Synthetic Data Sets, misalnya, terdiri dari data simulasi untuk membantu deteksi penipuan dalam kartu kredit dan klaim asuransi rumah dan simulasi transaksi perbankan untuk solusi anti-pencucian uang.

Layanan Kesehatan

Kumpulan data sintetis dapat membantu perusahaan farmasi mempercepat pengembangan obat. Sementara itu, para peneliti medis dapat menggunakan data sintetis sebagian untuk uji klinis atau data sintetis sepenuhnya untuk membuat catatan pasien buatan atau pencitraan medis untuk memformulasikan perawatan yang inovatif atau pencegahan. Pemodelan berbasis agen juga dapat diterapkan dalam epidemiologi untuk mempelajari penularan dan intervensi penyakit.

Manufaktur

Perusahaan manufaktur dapat menggunakan data sintetis untuk meningkatkan kemampuan pemeriksaan visual model visi komputer yang memeriksa produk secara real time untuk menemukan cacat dan penyimpangan dari standar. Kumpulan data buatan juga dapat meningkatkan pemeliharaan prediktif, dengan data sensor sintetis membantu machine learning mengantisipasi kegagalan peralatan dengan lebih baik dan merekomendasikan tindakan yang tepat dan tepat waktu.

Ilmu data dan MLOP untuk pemimpin data

Bergabunglah dengan para pemimpin lain untuk mendorong tiga pilar penting MLOP dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Sumber daya

Tingkatkan keahlian ML Anda

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Penjelasan tentang machine learning

Techsplainers dari IBM menguraikan dasar-dasar machine learning, dari konsep kunci hingga contoh penggunaan. Episode yang jelas dan singkat membantu Anda mempelajari dasar-dasarnya dengan cepat.

Manfaatkan AI : Meningkatkan ROI dengan gen AI

Ingin mendapatkan hasil yang lebih baik dari investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Jelajahi IBM Granite

IBM® Granite adalah rangkaian model AI kami yang terbuka, berkinerja tinggi, dan dapat diandalkan, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Pelajari 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI tepercaya.

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Catatan kaki

¹ 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 April 2024

Apa yang dimaksud dengan data sintetis?

Apa yang dimaksud dengan data sintetis?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Jenis data sintetis

Sintetis sepenuhnya

Sintetis sebagian

Hybrid

Decoding AI: Rangkuman Berita Mingguan

Bagaimana data sintetis dihasilkan?

Metode statistik

Generative adversarial networks (GANs)

model transformer

Variational autoencoders (VAE)

Pemodelan berbasis agen

Manfaat data sintetis

Kustomisasi

Efisiensi

Peningkatan privasi data

Data yang lebih kaya

Tantangan data sintetis

Bias

Keruntuhan model

Keseimbangan antara akurasi dan privasi

Verifikasi

Contoh penggunaan data sintetis

Otomotif

Keuangan

Layanan Kesehatan

Manufaktur

Sumber daya

Catatan kaki