8 praktik terbaik untuk pembuatan data sintetis

lini produksi pabrik benda-benda kecil

Penyusun

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Ketika mendengar kata “sintetis”, Anda mungkin mengasosiasikannya dengan sesuatu yang artifisial atau dibuat-buat. Misalnya, serat sintetis seperti poliester dan nilon, yang dibuat oleh manusia melalui proses kimiawi.

Serat sintetis lebih terjangkau dan mudah diproduksi secara massal, namun kualitasnya dapat menyaingi serat alami. Serat ini sering dirancang untuk meniru karakteristik serat alami dan direkayasa untuk kebutuhan spesifik, seperti—elastan yang fleksibel, akrilik yang menahan panas, atau poliester yang tahan lama.

Hal yang sama berlaku untuk data sintetis. Informasi yang dibuat secara artifisial dapat menambah atau menggantikan data dunia nyata saat melatih atau menguji model kecerdasan buatan (AI) . Dibandingkan dengan kumpulan data nyata yang bisa mahal untuk diperoleh, sulit diakses, memakan waktu untuk memberi label dan memiliki pasokan terbatas, kumpulan data sintetis dapat disintesis melalui simulasi komputer atau model generatif. Hal ini membuat mereka lebih murah untuk diproduksi sesuai permintaan dalam volume yang hampir tak terbatas dan disesuaikan dengan kebutuhan organisasi.

Terlepas dari manfaat, data sintetis juga datang dengan tantangan. Proses pembuatannya bisa jadi rumit, dengan para ilmuwan data harus membuat data yang realistis sambil tetap menjaga kualitas dan privasi.

Namun data sintetis akan tetap ada. Perusahaan riset Gartner memperkirakan bahwa pada tahun 2026, 75% bisnis akan menggunakan AI generatif untuk membuat data pelanggan sintetis.1

Untuk membantu perusahaan mendapatkan hasil maksimal dari data buatan, berikut ini adalah 8 praktik terbaik untuk pembuatan data sintetis:

1. Ketahui tujuan Anda

Pahami mengapa bisnis Anda membutuhkan data sintetis dan contoh penggunaan di mana data sintetis mungkin lebih membantu daripada data nyata. Dalam perawatan kesehatan, misalnya, catatan pasien atau gambar medis dapat dibuat secara artifisial—tanpa mengandung data sensitif atau informasi identitas pribadi (PII). Hal ini juga memungkinkan berbagi data yang aman antara peneliti dan tim ilmu data.

Data sintetis dapat digunakan sebagai data uji dalam pengembangan perangkat lunak, menggantikan data produksi yang sensitif namun tetap meniru karakteristik aslinya. Pendekatan ini memungkinkan perusahaan menghindari masalah hak cipta dan kekayaan intelektual, karena mereka menghasilkan data sendiri daripada mengandalkan perayap web untuk mengumpulkan informasi dari situs tanpa sepengetahuan atau persetujuan pengguna.

Selain itu, data buatan dapat bertindak sebagai bentuk augmentasi data. Ini dapat digunakan untuk meningkatkan keberagaman data, terutama untuk kelompok yang kurang terwakili dalam pelatihan model AI. Dan ketika informasi jarang, data sintetis dapat mengisi kekosongan.

Perusahaan jasa keuangan J.P. Morgan, misalnya, merasa kesulitan untuk melatih model didukung AI secara efektif untuk deteksi penipuan karena kurangnya kasus penipuan dibandingkan dengan kasus yang bukan penipuan. Organisasi ini menggunakan pembuatan data sintetis untuk membuat lebih banyak contoh transaksi yang curang (tautan berada di luar ibm.com), sehingga meningkatkan pelatihan model.

2. Persiapan adalah kuncinya

Kualitas data sintetis hanya sebaik data dunia nyata yang mendukungnya. Saat menyiapkan kumpulan data asli untuk pembuatan data sintetis dengan algoritma pembelajaran mesin (ML), pastikan untuk memeriksa dan memperbaiki segala kesalahan, ketidakakuratan, dan inkonsistensi. Hapus semua duplikat, dan masukkan missing values.

Pertimbangkan untuk menambahkan kasus tepi atau outlier ke data asli. Titik data ini dapat mewakili peristiwa yang tidak biasa, skenario langka, atau kasus ekstrem yang mencerminkan ketidakpastian dan variabilitas dunia nyata.

“Itu tergantung pada contoh benih,” kata Akash Srivastava, kepala arsitek di InstructLab (tautan berada di luar ibm.com), sebuah proyek sumber terbuka dari IBM dan Red Hat yang menggunakan pendekatan kolaboratif untuk menambahkan pengetahuan dan keterampilan baru ke model, yang didukung oleh metode pembuatan data sintetis baru IBM dan protokol pelatihan bertahap. “Contoh yang Anda gunakan untuk menyemai generasi perlu meniru contoh penggunaan Anda.”

3. Diversifikasi sumber data

Tingkat pembelajaran tetap, atau konstan, tidak berubah sepanjang proses pelatihan. Dalam pendekatan ini, momentum dan peluruhan tetap statis selama pelatihan. Tingkat pembelajaran tetap berfungsi sebagai tolok ukur atau referensi untuk mengevaluasi efektivitas strategi tingkat pembelajaran lainnya.

Sumber data yang beragam juga dapat meningkatkan kualitas kumpulan data sintetis. Berbagai sumber dapat menawarkan detail penting atau konteks penting yang kurang dari satu sumber atau hanya segelintir sumber. Selain itu, menggabungkan generasi dengan dukungan pengambilan data ke dalam proses pembuatan data sintetis dapat memberikan akses ke data terkini dan spesifik domain yang dapat meningkatkan akurasi dan lebih meningkatkan kualitas.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

4. Pilih teknik sintesis yang tepat

Memilih teknik pembuatan data sintetis yang tepat tergantung pada beberapa faktor, termasuk tipe data dan kompleksitas. Data yang relatif sederhana mungkin mendapat manfaat dari metode statistik. Kumpulan data yang lebih rumit—data terstruktur seperti data tabular atau data tidak terstruktur seperti gambar atau video, misalnya—mungkin memerlukan model pembelajaran mendalam. Perusahaan juga dapat memilih untuk menggabungkan teknik sintesis sesuai dengan kebutuhan mereka.

Berikut ini adalah beberapa mekanisme umum untuk menghasilkan data sintetis:

Distribusi statistik

Ilmuwan data dapat menganalisis distribusi statistik dalam data nyata dan menghasilkan sampel sintetis yang mencerminkan pola tersebut. Namun, proses ini memerlukan keahlian mendalam, dan tidak semua data dapat dengan mudah dipetakan ke distribusi yang telah dikenal.

Jaringan adversial generatif

Jaringan adversarial generatif (GAN) terdiri dari dua neural networks: generator yang menciptakan data sintetis dan diskriminator yang bertindak sebagai musuh, membedakan antara data buatan dan nyata. Kedua jaringan dilatih secara berulang, dengan masukan diskriminator meningkatkan output generator sampai diskriminator tidak lagi dapat membedakan data buatan dari data nyata.

GAN dapat digunakan untuk menghasilkan gambar sintetis untuk visi komputer dan tugas klasifikasi gambar.

Pembuat enkode otomatis yang bervariasi

Variational autoencoders (VAE) adalah model pembelajaran mendalam yang menghasilkan variasi data yang dilatih. Encoder memampatkan data input ke dalam ruang dimensi yang lebih rendah, menangkap informasi yang berarti yang terkandung dalam input. Sebuah decoder kemudian merekonstruksi data baru dari representasi terkompresi ini. Seperti GAN, VAE dapat digunakan untuk pembuatan gambar.

model transformator

Model transformator, seperti transformator pra-terlatih generatif (GPT), unggul dalam memahami struktur dan pola dalam bahasa. Mereka dapat digunakan untuk menghasilkan data teks sintetis untuk aplikasi pemrosesan bahasa alami atau untuk membuat data tabular buatan untuk tugas klasifikasi atau regresi.

5. Pertimbangkan keruntuhan model

Penting untuk mempertimbangkan keruntuhan model, di mana kinerja model menurun karena berulang kali dilatih pada data yang dihasilkan AI. Itulah mengapa sangat penting untuk mendasarkan proses pembuatan data sintetis dalam data nyata.

Di InstructLab, misalnya, pembuatan data sintetis didorong oleh taksonomi, yang mendefinisikan domain atau topik tempat data asli berasal. Hal ini mencegah model menentukan data yang harus digunakan untuk melatihnya.

"Anda tidak meminta model untuk terus berputar-putar dan runtuh. Kami sepenuhnya menghindari keruntuhan dengan memisahkan model dari proses pengambilan sampel," ujar Srivastava.

6. Menggunakan metode validasi

Data berkualitas tinggi sangat penting untuk kinerja model. Verifikasi kualitas data sintetis dengan menggunakan metrik berbasis kesetiaan dan utilitas. Kesetiaan mengacu kepada seberapa dekat kumpulan data sintetis menyerupai kumpulan data dunia nyata. Utilitas mengevaluasi seberapa baik data sintetis dapat digunakan untuk melatih pembelajaran mendalam atau model ML.

Fidelitas

Mengukur fidelitas melibatkan perbandingan data sintetis dengan data asli, sering kali dengan menggunakan metode statistik dan visualisasi seperti histogram. Ini membantu menentukan apakah kumpulan data yang dihasilkan mempertahankan sifat statistik dari kumpulan data asli, seperti distribusi, rata-rata, median, rentang, dan varians, dan lain-lain.

Menilai kesamaan korelasional melalui koefisien korelasi dan kontingensi, misalnya, juga penting untuk membantu memastikan ketergantungan dan hubungan antara titik data dipertahankan dan secara akurat merepresentasikan pola dunia nyata. Neural networks, model generatif, dan model bahasa biasanya terampil dalam menangkap hubungan dalam data tabular dan data deret waktu.

Kegunaan

Mengukur utilitas melibatkan penggunaan data sintetis sebagai data pelatihan untuk model machine learning, kemudian membandingkan kinerja model tersebut dengan model yang dilatih menggunakan data nyata. Berikut adalah beberapa metrik umum untuk benchmarking:

  • Akurasi atau presisi menghitung persentase prediksi yang benar.

  • Ingat mengukur prediksi yang benar yang sebenarnya.

  • Skor F1 menggabungkan akurasi dan penarikan kembali ke dalam satu metrik.

  • Baik skor awal maupun jarak awal Fréchet (FID) mengevaluasi kualitas gambar yang dihasilkan.

Penyedia atau alat pembuatan data sintetis mungkin sudah menyediakan metrik ini, tetapi Anda juga dapat menggunakan paket analitik lain seperti SDMetrics (tautan berada di luar ibm.com), sebuah pustaka Python sumber terbuka untuk menilai data sintetis dalam bentuk tabel.

Sentuhan manusia masih sangat penting ketika memvalidasi data buatan, dan ini bisa sesederhana mengambil 5 hingga 10 sampel acak dari kumpulan data sintetis dan menilainya sendiri. “Anda harus memiliki manusia untuk melakukan verifikasi,” kata Srivastava. “Ini adalah sistem yang sangat rumit, dan seperti halnya sistem yang rumit lainnya, ada banyak titik-titik rumit yang bisa saja terjadi kesalahan. Andalkan metrik, andalkan tolok ukur, uji pipeline Anda dengan ketat, tetapi selalu ambil beberapa sampel acak dan periksa secara manual apakah sampel tersebut memberikan data yang Anda inginkan.”

7. Jaga privasi data di atas pikiran

Salah satu keuntungan menggunakan data sintetis adalah tidak mengandung data sensitif atau PII. Namun, perusahaan tetap harus Verify bahwa data baru yang mereka hasilkan sesuai dengan peraturan privasi. Seperti Peraturan Perlindungan Data Umum (GDPR) Uni Eropa atau Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan AS (HIPAA).

Perlakukan data sintetis seperti data hak milik, terapkan langkah-langkah keamanan bawaan dan kontrol akses untuk mencegah peretasan dan kebocoran data. Perlindungan juga harus diterapkan selama proses pembuatan untuk mencegah risiko data sintetis direkayasa dan ditelusuri kembali ke data aslinya, sehingga mengungkapkan informasi sensitif selama analisis data. Perlindungan ini mencakup teknik seperti penyembunyian untuk menyembunyikan atau menutupi data sensitif, anonimisasi untuk menggosok atau menghapus PII, dan privasi diferensial untuk menambahkan “noise” atau memperkenalkan keacakan pada kumpulan data.

“Paling tidak, Anda harus menyembunyikan atau mengaburkan PII, atau bahkan menggunakan metode privasi diferensial,” kata Srivastava. “Hal ini menjadi sangat penting jika Anda tidak menggunakan model lokal. Jika Anda mengirim data ke penyedia pihak ketiga, Anda harus lebih berhati-hati lagi dengan aspek-aspek tersebut.”

Perhatikan bahwa data sintetis biasanya tidak dapat dioptimalkan secara bersamaan untuk kesetiaan, utilitas, dan privasi—sering akan ada pertukaran. Masking atau anonimisasi secara nominal dapat mengurangi utilitas, sementara privasi diferensial mungkin sedikit menurunkan akurasi. Namun, tidak menerapkan langkah-langkah privasi apa pun berpotensi mengekspos PII. Organisasi harus menyeimbangkan dan memprioritaskan apa yang penting untuk contoh penggunaan spesifik mereka.

8. Mendokumentasikan, memantau, dan menyempurnakan

Catat alur kerja pembuatan data sintetis Anda, seperti Strategi untuk membersihkan dan menyiapkan kumpulan data asli, mekanisme untuk menghasilkan data dan menjaga privasi, dan hasil verifikasi. Sertakan alasan di balik pilihan dan keputusan Anda untuk akuntabilitas dan transparansi.

Dokumentasi memainkan peran penting dalam tinjauan berkala terhadap proses pembuatan data sintetis. Catatan ini berfungsi sebagai jejak audit yang memungkinkan evaluasi efektivitas serta memastikan alur kerja dapat direproduksi dengan konsisten.

Pantau secara rutin bagaimana data sintetis digunakan dan bagaimana kinerjanya untuk mengidentifikasi perilaku tak terduga yang mungkin muncul atau peluang untuk perbaikan. Sesuaikan dan sempurnakan proses pembuatan sesuai kebutuhan.

Sama seperti serat adalah dasar dari kain, data adalah blok bangunan model AI. Dan sementara pembuatan data sintetis masih dalam tahap awal. Kemajuan dalam proses pembuatannya dapat membantu meningkatkan data sintetis di masa depan hingga mencapai titik di mana data tersebut dapat menyamai kualitas, keandalan, dan kegunaan data yang sebenarnya, mirip dengan cara serat sintetis yang hampir menyamai serat alami.

 

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Catatan kaki

1 3 Prediksi Berani dan Dapat Ditindaklanjuti untuk Masa Depan GenAI (tautan berada di luar ibm.com), Gartner, 12 April 2024

Solusi terkait
Alat dan solusi analitik

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
IBM Cognos Analytics

Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.

Jelajahi Cognos Analytics
Ambil langkah selanjutnya

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik Temukan layanan analitik