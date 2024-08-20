Saat kecerdasan buatan mengubah berbagai industri, pengembang menghadapi tantangan baru: kurangnya data dunia nyata berkualitas tinggi untuk melatih model yang semakin canggih. Kini, muncul solusi potensial dari sumber yang tidak terduga—data yang sebenarnya tidak ada di dunia nyata.
Data sintetisinformasi yang dihasilkan secara artifisial untuk meniru skenario dunia nyata, semakin populer dalam pengembangan AI. Teknologi ini menjanjikan solusi untuk kekurangan data, masalah privasi, dan biaya tinggi. Namun, seiring perkembangannya, pertanyaan tentang keterbatasan serta dampaknya di dunia nyata semakin mencuat.
Buletin industri
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Raksasa teknologi bertaruh besar pada data sintetis. NVIDIA baru-baru ini memperkenalkan Nemotron-4 340B, keluarga model terbuka yang dirancang untuk menghasilkan data sintetis guna melatih model bahasa besar (LLM) di berbagai industri. Langkah ini mengatasi tantangan penting dalam pengembangan AI: tingginya biaya dan sulitnya mendapatkan kumpulan data yang kuat.
“Data pelatihan berkualitas tinggi berperan penting dalam menentukan kinerja, akurasi, dan kualitas tanggapan LLM khusus,” tulis NVIDIA di blognya. Keluarga Nemotron-4 340B mencakup model dasar, instruksi, dan penghargaan yang membentuk saluran untuk menghasilkan dan menyempurnakan data sintetis, berpotensi mempercepat pengembangan LLM khusus domain yang kuat.
Peneliti IBM®, Akash Srivastava, menjelaskan bahwa dalam konteks model bahasa besar, data sintetis biasanya dihasilkan oleh satu model AI untuk melatih atau menyesuaikan model AI lain. “Para peneliti dan pengembang di industri menggunakan model ini untuk membuat data bagi tugas tertentu,” kata Srivastava.
Peneliti dari MIT-IBM® Watson AI Lab dan IBM® Research baru-baru ini memperkenalkan pendekatan baru untuk meningkatkan LLM dengan data sintetis. Metode ini, bernama LAB (Large Alignment for ChatBots), bertujuan mengurangi ketergantungan pada anotasi manusia dan model AI eksklusif seperti GPT-4.
LAB menggunakan proses pembuatan data sintetis yang dipandu taksonomi dan kerangka kerja multi-fase. Para peneliti melaporkan bahwa “model yang dilatih di LAB dapat mencapai kinerja kompetitif pada beberapa tolok ukur dibandingkan model yang dilatih dengan data sintetis tradisional buatan manusia atau GPT-4.”
Untuk menunjukkan efektivitas LAB, tim mengembangkan dua model, LABRADORITE-13B dan MERLINITE-7B, yang dilaporkan mengungguli versi lain yang disesuaikan dari model dasar yang sama pada sejumlah metrik utama. Para peneliti menggunakan model Mixtral sumber terbuka untuk menghasilkan data pelatihan sintetis, yang berpotensi menjadi pendekatan lebih hemat biaya untuk meningkatkan LLM.
Kualitas data sintetis sangat menentukan efektivitasnya. Raul Salles de Padua, Director of Engineering, AI, and Quantum di Multiverse Computing, menjelaskan, “Akurasi kemiripan data sintetis dinilai dengan membandingkannya dengan data dunia nyata melalui uji statistik dan analitis.” Ini mencakup penilaian seberapa baik data sintetis mempertahankan sifat statistik utama seperti rata-rata, varians, dan korelasi antar variabel.
Terlepas dari janjinya, data sintetis bukannya tanpa tantangan. De Padua menjelaskan, “Tantangan data sintetis terletak pada menciptakan data yang berguna sekaligus menjaga privasi.” Tanpa perlindungan ini, data sintetis bisa mengungkapkan informasi pribadi, berisiko menimbulkan pencurian identitas, diskriminasi, atau pelanggaran privasi lainnya.
Riset terbaru menemukan potensi masalah ketika terlalu bergantung pada data sintetis. Sebuah penelitian terbaru yang diterbitkan di Nature mengungkap fenomena yang disebut “keruntuhan model.” Ketika model AI terus-menerus dilatih pada teks yang dihasilkan AI, outputnya bisa semakin menyimpang dan tidak masuk akal, menimbulkan kekhawatiran tentang kelayakan jangka panjang penggunaan data sintetis, terutama saat konten AI makin mendominasi dunia online.
Pertimbangan etis juga sangat penting. De Padua memperingatkan tentang “risiko data sintetis yang tidak mewakili keberagaman populasi dunia nyata secara akurat, sehingga dapat menimbulkan bias dalam model yang gagal berkinerja adil di berbagai kelompok demografis.”
Dalam aplikasi penting seperti perawatan kesehatan dan kendaraan otonom, data sintetis dapat berperan penting. De Padua mencatat, “Dalam perawatan kesehatan, data sintetis dapat melengkapi kumpulan data nyata, menyediakan skenario lebih luas untuk pelatihan model, sehingga meningkatkan kemampuan diagnostik dan prediktif.” Untuk kendaraan otonom, ia menambahkan, “Dengan menggunakan data sintetis untuk augmentasi, model dapat terpapar berbagai kondisi dan kasus ekstrem yang mungkin tidak ada dalam kumpulan data asli.”
Melihat ke depan, de Padua yakin data sintetis akan lebih melengkapi daripada menggantikan data dunia nyata dalam pelatihan AI. “Keakuratan dan representasi data sintetis sangat penting.” “Kemajuan teknologi dalam algoritma pembuatan data akan berperan penting dalam meningkatkan keandalan data sintetis,” jelasnya.
Karena AI semakin terintegrasi dalam kehidupan sehari-hari, dari diagnostik kesehatan hingga mobil swadaya, keseimbangan antara data sintetis dan data dunia nyata dalam pelatihan AI akan menjadi sangat penting. Tantangan bagi pengembang AI ke depan adalah memanfaatkan keunggulan data sintetis sambil meminimalkan risikonya.
“Kami berada di titik penting dalam pengembangan AI,” kata Srivastava. “Menemukan keseimbangan tepat antara data sintetis dan data dunia nyata akan menentukan masa depan AI—kemampuannya, keterbatasannya, dan akhirnya dampaknya pada masyarakat.”
Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.
Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.
Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Pelajari 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI tepercaya.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.