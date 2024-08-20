Raksasa teknologi bertaruh besar pada data sintetis. NVIDIA baru-baru ini memperkenalkan Nemotron-4 340B, keluarga model terbuka yang dirancang untuk menghasilkan data sintetis guna melatih model bahasa besar (LLM) di berbagai industri. Langkah ini mengatasi tantangan penting dalam pengembangan AI: tingginya biaya dan sulitnya mendapatkan kumpulan data yang kuat.

“Data pelatihan berkualitas tinggi berperan penting dalam menentukan kinerja, akurasi, dan kualitas tanggapan LLM khusus,” tulis NVIDIA di blognya. Keluarga Nemotron-4 340B mencakup model dasar, instruksi, dan penghargaan yang membentuk saluran untuk menghasilkan dan menyempurnakan data sintetis, berpotensi mempercepat pengembangan LLM khusus domain yang kuat.

Peneliti IBM®, Akash Srivastava, menjelaskan bahwa dalam konteks model bahasa besar, data sintetis biasanya dihasilkan oleh satu model AI untuk melatih atau menyesuaikan model AI lain. “Para peneliti dan pengembang di industri menggunakan model ini untuk membuat data bagi tugas tertentu,” kata Srivastava.

Peneliti dari MIT-IBM® Watson AI Lab dan IBM® Research baru-baru ini memperkenalkan pendekatan baru untuk meningkatkan LLM dengan data sintetis. Metode ini, bernama LAB (Large Alignment for ChatBots), bertujuan mengurangi ketergantungan pada anotasi manusia dan model AI eksklusif seperti GPT-4.

LAB menggunakan proses pembuatan data sintetis yang dipandu taksonomi dan kerangka kerja multi-fase. Para peneliti melaporkan bahwa “model yang dilatih di LAB dapat mencapai kinerja kompetitif pada beberapa tolok ukur dibandingkan model yang dilatih dengan data sintetis tradisional buatan manusia atau GPT-4.”

Untuk menunjukkan efektivitas LAB, tim mengembangkan dua model, LABRADORITE-13B dan MERLINITE-7B, yang dilaporkan mengungguli versi lain yang disesuaikan dari model dasar yang sama pada sejumlah metrik utama. Para peneliti menggunakan model Mixtral sumber terbuka untuk menghasilkan data pelatihan sintetis, yang berpotensi menjadi pendekatan lebih hemat biaya untuk meningkatkan LLM.

Kualitas data sintetis sangat menentukan efektivitasnya. Raul Salles de Padua, Director of Engineering, AI, and Quantum di Multiverse Computing, menjelaskan, “Akurasi kemiripan data sintetis dinilai dengan membandingkannya dengan data dunia nyata melalui uji statistik dan analitis.” Ini mencakup penilaian seberapa baik data sintetis mempertahankan sifat statistik utama seperti rata-rata, varians, dan korelasi antar variabel.

Terlepas dari janjinya, data sintetis bukannya tanpa tantangan. De Padua menjelaskan, “Tantangan data sintetis terletak pada menciptakan data yang berguna sekaligus menjaga privasi.” Tanpa perlindungan ini, data sintetis bisa mengungkapkan informasi pribadi, berisiko menimbulkan pencurian identitas, diskriminasi, atau pelanggaran privasi lainnya.

Riset terbaru menemukan potensi masalah ketika terlalu bergantung pada data sintetis. Sebuah penelitian terbaru yang diterbitkan di Nature mengungkap fenomena yang disebut “keruntuhan model.” Ketika model AI terus-menerus dilatih pada teks yang dihasilkan AI, outputnya bisa semakin menyimpang dan tidak masuk akal, menimbulkan kekhawatiran tentang kelayakan jangka panjang penggunaan data sintetis, terutama saat konten AI makin mendominasi dunia online.

Pertimbangan etis juga sangat penting. De Padua memperingatkan tentang “risiko data sintetis yang tidak mewakili keberagaman populasi dunia nyata secara akurat, sehingga dapat menimbulkan bias dalam model yang gagal berkinerja adil di berbagai kelompok demografis.”