Alat persiapan data sumber terbuka untuk model bahasa besar

Rekan pria berbicara dengan kolega wanita menunjuk data pada grafik

Model bahasa besar (LLM) sumber terbuka menjadi favorit karena lebih memudahkan siapa pun untuk memodifikasi dan menggunakannya. Tetapi manfaat dari sumber terbuka hilang jika menyiapkan data yang diperlukan untuk melatih dan menyesuaikan model itu mahal dan memakan waktu.

“Setiap percakapan dalam AI dimulai dengan model dan, pada kenyataannya, berakhir dengan data,” kata Petros Zerfos, Principal Research Scientist of Data Engineering for Generative AI di IBM Research. Untuk perusahaan, itu sering berarti bahwa tim AI benar-benar menghabiskan lebih banyak waktu menyiapkan data untuk model daripada pada model itu sendiri, kata Zerfos.

Solusinya? Beberapa perusahaan teknologi besar menggunakan alat persiapan data sumber terbuka. Misalnya, Data Prep Kit dari IBM dan NVIDIA NeMo Curator lebih memudahkan perusahaan dari semua ukuran untuk melatih dan menyempurnakan LLM, memungkinkan mereka mendapatkan nilai dari aplikasi AI dengan lebih cepat dan hemat biaya.

Tantangan data

Ketika perusahaan berlomba untuk mengembangkan dan menerapkan aplikasi LLM dan AI, salah satu hambatan terbesar adalah persiapan data. Faktanya, 79% tim AI perusahaan yang disurvei dalam laporan Gartner Explore Data-Centric AI Solutions to Streamline AI Development 2023 mengatakan tugas strategis paling umum yang mereka lakukan adalah persiapan data dan generasi.

Persiapan data umumnya terjadi selama dua tahap kunci dalam pengembangan LLM. Pada tahap prapelatihan, model dilatih dengan ratusan terabyte data sehingga mereka dapat memahami bahasa Inggris sederhana dan memperoleh pengetahuan dan nuansa yang cukup di berbagai domain. Menurut Zerfos, model prapelatihan dari awal membutuhkan ratusan orang dan jutaan dolar, jadi hanya perusahaan yang sangat besar — atau beberapa perusahaan rintisan dengan modal memadai — yang memiliki sumber daya untuk melakukannya.

Pada tahap kedua persiapan data, tim AI menggunakan volume data yang ditargetkan yang lebih kecil untuk menyempurnakan LLM sehingga mereka dapat menghasilkan teks yang lebih akurat dan relevan. Beberapa perusahaan yang sangat besar dengan sumber daya yang cukup melakukan kedua fase, tetapi sebagian besar perusahaan berfokus pada persiapan data untuk menyempurnakan model yang telah dibangun oleh pihak lain.

Alat persiapan data sumber terbuka

Beberapa perusahaan, termasuk IBM dan NVIDIA, baru-baru ini menjadikan berbagai alat sebagai sumber terbuka untuk membantu pengembang mengatasi tugas sulit persiapan data tidak terstruktur. Data Prep Kit dari IBM adalah pustaka modul yang dapat dimasukkan pengembang ke saluran mereka untuk mengkurasi data baik dalam tahap prapelatihan atau penyempurnaan.  Modul bekerja dengan dokumen sumber yang berisi data tidak terstruktur seperti teks (misalnya, PDF) dan kode (HTML) dan dapat digunakan untuk membuat anotasi, mengubah, dan memfilter data.

Tim IBM menjadikan semua alat ini sumber terbuka untuk membuatnya dapat diakses oleh perusahaan dari semua ukuran, kata Zerfos. “Pengembang tidak perlu melakukan sesuatu yang istimewa baik saat menjalankannya di laptop, server, atau klaster,” katanya. “Alat juga dapat berjalan di infrastruktur cloud apa pun.”

Sejak diluncurkan pada Mei 2024, pengembang telah bereksperimen dengan kerangka kerja Data Prep Kit dan modulnya, yang dapat diakses melalui GitHub. Beberapa anggota AI Alliance, komunitas yang mencakup perusahaan teknologi besar dan kecil, juga telah mulai menguji bagaimana modul tertentu dapat merampingkan dan mempercepat pelatihan dan penyempurnaan, kata Zerfos.

Raksasa perangkat keras dan perangkat lunak AI NVIDIA baru-baru ini juga menjadikan serangkaian modul persiapan data sebagai sumber terbuka untuk meningkatkan keakuratan model AI generatif. NVIDIA NeMo Curator memproses teks, gambar, dan data video dalam skala besar. Platform ini juga menyediakan saluran yang dibangun sebelumnya untuk menghasilkan data sintetis untuk menyesuaikan dan mengevaluasi sistem AI generatif.

Salah satu tugas yang dijanjikan untuk dipercepat oleh NeMo Curator dari NVIDIA adalah deduplikasi. Saat mengunduh data dari sumber web-crawl masif seperti Common Crawl, biasanya model menemukan dokumen yang merupakan duplikat persis satu sama lain dan dokumen yang hampir duplikat. 

Menggunakan versi NeMo Curator mendatang, pengembang alat mengatakan organisasi akan dapat menyelesaikan tugas deduplikasi ini 20 kali lebih cepat dan lima kali lebih murah daripada yang mereka lakukan saat ini. 

Memang benar, menjadikan semua alat ini sebagai sumber terbuka membuatnya lebih mudah diakses. Namun, tim AI Perusahaan masih membutuhkan tingkat keterampilan dan pelatihan tertentu untuk menghasilkan nilai dari alat ini, seperti yang diperingatkan oleh para pakar seperti Mark A. Beyer, Distinguished VP Analyst di Gartner.

“Hanya memberikan seseorang alat tanpa bimbingan, metodologi, dan fungsi untuk mendukungnya akan mulai berubah menjadi eksperimen," katanya. “Ini bisa memakan waktu empat hingga lima kali lebih lama daripada hanya memanfaatkan alat yang ada.”

Namun, ke depan, Ben Lorica, pembawa acara podcast The Data Exchange, melihat potensi besar untuk alat persiapan data seiring dengan peningkatan penggunaan data multimodal oleh perusahaan—meskipun ini masih permulaan.

“Karena aplikasi Anda bergantung pada peningkatan jumlah video dan audio selain teks, Anda akan memerlukan semacam alat yang memungkinkan Anda untuk menskalakan dan menggunakan kumpulan data yang lebih besar serta memanfaatkan perangkat keras apa pun yang Anda miliki,” katanya. "Khususnya di dunia agen, data akan menjadi pembeda. Anda tentu ingin mengakses data yang tepat pada waktu yang tepat.”