InstructLab adalah metode untuk melatih model AI yang bertujuan secara drastis meningkatkan kemampuan LLM yang digunakan dalam membangun aplikasi gen AI.
Instruct Lab dikembangkan oleh IBM® Research dan RedHat, ini adalah proyek sumber terbuka, yang berarti bergantung pada komunitas pengembang global (dikenal sebagai komunitas InstructLab) untuk membangun dan memelihara.
Proyek InstructLab diciptakan untuk alamat masalah yang membatasi pengembangan model bahasa besar (LLM), terutama biaya dan kompleksitas pelatihan dan pengumpulan data dan kesulitan menyumbangkan keterampilan dan pengetahuan.
Menurut Forbes, InstructLab telah meningkatkan kinerja LLM dan menyelesaikan beberapa tantangan penskalaan pelatihan LLM tradisional, menghilangkan kebutuhan perusahaan untuk membangun dan memelihara beberapa LLM. Hal ini sebagian besar dimungkinkan karena metode pelatihan LLM yang dikenal sebagai Large Alignment for ChatBots, atau LAB, yang dikembangkan oleh IBM®.
Chatbot paling kuat saat ini, seperti Siri, Alexa, dan ChatGPT, semuanya bergantung pada LLM yang telah dilatih sebelumnya, memungkinkan mereka mempelajari tugas dengan cepat selama proses penyelarasan AI. Tetapi mendapatkan kecerdasan buatan ke tingkat itu bisa mahal dan memakan waktu, dan model yang muncul seringkali tidak memiliki kedalaman yang diperlukan untuk melewati situasi yang kompleks, bernuansa, seperti manusia. Menurut IBM® Institute of Business Value, eksekutif mengharapkan biaya rata-rata komputasi naik hampir 90% terutama karena tuntutan membangun LLM untuk aplikasi kecerdasan buatan generatif (gen AI).
Large Alignment for ChatBots (LAB) adalah metode menghasilkan data secara sintetis untuk berbabagi tugas tertentu yang diperlukan oleh chatbot untuk diselesaikan oleh organisasi. Tidak seperti metode pelatihan tradisional, ini memungkinkan chatbot untuk dengan cepat mengasimilasi informasi baru dan mempelajari keterampilan baru tanpa mengganti hal-hal yang telah mereka pelajari.
Pendekatan InstructLab untuk pengembangan dan pemeliharaan model bahasa besar (LLM) berbeda dari model lain karena menempatkan proses dengan kuat di tangan komunitas pengembang di seluruh dunia, sebuah proses yang dikenal sebagai AI sumber terbuka. Sebagaimana perangkat lunak sumber terbuka memberi ruang bagi pengembang untuk berkontribusi pada kode dan fitur, sumber terbuka AI juga memberi mereka kemampuan untuk menambah skill baru dan menyempurnakan model yang ada dengan cepat.
Didukung oleh metode LAB, pendekatan InstructLab untuk membangun LLM berbeda dari yang lain dalam tiga cara penting:
Dalam pelatihan LLM, taksonomi adalah struktur hierarkis yang mengkategorikan bidang keterampilan dan pengetahuan yang penting untuk aplikasi yang dimaksudkan LLM. Misalnya, taksonomi untuk LLM yang akan diterapkan pada kendaraan otonom akan berbeda secara signifikan dari yang diterapkan pada riset medis dengan cara yang sama seorang driver mobil balap harus mempelajari keterampilan yang berbeda dari seorang dokter.
Data InstructLab disusun sedemikian rupa sehingga memudahkan pemahaman keterampilan dan basis pengetahuan model yang ada. Karena strukturnya sederhana, InstructLab membuat pengembang lebih mudah menemukan celah dan melengkapi pengetahuan maupun keterampilan yang masih kurang. This kurasi data yang digerakkan oleh taksonomi juga memungkinkan model untuk ditargetkan secara khusus untuk contoh penggunaan baru, seperti riset atau aplikasi Internet of Things (IoT) tertentu, dan diberikan keterampilan yang sesuai.
Untuk tujuan ini, pendekatan InstructLab sangat bergantung pada YAML (“YAML Ain't No Markup Language,” atau “Yet Another Markup Language”) format standar untuk mewakili data dengan cara yang mudah ditafsirkan oleh manusia dan mesin. Pendekatan YAML membuka jalan bagi langkah kunci berikutnya dalam proses InstructLab: pembuatan data sintetis skala besar.
Setelah data untuk model tertentu telah dikurasi, model itu sendiri siap untuk menghasilkan datanya sendiri berdasarkan data pelatihan, sebuah proses yang dikenal sebagai pembuatan data sintetis. Keunikan pendekatan InstructLab dalam tahap pelatihan LLM terletak pada seberapa besar proses tersebut dijalankan dan seberapa akurat data yang mampu dihasilkannya. Dengan kembali mengandalkan metode Large-scale Alignment for chatBots (LAB), pendekatan InstructLab menambahkan satu langkah otomatis untuk semakin menyempurnakan jawaban yang dihasilkan LLM guna memastikan akurasinya.
Data baru yang dihasilkan selama langkah ini, yang sangat penting untuk pelatihan semua LLM, bukan hanya InstructLab, bergantung pada apa yang dikenal sebagai model "guru", model yang lebih besar yang menghasilkan label dan data untuk model "siswa" yang lebih kecil dan lebih efisien untuk dipelajari.
Dengan metode LAB, LLM InstructLab tidak benar-benar menggunakan data yang disimpan oleh model guru melainkan prompt spesifik yang secara eksponensial meningkatkan kumpulan data sambil secara bersamaan memastikan bahwa contoh yang dihasilkan oleh model “siswa” tetap sejalan dengan tujuan LLM yang dimaksudkan.
Menurut IBM® Research, pendekatan ini “Secara sistematis menghasilkan data sintetis untuk berbagai tugas yang Anda ingin chatbot Anda selesaikan, dan untuk mengasimilasi pengetahuan dan kemampuan baru ke dalam model dasar, tanpa mengganti apa yang telah dipelajari model.”
Pada langkah terakhir dari proses InstructLab/Lab, LLM dilatih ulang pada data sintetis yang telah dipelajarinya, menyempurnakan keterampilannya dan meningkatkan keakuratan jawabannya. Langkah terakhir ini dibagi menjadi dua fase:
LLM yang dilatih pada metode yang lebih tradisional biasanya menggunakan proses yang disebut retrieval-augmented generation (RAG) untuk melengkapi pengetahuan mereka dengan pelatihan yang lebih fokus dan spesifik domain. RAG adalah alat yang berguna bagi organisasi yang perlu menambahkan data kepemilikan ke model dasar yang ada untuk tujuan tertentu tanpa melepaskan kendali atas data kepemilikannya.
Metode InstructLab/LAB dapat digunakan seperti proses RAG biasa, tetapi bukan menambahkan pengetahuan yang sudah ada, metode ini justru lebih menekankan kontribusi komunititas pengguna untuk membangun pengetahuan dan keterampilan yang relevan. Organisasi yang ingin melakukan penyempurnaan LLM untuk tujuan tertentu dapat menggunakan RAG dan InstructLab/Lab untuk mencapai hasil yang ideal.
Ketika aplikasi AI menjadi lebih menuntut, LLM untuk mendukungnya semakin besar dan lebih kompleks, dan kemudian menempatkan tuntutan yang lebih ketat pada infrastruktur AI yang mendasarinya. InstructLab/LAB, seperti semua metode pelatihan model lanjutan lainnya, bergantung pada infrastruktur intensif GPUyang mampu memenuhi tolok ukur kinerja yang diperlukan untuk terus melatih kembali model AI sesuai dengan kontribusi dari komunitas sumber terbuka globalnya di github.com/instructlab.
Untungnya, IBM® dikhususkan untuk menyediakan semua penyimpanan data, manajemen, alur kerja, dan praktik yang diperlukan untuk keberhasilan proyek LLM.
Saat ini, LLM mendukung berbagai contoh penggunaan AI yang paling menarik, mulai dari chatbot AI generatif dan asisten pengodean hingga komputasi edge, aplikasi Internet of Things (IoT), dan banyak lagi. Mereka dapat berupa model berpemilik, seperti OpenAI dan Claude, atau model yang malah mengandalkan prinsip-prinsip sumber terbuka ketika datang ke data pra-pelatihan yang mereka gunakan, seperti Mistral, Llama-2, dan model Granite IBM®.
InstructLab menonjol karena mampu mencapai dan bahkan melampaui kinerja model tertutup hanya dengan memanfaatkan model-model publik. IBM® watsonx, platform AI, dan data yang dirancang untuk membantu bisnis meningkatkan dan mempercepat dampak AI, sangat bergantung padanya. Misalnya, Merlinite-7B, model terlatih Lab baru-baru ini, mengungguli beberapa model eksklusif di bidang-bidang utama, menurut makalah riset IBM®.
Untuk memenuhi persyaratan aplikasi AI generatif canggih, pengembang sering mengandalkan LLM yang ada yang mereka adaptasi untuk memenuhi kebutuhan bisnis tertentu. Ambil contoh, sebuah perusahaan asuransi yang ingin membangun aplikasi gen AI untuk membantu karyawan mengumpulkan insight dari data pelanggan eksklusif. Hari ini, mereka mungkin akan membeli LLM yang ada yang dibangun untuk chatbots dan memodifikasinya sesuai dengan kebutuhan mereka. Tetapi pendekatan ini memiliki beberapa keterbatasan penting:
Metode InstructLab dapat melatih LLM menggunakan lebih sedikit input yang dihasilkan manusia dan sumber daya komputasi yang jauh lebih sedikit. Landasan dari metode pelatihan sebagian besar LLM modern, terutama yang mendukung chatbot yang kuat, adalah prapelatihan yang ekstensif pada kumpulan data besar teks tidak terstruktur. Walaupun metode ini membuat LLM dapat mempelajari skill baru dengan cepat pada tahap penyelarasan, biayanya mahal dan memerlukan banyak input manusia.
Pendekatan LAB, yang dikembangkan oleh IBM riset, menggunakan pembuatan data sintetis yang dipandu taksonomi untuk mengurangi biaya dan kebutuhan akan input manusia. Ditambah dengan pendekatan sumber terbuka InstructLab, berbasis komunitas untuk pengembangan, pendekatan ini secara efektif mendemokratisasikan pengembangan LLM yang diperlukan untuk aplikasi AI generatif.
Antarmuka Baris Perintah (CLI) InstructLab, kumpulan instruksi yang digunakan pengembang untuk mengelolanya, bahkan dibangun untuk berjalan pada perangkat yang banyak digunakan seperti laptop pribadi, dan pengembang didorong untuk menyumbangkan pengetahuan atau keterampilan baru melalui komunitas AI Hugging Face.
InstructLab mengambil pendekatan berbasis komunitas sumber terbuka untuk menyempurnakan LLM untuk berbagai contoh penggunaan. Berikut adalah beberapa yang paling umum.
LLM yang dikembangkan menggunakan pendekatan InstructLab dapat dilatih untuk memperoleh keterampilan dan pengetahuan baru untuk banyak aplikasi di industri perawatan kesehatan, mulai dari menjelajahi volume data klinis untuk membantu para ilmuwan membuat terobosan dalam riset medis hingga penilai risiko pasien dari riwayat medis dan banyak lagi.
Dalam perbankan, pendekatan InstructLab dapat membangun LLM dengan penekanan pada analisis perdagangan dan proyeksi model untuk membantu menemukan tren dan memperkirakan risiko yang terkait dengan strategi perdagangan. Ini juga dapat digunakan untuk melatih LLM untuk aplikasi gen AI dalam keuangan pribadi, seperti menabung untuk pensiun, penganggaran, dan banyak lagi.
LLM yang dilatih menggunakan pendekatan InstructLab dapat menggerakkan chatbot cerdas yang dilatih di bidang layanan pelanggan tertentu, seperti mengembalikan barang atau meminta produk tertentu. Selain itu, metode LAB dapat membantu penyempurnaan LLM untuk menjadi asisten virtual dengan serangkaian keterampilan yang kompleks, seperti menjadwalkan janji temu, memesan perjalanan, mengajukan pajak, dan banyak lagi.
Metode InstructLab membantu penyempurnaan LLM di balik aplikasi gen AI dalam pemasaran untuk berbagai tujuan. Mereka dapat belajar menjelajahi data pelanggan untuk insight tentang perilaku, preferensi produk, dan bahkan desain produk masa depan. Mereka juga dapat memperoleh keterampilan yang diperlukan untuk menawarkan saran produk yang disesuaikan, seperti ukuran sepatu atau pakaian, preferensi warna dan banyak lagi.
Aplikasi metode InstructLab untuk melatih LLM untuk membantu meningkatkan siklus hidup DevOps dapat memberikan manfaat bagi pengembang dalam beberapa cara penting. LLM yang dilatih menggunakan metode InstructLab dapat menghasilkan kode dan membuat skrip, mengotomatiskan penyediaan infrastruktur (aplikasi Infrastructure as Code (IaC)) dan mempersingkat serta meningkatkan pemecahan masalah rutin, pemecahan masalah, dan bahkan analisis serta peninjauan kode.