Setelah data untuk model tertentu telah dikurasi, model itu sendiri siap untuk menghasilkan datanya sendiri berdasarkan data pelatihan, sebuah proses yang dikenal sebagai pembuatan data sintetis. Keunikan pendekatan InstructLab dalam tahap pelatihan LLM terletak pada seberapa besar proses tersebut dijalankan dan seberapa akurat data yang mampu dihasilkannya. Dengan kembali mengandalkan metode Large-scale Alignment for chatBots (LAB), pendekatan InstructLab menambahkan satu langkah otomatis untuk semakin menyempurnakan jawaban yang dihasilkan LLM guna memastikan akurasinya.

Data baru yang dihasilkan selama langkah ini, yang sangat penting untuk pelatihan semua LLM, bukan hanya InstructLab, bergantung pada apa yang dikenal sebagai model "guru", model yang lebih besar yang menghasilkan label dan data untuk model "siswa" yang lebih kecil dan lebih efisien untuk dipelajari.

Dengan metode LAB, LLM InstructLab tidak benar-benar menggunakan data yang disimpan oleh model guru melainkan prompt spesifik yang secara eksponensial meningkatkan kumpulan data sambil secara bersamaan memastikan bahwa contoh yang dihasilkan oleh model “siswa” tetap sejalan dengan tujuan LLM yang dimaksudkan.

Menurut IBM® Research, pendekatan ini “Secara sistematis menghasilkan data sintetis untuk berbagai tugas yang Anda ingin chatbot Anda selesaikan, dan untuk mengasimilasi pengetahuan dan kemampuan baru ke dalam model dasar, tanpa mengganti apa yang telah dipelajari model.”