Dalam berbagai pengaturan dunia nyata, akurasi dan kapasitas model kecerdasan buatansendiri tidak cukup untuk membuat model berguna: hal ini juga harus sesuai dengan anggaran waktu, memori, uang, dan sumber daya komputasi yang tersedia.
Model dengan performa terbaik untuk tugas tertentu sering kali terlalu besar, lambat, atau mahal untuk sebagian besar contoh penggunaan praktis—tetapi kerap memiliki kualitas unik yang muncul dari kombinasi ukuran dan kapasitasnya untuk melakukan pra-pelatihan pada data latihan dalam jumlah yang sangat besar. Kemampuan yang muncul ini terutama terlihat dalam model bahasa autoregresif, seperti GPT atau Llama, yang menunjukkan kemampuan di luar tujuan pelatihan eksplisit mereka untuk hanya memprediksi kata berikutnya dalam urutan. Sebaliknya, model kecil lebih cepat dan tidak terlalu menuntut komputasi, tetapi tidak memiliki akurasi, detail, dan kapasitas pengetahuan model besar dengan lebih banyak parameter.
Dalam makalah penting tahun 2015, "Menyaring Pengetahuan dalam Neural Networks Tiruan," Hinton et al mengusulkan untuk menghindari keterbatasan ini dengan membagi pelatihan menjadi dua tahap yang berbeda dengan tujuan yang berbeda. Para penulis memberikan analogi: ketika banyak serangga memiliki bentuk larva yang dioptimalkan untuk mengekstraksi energi dan nutrisi dari lingkungan dan bentuk dewasa yang sama sekali berbeda yang dioptimalkan untuk perjalanan dan reproduksi, pembelajaran mendalam konvensional menggunakan model yang sama untuk tahap pelatihan dan penyebaran, meskipun kebutuhannya berbeda.
Mengambil inspirasi dari alam dan karya Caruana et al, Hinton et al menyarankan bahwa melatih model yang besar dan rumit adalah hal yang bermanfaat jika hal tersebut merupakan cara terbaik untuk mengekstrak struktur dari data—tetapi memperkenalkan jenis pelatihan yang berbeda, distilasi, untuk mentransfer pengetahuan tersebut ke model kecil yang lebih cocok untuk penerapan waktu nyata.2
Teknik distilasi pengetahuan bertujuan untuk tidak hanya mereplikasi hasil dari model guru, tetapi juga meniru "proses berpikir" mereka. Di era LLM, KD telah memungkinkan transfer kualitas abstrak seperti gaya, kemampuan penalaran, dan penyelarasan dengan preferensi dan nilai manusia.3
Selain itu, model yang lebih kecil pada dasarnya lebih dapat dijelaskan: dalam model dengan ratusan miliar parameter, sulit untuk menafsirkan kontribusi dari berbagai bagian neural networks. Mentransfer representasi yang dipelajari oleh model "kotak hitam" yang besar ke model yang lebih sederhana dapat membantu menjelaskan insight transformatif di sejumlah bidang seperti diagnostik medis dan penemuan molekuler.4