Apa itu distilasi pengetahuan?

Penyusun

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Apa itu distilasi pengetahuan?

Distilasi pengetahuan adalah teknik machine learning yang bertujuan untuk mentransfer pembelajaran dari model pra-terlatih besar, “model guru”, hingga “model siswa” yang lebih kecil. Proses ini digunakan dalam pembelajaran mendalam sebagai bentuk kompresi model dan transfer pengetahuan, terutama untuk neural networks dalam yang besar.

Tujuan distilasi pengetahuan adalah untuk melatih model yang lebih kompak untuk meniru model yang lebih besar dan lebih kompleks. Sedangkan tujuan dalam pembelajaran mendalam konvensional adalah untuk melatih neural networks buatan untuk membawa prediksinya lebih dekat ke contoh keluaran yang disediakan dalam kumpulan data pelatihan, tujuan utama dalam distilasi pengetahuan adalah untuk melatih jaringan siswa agar sesuai dengan prediksi yang dibuat oleh jaringan guru.

Distilasi pengetahuan (KD) paling sering diterapkan pada neural networks yang besar dengan banyak lapisan dan parameter model yang dapat dipelajari. Proses ini membuatnya sangat relevan dengan proliferasi model AI generatif yang sedang berlangsung dengan miliaran parameter.

Konsep ini berawal dari makalah tahun 2006 yang berjudul “Kompresi Model”. Caruana et al menggunakan model klasifikasi canggih pada saat itu, model ansambel besar yang terdiri dari ratusan pengklasifikasi tingkat dasar, untuk memberi label pada kumpulan data besar, dan kemudian melatih satu neural network pada kumpulan data baru tersebut. kumpulan data berlabel melalui pembelajaran yang diawasi konvensional. Model ringkas yang “seribu kali lebih kecil dan lebih cepat” ini cocok dengan kinerja ansambel tersebut.1

Teknik distilasi pengetahuan telah berhasil digunakan di berbagai bidang, termasuk pemrosesan bahasa alami (NLP), pengenalan ucapan, pengenalan gambar, dan deteksi objek. Dalam beberapa tahun terakhir, studi tentang distilasi pengetahuan sangat penting untuk model bahasa besar (LLM). Untuk LLM, KD telah muncul sebagai cara yang efektif untuk mentransfer kemampuan canggih dari model kepemilikan terkemuka ke model sumber terbuka yang lebih kecil dan lebih mudah diakses.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Mengapa distilasi pengetahuan begitu penting?

Dalam berbagai pengaturan dunia nyata, akurasi dan kapasitas model kecerdasan buatansendiri tidak cukup untuk membuat model berguna: hal ini juga harus sesuai dengan anggaran waktu, memori, uang, dan sumber daya komputasi yang tersedia.

Model dengan performa terbaik untuk tugas tertentu sering kali terlalu besar, lambat, atau mahal untuk sebagian besar contoh penggunaan praktis—tetapi kerap memiliki kualitas unik yang muncul dari kombinasi ukuran dan kapasitasnya untuk melakukan pra-pelatihan pada data latihan dalam jumlah yang sangat besar. Kemampuan yang muncul ini terutama terlihat dalam model bahasa autoregresif, seperti GPT atau Llama, yang menunjukkan kemampuan di luar tujuan pelatihan eksplisit mereka untuk hanya memprediksi kata berikutnya dalam urutan. Sebaliknya, model kecil lebih cepat dan tidak terlalu menuntut komputasi, tetapi tidak memiliki akurasi, detail, dan kapasitas pengetahuan model besar dengan lebih banyak parameter.

Dalam makalah penting tahun 2015, "Menyaring Pengetahuan dalam Neural Networks Tiruan," Hinton et al mengusulkan untuk menghindari keterbatasan ini dengan membagi pelatihan menjadi dua tahap yang berbeda dengan tujuan yang berbeda. Para penulis memberikan analogi: ketika banyak serangga memiliki bentuk larva yang dioptimalkan untuk mengekstraksi energi dan nutrisi dari lingkungan dan bentuk dewasa yang sama sekali berbeda yang dioptimalkan untuk perjalanan dan reproduksi, pembelajaran mendalam konvensional menggunakan model yang sama untuk tahap pelatihan dan penyebaran, meskipun kebutuhannya berbeda.

Mengambil inspirasi dari alam dan karya Caruana et al, Hinton et al menyarankan bahwa melatih model yang besar dan rumit adalah hal yang bermanfaat jika hal tersebut merupakan cara terbaik untuk mengekstrak struktur dari data—tetapi memperkenalkan jenis pelatihan yang berbeda, distilasi, untuk mentransfer pengetahuan tersebut ke model kecil yang lebih cocok untuk penerapan waktu nyata.2

Teknik distilasi pengetahuan bertujuan untuk tidak hanya mereplikasi hasil dari model guru, tetapi juga meniru "proses berpikir" mereka. Di era LLM, KD telah memungkinkan transfer kualitas abstrak seperti gaya, kemampuan penalaran, dan penyelarasan dengan preferensi dan nilai manusia.3

Selain itu, model yang lebih kecil pada dasarnya lebih dapat dijelaskan: dalam model dengan ratusan miliar parameter, sulit untuk menafsirkan kontribusi dari berbagai bagian neural networks. Mentransfer representasi yang dipelajari oleh model "kotak hitam" yang besar ke model yang lebih sederhana dapat membantu menjelaskan insight transformatif di sejumlah bidang seperti diagnostik medis dan penemuan molekuler.4

Akademi AI

Bangkitnya AI generatif untuk bisnis

Pelajari tentang sejarah kebangkitan AI generatif dan apa pengaruhnya bagi bisnis.

Bagaimana cara kerja distilasi pengetahuan?

Distilasi pengetahuan (KD) tidak bergantung pada arsitektur neural networks tertentu, dan bahkan tidak mengharuskan jaringan guru dan jaringan siswa memiliki arsitektur yang sama: KD dapat diterapkan pada model pembelajaran mendalam.

KD memanfaatkan fakta bahwa neural networks tiruan adalah "perkiraan universal": dengan data pelatihan yang cukup, dan lapisan tersembunyi yang cukup besar, neural networks dapat memperkirakan fungsi apa pun dengan presisi yang berubah-ubah.5

Dalam machine learning konvensional, "pengetahuan" dari model yang dilatih diidentifikasi dengan parameter yang dipelajari: bobot variabel (dan bias), yang diterapkan pada operasi matematika yang berbeda yang terjadi di seluruh neural networks, yang memperkuat atau mengurangi pengaruh bagian tertentu dari output jaringan pada bagian lain. Pandangan tentang pengetahuan ini menyulitkan kita untuk melihat bagaimana satu model dapat menyerap pengetahuan dari model lain dengan ukuran dan struktur yang berbeda.

Sebaliknya, Hinton et al menerapkan pandangan yang lebih abstrak dan fleksibel tentang pengetahuan sebagai "pemetaan yang dipelajari dari vektor input ke vektor output." Dengan kata lain, KD menginterpretasikan pengetahuan model bukan sebagai parameter matematis yang dipelajari secara ketat dalam pelatihan, tetapi sebagai cara model menyamaratakan data baru setelah pelatihan tersebut.

Melalui pemahaman alternatif tentang pengetahuan ini, metode distilasi pengetahuan bertujuan untuk melatih model siswa untuk meniru tidak hanya hasil akhir model guru untuk input yang diberikan, tetapi juga langkah-langkah penalaran yang diambil model guru untuk sampai pada hasil akhir tersebut. Secara konseptual, cara kerjanya mirip dengan penyetelan instruksi melalui petunjuk chain-of-thought (CoT), yang meningkatkan kualitas respons LLM dengan mengajarkan mereka untuk menyebutkan alasan "langkah demi langkah".

Dalam pembelajaran konvensional yang diawasi atau diawasi secara mandiri , fungsi kerugian menghasilkan vektor yang mewakili perbedaan (atau kerugian) antara output model dan output yang "benar" (atau kebenaran dasar) di seluruh input yang berbeda. Dengan menyesuaikan parameter model untuk meminimalkan kemiringan (atau gradien) vektor ini melalui algoritme pengoptimalan seperti gradient descent, output model akan semakin mendekati output yang benar. Meskipun langkah-langkah penalaran model adalah “penting” karena memengaruhi hasil akhirnya, tetapi biasanya tidak diukur dengan fungsi kerugian konvensional.

Distilasi pengetahuan, sebaliknya, juga melatih model siswa untuk meniru proses penalaran model guru melalui penambahan jenis fungsi kerugian khusus, kerugian distilasi, yang menggunakan langkah-langkah penalaran diskrit sebagai sasaran empuk untuk pengoptimalan.

Sasaran empuk

Output dari model AI apa pun dapat dipahami sebagai prediksi: LLM autoregresif memprediksi kata berikutnya dalam urutan yang ditentukan; model visi komputer yang digunakan untuk klasifikasi gambar memprediksi kategori gambar tertentu. Untuk sampai pada prediksi akhir ini, yang disebut "sasaran keras" dalam konteks ini, model pembelajaran mendalam biasanya membuat beberapa prediksi awal dan menggunakan fungsi softmax untuk menghasilkan prediksi dengan probabilitas tertinggi. Selama pelatihan, fungsi kerugian cross-entropy digunakan untuk memaksimalkan probabilitas yang ditetapkan untuk output yang benar dan meminimalkan probabilitas yang ditetapkan untuk output yang salah.

Sebagai contoh, sebuah model klasifikasi gambar memprediksi probabilitas gambar input yang termasuk dalam setiap kelas yang diketahui yang dilatih untuk dikenali oleh model tersebut, kemudian mengeluarkan kelas dengan nilai probabilitas tertinggi. Dalam istilah matematika machine learning, prediksi berdasarkan kelas ini disebut logit. Demikian pula, LLM autoregresif memprediksi beberapa kemungkinan untuk setiap kata berikutnya dan (tergantung pada pengaturan suhu ) mengambil sampel salah satu dari kemungkinan tersebut untuk outputnya.

Dalam distilasi pengetahuan, prediksi perantara —"sasaran empuk"—yang dihasilkan oleh model guru sering kali memberikan data pelatihan utama untuk model siswa. Probabilitas relatif yang diberikan pada prediksi awal ini memberikan wawasan yang berharga tentang bagaimana model guru cenderung menyamaratakan. Sebagai contoh, model klasifikasi gambar berkali-kali lebih mungkin salah mengklasifikasikan gambar rubah sebagai "anjing" daripada "sandwich". Dengan demikian sasaran empuk memberikan informasi yang jauh lebih banyak per kasus pelatihan daripada target keras saja.

Sasaran empuk juga memberikan konsistensi yang lebih baik daripada sasaran keras: prediksi akhir model pada akhirnya bergantung pada perbedaan yang sangat kecil antara dua nilai logit, tetapi nilai logit itu sendiri memiliki lebih sedikit varians dalam gradien di antara setiap contoh pelatihan.

Karena kekayaan dan stabilitas informasi yang diberikan oleh sasaran empuk, model siswa dapat dilatih dengan contoh pelatihan yang lebih sedikit, menggunakan kecepatan pemelajaran yang lebih tinggi, dibandingkan dengan yang digunakan untuk melatih model guru asli.

Kerugian distilasi

Untuk mendekatkan kecenderungan generalisasi jaringan siswa dengan jaringan guru, distilasi pengetahuan biasanya menggunakan dua fungsi kerugian. Yang pertama adalah fungsi kerugian standar yang beroperasi pada "kerugian besar", yang mengukur output akhir model siswa terhadap label kebenaran dasar (dalam pembelajaran yang diawasi) atau terhadap sampel data asli (dalam pembelajaran yang diawasi sendiri). Yang kedua adalah kerugian distilasi, "kerugian lunak" yang mengukur sasaran empuk model siswa terhadap sasaran empuk guru.

Karena mungkin ada beberapa sasaran empuk untuk setiap contoh pelatihan, kerugian distilasi mengukur perbedaan antara distribusi probabilitas sasaran lunak jaringan guru dan distribusi probabilitas siswa. Divergensi Kullback-Leibler (atau “divergensi KL”) umumnya digunakan untuk tujuan ini.

Jenis pengetahuan dalam distilasi pengetahuan

Meskipun logit adalah fokus utama dari transfer pengetahuan antara guru dan murid, ada berbagai cara agar "pengetahuan" dapat terwujud dalam neural networks tiruan. Metode distilasi pengetahuan lainnya berfokus pada bobot dan aktivasi di lapisan tersembunyi jaringan, atau pada hubungan antara berbagai bagian jaringan.

Berbagai bentuk pengetahuan ini umumnya masuk ke dalam salah satu dari tiga kategori: pengetahuan berbasis respons, pengetahuan berbasis fitur, atau pengetahuan berbasis hubungan.

Pengetahuan berbasis respons

Pengetahuan berbasis respons, jenis distilasi pengetahuan yang paling umum, berfokus pada transfer informasi dari lapisan output akhir model guru. Dalam metode KD berbasis respons, model siswa dilatih untuk menghasilkan logit yang sesuai dengan prediksi model guru.

Ketika sasaran empuk model guru memiliki entropi yang rendah—dengan kata lain, ketika prediksinya sangat “yakin”, seperti jika model klasifikasi mengeluarkan logit yang sangat mendekati 1 (mewakili kepastian) untuk satu kelas dan logit mendekati 0 untuk semua kelas lainnya— mereka tidak memberikan banyak informasi. Oleh karena itu, metode berbasis respons sering menggunakan pengaturan suhu tinggi untuk output model, yang meningkatkan entropi prediksi model. Hal ini memastikan distribusi probabilitas yang lebih bervariasi dan dengan demikian jumlah informasi yang lebih besar dari setiap contoh pelatihan.

Pengetahuan berbasis fitur

Pengetahuan berbasis fitur berfokus pada informasi yang disampaikan di lapisan perantara, atau "lapisan tersembunyi," dari neural networks. Di sinilah neural networks cenderung melakukan ekstraksi fitur, identifikasi karakteristik dan pola yang berbeda dari data input yang relevan dengan tugas yang dihadapi.

Misalnya, dalam convolutional neural networks yang digunakan terutama untuk tugas-tugas visi komputer seperti segmentasi gambar, setiap lapisan tersembunyi berturut-turut menangkap detail yang semakin kaya saat data ditransmisikan ke seluruh jaringan. Dalam model yang digunakan untuk mengklasifikasikan gambar hewan berdasarkan spesiesnya, lapisan tersembunyi paling awal mungkin hanya melihat adanya bentuk hewan di salah satu bagian foto; lapisan tersembunyi di tengah mungkin melihat bahwa hewan tersebut adalah burung; lapisan tersembunyi terakhir, tepat sebelum lapisan output, akan melihat detail bernuansa yang membedakan satu spesies burung dengan spesies lain yang berkerabat dekat.

Tujuan dari metode distilasi pengetahuan berbasis fitur adalah untuk melatih model siswa untuk mempelajari fitur-fitur yang sama dengan jaringan guru. Fungsi kehilangan distilasi berbasis fitur digunakan untuk mengukur dan kemudian meminimalkan perbedaan antara aktivasi fitur kedua jaringan.

Pengetahuan berbasis hubungan

Sementara pengetahuan berbasis respons dan berbasis fitur berfokus pada output dari lapisan model tertentu, distilasi pengetahuan berbasis hubungan berfokus pada hubungan antara lapisan yang berbeda atau antara peta fitur yang mewakili aktivasi pada lapisan atau lokasi yang berbeda.

Pada intinya, pengetahuan berbasis hubungan mungkin merupakan pendekatan yang komprehensif untuk melatih jaringan siswa untuk meniru "proses berpikir" model guru. Hubungan dan korelasi ini dapat dimodelkan dengan berbagai cara, termasuk korelasi antara peta fitur, matriks yang merepresentasikan kemiripan antara lapisan yang berbeda, penyematan fitur, atau distribusi probabilistik representasi fitur.

Skema distilasi pengetahuan

Metode distilasi pengetahuan juga dapat dikategorikan berdasarkan dampaknya terhadap jaringan guru. Meskipun proses distilasi awalnya diusulkan oleh Hinton et al dan banyak evolusi berikutnya dari metodologi tersebut bertujuan semata-mata untuk melatih jaringan siswa, skema distilasi lainnya juga memerlukan pembaruan bobot jaringan guru secara bersamaan.

Distilasi offline

Dalam distilasi offline, jaringan guru sudah dilatih sebelumnya dan bobot modelnya dibekukan untuk mencegah perubahan lebih lanjut. Distilasi offline adalah tipikal dari banyak pendekatan KD untuk LLM, di mana guru sering kali menggunakan model hak milik yang lebih besar di mana bobot model tidak dapat diubah.

Distilasi online

Dalam beberapa situasi, model guru yang telah dilatih sebelumnya dan berkinerja baik mungkin tidak tersedia, atau seorang ilmuwan data mungkin ingin menyesuaikan jaringan guru dengan contoh penggunaan khusus mereka. Skema distilasi online bertujuan untuk melatih jaringan guru dan siswa secara bersamaan.

Sebagai contoh, Cioppa et al mengusulkan skema distilasi online untuk model segmentasi semantik yang digunakan dalam acara olahraga secara langsung, di mana keadaan visual dapat berubah sepanjang pertandingan. Hal ini bertujuan untuk menghindari trade-off atau pertukaran antara kecepatan jaringan yang lebih kecil dan akurasi jaringan yang lebih besar dengan terus melatih model yang lambat dan berkinerja baik pada data pertandingan langsung sambil secara bersamaan menyaring pengetahuan model yang lebih besar menjadi model yang lebih kecil dan lebih cepat yang digunakan untuk menghasilkan output secara real time.6

Distilasi mandiri

Dalam distilasi mandiri, satu jaringan bertindak sebagai guru dan siswa. Jika distilasi pengetahuan konvensional memerlukan transfer pengetahuan dari satu model ke model lainnya, distilasi mandiri dapat dipahami sebagai transfer pengetahuan dari lapisan jaringan yang lebih dalam ke lapisan jaringan yang lebih dangkal.7

Dalam distilasi mandiri, beberapa “pengklasifikasi dangkal” berbasis perhatian ditambahkan ke lapisan perantara model pada kedalaman yang berbeda-beda. Selama pelatihan, pengklasifikasi yang lebih dalam bertindak sebagai model pengajar dan memandu pelatihan modul berbasis perhatian lainnya melalui dua jenis kerugian distilasi: kerugian metrik divergensi KL pada keluaran dan kerugian regularisasi L2 pada peta fitur.

Setelah model dilatih dan siap untuk inferensi, semua pengklasifikasi dangkal ini dikeluarkan dari model. Pada dasarnya, hal ini memungkinkan model menjadi lebih besar dan memiliki kapasitas yang lebih besar untuk pengenalan pola selama pelatihan, tetapi kemudian menjadi lebih kecil sehingga lebih cepat dan lebih efisien saat digunakan.

Distilasi pengetahuan dan LLM

Dengan munculnya LLM, distilasi pengetahuan telah muncul sebagai sarana penting untuk mentransfer kemampuan canggih dari model besar, yang sering kali berpemilik, ke model yang lebih kecil, yang sering kali bersumber terbuka. Dengan demikian, hal ini telah menjadi alat penting dalam demokratisasi AI generatif.

LLM dengan kemampuan tertinggi, dalam banyak kasus, terlalu mahal dan membutuhkan komputasi yang tinggi untuk dapat diakses oleh banyak calon pengguna seperti pehobi, perusahaan rintisan, atau lembaga penelitian. Selain itu, terlepas dari kinerja canggih dan kemampuan uniknya, LLM berhak milik pada dasarnya tidak dapat disesuaikan untuk aplikasi khusus dan contoh penggunaan tertentu.

Selain itu, sebagian besar LLM yang layak secara komersial terlalu besar dan membutuhkan komputasi untuk digunakan secara lokal di ponsel atau perangkat edge lainnya. Hal ini menghadirkan berbagai komplikasi logistik, komputasi, dan privasi yang seharusnya dapat dielakkan dengan model yang lebih kecil yang dapat dijalankan secara langsung di perangkat seluler. Oleh karena itu, kompresi model KD menghadirkan cara yang menjanjikan untuk mentransfer kualitas yang muncul dari model besar ke model yang cukup kecil untuk dijalankan pada perangkat.

Penggunaan umum lainnya dari distilasi pengetahuan untuk LLM meliputi:

  • Membuat LLM menjadi multibahasa, seperti dengan menggunakan beberapa model guru, yang masing-masing berspesialisasi dalam bahasa yang berbeda, untuk mentransfer pengetahuan linguistik ke satu model siswa tunggal8 atau dengan model pelatihan bersama dalam bahasa yang berbeda untuk menghasilkan penanaman serupa untuk kalimat yang sama.9

  • Menggunakan LLM eksklusif yang lebih besar untuk menghasilkan kumpulan data untuk penyetelan instruksi model yang lebih kecil. Misalnya, model Orca Microsoft “belajar dari sinyal yang kaya dari GPT-4 termasuk jejak penjelasan, langkah demi langkah proses pemikiran dan instruksi kompleks lainnya”. 10

  • Menggunakan model guru untuk menilai output pembelajar, menyaring preferensi dan pengaturan penyelarasannya melalui variasi pembelajaran penguatan dari masukan manusia (RLHF) yang disebut pembelajaran penguatan dari masukan AI (RLAIF).11
Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1 “Model compression”Proceedings of the Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 23 Agustus 2006

2 “Distilling the Knowledge in a Neural Network”, arXiv, 9 Maret 2015
3 “A Survey on Knowledge Distillation of Large Language Models”, arXiv, 8 March 2024
4 “Improving drug-target affinity prediction via feature fusion and knowledge distillation”Briefings in Bioinformatics, May 2023
5 “A three layer neural network can represent any multivariate function”, arXiv, 16 Januari 2022
6 “ARTHuS: Adaptive Real-Time Human Segmentation in Sports Through Online Distillation”2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019
7 “Self-Distillation: Towards Efficient and Compact Neural Networks”IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, no. 8, pp. 4388-4403, 1 Agustus 2022
8 “Multilingual Neural Machine Translation with Knowledge Distillation”, arXiv, 30 April 2019
9 “Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation”, arXiv, 21 April 2020
10 “Orca: Progressive Learning from Complex Explanation Traces of GPT-4”, Hugging Face, 5 Juni 2023
11 “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”, arXiv, 1 September 2023