Metode berbasis pembelajaran transfer berfokus pada adaptasi model yang telah dilatih sebelumnya untuk mempelajari tugas-tugas baru atau kelas data yang sebelumnya tidak terlihat.
Ketika beberapa sampel berlabel tersedia, menggunakan pembelajaran yang diawasi untuk melatih model dari awal, terutama yang memiliki sejumlah besar parameter, seperti convolutional neural networks (CNN) yang biasanya digunakan dalam visi komputer atau jaringan berbasis transformator yang digunakan dalam pemrosesan bahasa alami (NLP), seringkali mengarah pada overfitting: model mungkin berkinerja baik pada data pengujian, tetapi buruk pada data dunia nyata. Tetapi mengumpulkan data dalam jumlah yang cukup besar untuk menghindari overfitting seringkali merupakan hambatan dalam pelatihan model.
Pembelajaran transfer menawarkan solusi praktis: memanfaatkan fitur dan representasi yang berguna yang telah dipelajari oleh model yang telah dilatih. Salah satu pendekatan sederhana adalah menerapkan fine tuning pada model klasifikasi untuk melakukan tugas yang sama untuk kelas baru melalui pembelajaran yang diawasi pada sejumlah kecil contoh berlabel. Pendekatan yang lebih rumit mengajarkan keterampilan baru melalui desain tugas hiliryang relevan, seringkali tugas meta learning, ke model yang telah dilatih sebelumnya melalui tugas pra-pelatihan yang diawasi sendiri: ini semakin umum di NLP, terutama dalam konteks model dasar.
Pendekatan transfer learning yang lebih kompleks mengadaptasi neural network yang terlatih melalui perubahan arsitektur jaringan: misalnya, mengganti atau melatih kembali lapisan luar neural network, di mana klasifikasi akhir terjadi, sambil mempertahankan lapisan internal tempat ekstraksi fitur terjadi. Membekukan (atau mengatur perubahan pada) bobot model untuk semua kecuali lapisan terluar dapat memastikan bahwa pembaruan berikutnya tidak menghasilkan “catastrophic forgetting” (lupa drastis) dari pengetahuan yang sudah dipelajari. Hal ini memungkinkan pembelajaran yang sangat dipercepat dalam konteks few-shot.
Transfer learning paling berhasil ketika pelatihan awal model relevan dengan tugas baru. Sebagai contoh, model yang dilatih pada spesies burung tertentu akan menggeneralisasi dengan baik untuk spesies burung yang tidak terlihat setelah penyesuaian dengan hanya beberapa sampel berlabel, karena bobot yang dipelajari dari filter yang digunakan CNN untuk konvolusi telah dioptimalkan untuk menangkap fitur yang relevan dengan klasifikasi burung (seperti bulu, paruh, ukuran sayap, dll.) - tetapi menggunakan pembelajaran dengan beberapa bidikan untuk mengajarkan model yang sama untuk mengenali kendaraan akan menghasilkan kinerja yang kurang memuaskan.