Sebagian besar model pembelajaran mendalam mutakhir untuk klasifikasi atau regresi dilatih melalui pembelajaran yang diawasi, yang membutuhkan banyak contoh berlabel dari kelas data yang relevan. Model "belajar" dengan membuat prediksi pada kumpulan data pelatihan berlabel; label data menyediakan rentang jawaban yang mungkin dan jawaban yang benar (atau kebenaran dasar) untuk setiap contoh pelatihan. "Belajar" di sini berarti menyesuaikan bobot model untuk meminimalkan perbedaan antara prediksi model dan kebenaran dasar. Proses ini membutuhkan sampel berlabel yang cukup untuk banyak putaran pelatihan dan pembaruan.
Meskipun pembelajaran yang kuat dan diawasi tidak praktis dalam beberapa skenario dunia nyata. Membuat anotasi pada sampel data dalam jumlah besar memerlukan biaya dan waktu yang lama, dan dalam kasus seperti penyakit langka dan spesies yang baru ditemukan, contohnya mungkin langka atau tidak ada. Pertimbangkan tugas pengenalan gambar: menurut sebuah penelitian, manusia dapat mengenali sekitar 30.000 kategori objek yang dapat dibedakan secara individual.1 Tidak mungkin, dalam hal waktu, biaya, dan sumber daya komputasi, model kecerdasan buatan dapat mendekati kemampuan manusia dari jarak jauh jika model tersebut harus dilatih secara eksplisit pada data berlabel untuk setiap kelas.
Kebutuhan akan model machine learning agar dapat melakukan generalisasi dengan cepat ke sejumlah besar kategori semantik dengan overhead pelatihan yang minimal telah memunculkan pembelajaran n-shot: bagian dari pembelajaran mesin yang juga mencakup pembelajaran singkat (few-shot learning/FSL) dan pembelajaran satu contoh (one-shot learning). Pembelajaran beberapa kali biasanya menggunakan pembelajaran transfer dan metode berbasis pembelajaran metauntuk melatih model agar dapat dengan cepat mengenali kelas baru hanya dengan beberapa contoh pelatihan berlabel—atau, dalam pembelajaran sekali pakai, satu contoh berlabel.
Pembelajaran zero-shot, seperti semua pembelajaran n-shot, tidak merujuk pada algoritma atau arsitektur neural networks tertentu, tetapi pada hakikat masalah pembelajaran itu sendiri: dalam ZSL, model tidak dilatih pada contoh berlabel apa pun dari kelas tak terlihat yang diminta untuk membuat prediksi pasca-pelatihan.
Penyiapan masalah ini tidak memperhitungkan apakah kelas itu ada (meskipun tidak berlabel) dalam data pelatihan. Sebagai contoh, beberapa model bahasa besar (LLM ) sangat cocok untuk tugas-tugas ZSL, karena model-model ini telah dilatih sebelumnya melalui pembelajaran mandiri pada korpus teks yang sangat besar yang mungkin berisi referensi insidental atau pengetahuan tentang kelas-kelas data yang tidak terlihat. Tanpa contoh berlabel yang dapat digunakan, semua metode ZSL bergantung pada penggunaan pengetahuan tambahan untuk membuat prediksi.
Mengingat fleksibilitas dan berbagai contoh penggunaannya, pembelajaran zero-shot telah menjadi area penelitian yang semakin penting dalam ilmu data, terutama di bidang visi komputer dan pemrosesan bahasa alami (NLP).