Zero-shot learning (ZSL) adalah skenario machine learning di mana model AI dilatih untuk mengenali dan mengkategorikan objek atau konsep tanpa harus melihat contoh kategori atau konsep tersebut sebelumnya.
Sebagian besar model pembelajaran mendalam mutakhir untuk klasifikasi atau regresi dilatih melalui pembelajaran terawasi, yang membutuhkan banyak contoh berlabel dari kelas data yang relevan. Model "belajar" dengan membuat prediksi pada kumpulan data pelatihan berlabel; label data menyediakan rentang jawaban yang mungkin dan jawaban yang benar (atau kebenaran dasar) untuk setiap contoh pelatihan. "Belajar" di sini berarti menyesuaikan bobot model untuk meminimalkan perbedaan antara prediksi model dan kebenaran dasar. Proses ini membutuhkan sampel berlabel yang cukup untuk banyak putaran pelatihan dan pembaruan.
Meskipun pembelajaran yang kuat dan diawasi tidak praktis dalam beberapa skenario dunia nyata. Membuat anotasi pada sampel data dalam jumlah besar memerlukan biaya dan waktu yang lama, dan dalam kasus seperti penyakit langka dan spesies yang baru ditemukan, contohnya mungkin langka atau tidak ada. Pertimbangkan tugas pengenalan gambar: menurut sebuah penelitian, manusia dapat mengenali sekitar 30.000 kategori objek yang dapat dibedakan secara individual.1 Tidak mungkin, dalam hal waktu, biaya, dan sumber daya komputasi, model kecerdasan buatan dapat mendekati kemampuan manusia dari jarak jauh jika model tersebut harus dilatih secara eksplisit pada data berlabel untuk setiap kelas.
Kebutuhan akan model machine learning agar dapat melakukan generalisasi dengan cepat ke sejumlah besar kategori semantik dengan overhead pelatihan yang minimal telah memunculkan pembelajaran n-shot: bagian dari pembelajaran mesin yang juga mencakup pembelajaran singkat (few-shot learning/FSL) dan pembelajaran satu contoh (one-shot learning). Pembelajaran beberapa kali biasanya menggunakan pembelajaran transfer dan metode berbasis pembelajaran metauntuk melatih model agar dapat dengan cepat mengenali kelas baru hanya dengan beberapa contoh pelatihan berlabel—atau, dalam pembelajaran sekali pakai, satu contoh berlabel.
Pembelajaran zero-shot, seperti semua pembelajaran n-shot, tidak merujuk pada algoritma atau arsitektur neural networks tertentu, tetapi pada hakikat masalah pembelajaran itu sendiri: dalam ZSL, model tidak dilatih pada contoh berlabel apa pun dari kelas tak terlihat yang diminta untuk membuat prediksi pasca-pelatihan.
Penyiapan masalah ini tidak memperhitungkan apakah kelas itu ada (meskipun tidak berlabel) dalam data pelatihan. Sebagai contoh, beberapa model bahasa besar (LLM ) sangat cocok untuk tugas-tugas ZSL, karena model-model ini telah dilatih sebelumnya melalui pembelajaran mandiri pada korpus teks yang sangat besar yang mungkin berisi referensi insidental atau pengetahuan tentang kelas-kelas data yang tidak terlihat. Tanpa contoh berlabel yang dapat digunakan, semua metode ZSL bergantung pada penggunaan pengetahuan tambahan untuk membuat prediksi.
Mengingat fleksibilitas dan berbagai contoh penggunaannya, pembelajaran zero-shot telah menjadi area penelitian yang semakin penting dalam ilmu data, terutama di bidang visi komputer dan pemrosesan bahasa alami (NLP).
Dalam pengaturan ZSL konvensional, model diuji pada dataset yang berisi sampel dari kelas data yang tidak terlihat. Meskipun berguna untuk mengembangkan dan memvalidasi metodologi zero-shot, metodologi ini tidak mencerminkan kondisi dunia nyata yang paling umum: generalized zero-shot learning (GSZL) mengacu pada masalah pembelajaran zero-shot spesifik di mana titik data yang ditugaskan untuk diklasifikasikan oleh model dapat termasuk ke dalam kelas yang tidak terlihat atau kelas yang terlihat: kelas yang telah "dipelajari" oleh model dari contoh yang dilabeli.
GSZL harus mengatasi tantangan tambahan: kecenderungan pengklasifikasi untuk membuat prediksi yang bias terhadap kelas-kelas yang telah dilihatnya dalam pelatihan daripada kelas-kelas yang belum pernah dilihatnya. Dengan demikian, GSZL sering membutuhkan teknik tambahan untuk mengurangi bias itu.
Dengan tidak adanya contoh berlabel dari kategori yang dilatih untuk dipelajari oleh model, masalah pembelajaran zero-shot menggunakan informasi tambahan: deskripsi tekstual, atribut, representasi yang disematkan, atau informasi semantik lainnya yang relevan dengan tugas yang sedang dihadapi.
Daripada secara langsung memodelkan batas keputusan antar kelas, teknik pembelajaran zero-shot biasanya menghasilkan vektor probabilitas yang mewakili kemungkinan bahwa input yang diberikan termasuk dalam kelas tertentu. Metode GSZL dapat menambahkan diskriminator awal yang pertama-tama menentukan apakah sampel termasuk dalam kelas yang terlihat atau kelas baru, kemudian melanjutkannya.
Dalam pembelajaran terawasi—seperti halnya dalam few-shot learning (FSL)—model ini belajar untuk mengenali kelas-kelas yang berbeda dengan secara langsung mengamati satu atau beberapa contoh berlabel dari setiap kelas. Tanpa anotasi eksplisit untuk memandu mereka, pembelajaran zero-shot memerlukan pemahaman yang lebih mendasar terhadap makna label.
Untuk analogi sederhana, bayangkan seorang anak ingin belajar seperti apa burung itu. Dalam proses yang menyerupai pembelajaran yang diawasi atau FSL, anak belajar dengan melihat gambar berlabel "burung" di buku gambar binatang. Ke depan, dia akan mengenali seekor burung karena menyerupai gambar burung yang sudah dia lihat. Tetapi dalam skenario ZSL, tidak ada contoh berlabel seperti itu yang tersedia. Sebaliknya, anak mungkin membaca entri ensiklopedia tentang burung dan mengetahui bahwa burung adalah hewan berukuran kecil atau sedang yang memiliki bulu, paruh, dan sayap yang dapat terbang di udara. Dia kemudian akan dapat mengenali burung di dunia nyata, meskipun dia belum pernah melihatnya, karena dia telah mempelajari konsep burung.
Seperti yang telah disebutkan sebelumnya, LLM telah menunjukkan potensi alami untuk ZSL, yang berasal dari kemampuan mereka untuk secara mendasar memahami arti kata-kata yang digunakan untuk menamai kelas data.
Untuk mengurangi waktu dan sumber daya yang dibutuhkan untuk pelatihan, serta jumlah informasi tambahan yang dibutuhkan untuk mengidentifikasi kelas yang belum pernah dilihat, ZSL sering menggunakan pembelajaran transfer—yaitu menggunakan ulang model yang sudah dilatih untuk tugas baru—daripada melatih model dari awal.
Pembelajaran transfer digunakan secara menonjol dalam metode ZSL yang mewakili kelas dan sampel sebagai penyematan semantik. Misalnya, model yang melakukan klasifikasi teks zero-shot mungkin menggunakan model berbasis transformator seperti BERT, yang telah dilatih sebelumnya pada kumpulan data bahasa yang sangat besar, untuk mengubah kata menjadi penyematan vektor. Demikian pula, model klasifikasi gambar zero-shot mungkin menggunakan kembali neural networks konvolusional (convolutional neural network atau CNN) terlatih seperti ResNet atau U-Net, karena model tersebut telah mempelajari bobot filter yang kondusif untuk mengidentifikasi fitur gambar penting yang dapat menginformasikan klasifikasi.
Pembelajaran transfer sangat penting untuk GSZL, di mana pengetahuan model tentang kelas yang terlihat dapat digunakan sebagai informasi tambahan tentang kelas yang tidak terlihat. Misalnya, bayangkan model deteksi objek telah belajar mengenali beruang grizzly. Alih-alih melatihnya untuk juga mengenali beruang kutub dengan memberinya contoh beruang kutub yang berlabel, beruang kutub dapat dilatih untuk memahami bahwa beruang kutub terlihat seperti beruang grizzly dengan bulu berwarna putih.
Proses mentransfer pengetahuan yang telah dipelajari ke tugas-tugas baru dan kelas yang berbeda juga disebut sebagai adaptasi domain.
Metode pembelajaran zero-shot berbasis atribut menggunakan logika yang mirip dengan pembelajaran terawasi konvensional. Sebelum melatih pengklasifikasi secara langsung pada contoh berlabel dari setiap kelas data, pengklasifikasi lebih baik dilatih terlebih dahulu pada fitur-fitur berlabel tertentu yang menunjukkan ciri-ciri kelas data, seperti warna, bentuk, atau karakteristik lain yang penting.
Meskipun kelas target tidak secara langsung terlihat dalam pelatihan, label kelas yang tidak terlihat dapat disimpulkan jika atributnya menyerupai kelas atribut yang ada dalam data pelatihan.
Setelah pengklasifikasi mempelajari semua fitur yang relevan, ia dapat menggunakan deskripsi semantik dari kelas yang berbeda. Pendekatan ini sangat berguna ketika contoh berlabel dari kelas target tidak tersedia, tetapi contoh berlabel dari fitur-fitur karakteristiknya relatif berlimpah. Sebagai contoh, seorang model dapat mempelajari "garis-garis" dari gambar harimau dan zebra; dapat mempelajari "kuning" dari gambar burung kenari, dan "serangga terbang" dari gambar lalat. Model ini sekarang dapat melakukan klasifikasi lebah tanpa pemotretan, meskipun tidak ada gambar lebah dalam set pelatihan, karena model ini dapat memahaminya sebagai kombinasi fitur yang telah dipelajari: "serangga terbang berwarna kuningdan bergaris-garis."
Meskipun serbaguna dan berguna dalam situasi yang tepat, metode ZSL berbasis atribut memiliki kelemahan penting:
Banyak metode ZSL mewakili kelas dan sampel sebagai penyematan semantik: representasi vektor yang dapat digunakan untuk mencerminkan fitur atau makna (dan hubungan antara) titik data yang berbeda. Klasifikasi kemudian ditentukan dengan mengukur kesamaan antara embedding/penyematan semantik dari sampel yang diberikan dan penyematan dari kelas yang berbeda yang dapat dikategorikan ke dalamnya.
Setelah titik data direpresentasikan sebagai penyematan, klasifikasi ditentukan menggunakan prinsip-prinsip yang mirip dengan algoritma tetangga K-nearest: beberapa metrik jarak, seperti kesamaan kosinus, jarak Euclidian, atau jarak Wasserstein, digunakan untuk mengukur kedekatan penyematan data input ke penyematan untuk setiap kelas potensial. Semakin dekat (atau lebih mirip) penyematan sampel data tersebut dengan penyematan untuk kelas tertentu, semakin besar kemungkinan sampel tersebut termasuk dalam kelas tersebut.
Penyematan ini dapat dihasilkan dalam beberapa cara. Sebagai contoh:
Model dan algoritme yang telah dilatih sebelumnya seperti BERT, word2vec, atau GloVe (Vektor Global) dapat dengan mudah menghasilkan penyematan vektor untuk kata-kata (seperti nama-nama label kelas).
Demikian juga, jaringan encoder CNN yang sudah dilatih sebelumnya seperti ResNet (atau encoder gambar berbasis transformator seperti ViT) dapat melakukan hal yang sama untuk gambar.
Autoencoder atau pembuat enkode otomatis dapat mempelajari representasi laten—pengodean terkompresi dan berdimensi lebih rendah yang mengisolasi variabel paling berbeda dari masukan data tertentu—dari sampel atau kelas.
Sebagai pengganti pembelajaran transfer, berbagai arsitektur neural networks dapat dilatih dari awal pada data pelatihan yang relevan—seperti sampel kelas data yang relevan yang contoh-contohnya telah diberi label—untuk menghasilkan penyematan yang efektif.
Karena metode berbasis penyematan biasanya memproses informasi tambahan dan penyematan ruang vektor dari berbagai bentuk (atau modalitas) data—seperti penyematan kata yang menggambarkan label kelas dan penyematan gambar foto yang mungkin termasuk dalam kelas tersebut—metode ini memerlukan cara untuk memfasilitasi perbandingan antara penyematan dari tipe data yang berbeda.
Sebagai perbandingan, penyematan vektor dari berbagai jenis dan ukuran harus dinormalisasi dan diproyeksikan ke ruang semantik dimensi tinggi bersama, yang disebut sebagai ruang penyematan bersama, di mana mereka dapat dibandingkan dalam latar yang setara. Secara abstrak, cara kerjanya mirip dengan konsep mencari penyebut terkecil untuk membandingkan pecahan yang berbeda. Pemetaan kuat dan korelatif antara berbagai sumber penyematan begitu penting untuk kinerja generalisasi model.3
Beberapa model pembelajaran zero-shot juga menggunakan pembelajaran kontras untuk menyelaraskan penyematan semantik dari model atau algoritma yang berbeda dengan lebih baik: dengan menggunakan pasangan penyematan semantik, pembelajaran kontras melatih model untuk meminimalkan jarak antara pasangan "positif" (seperti penyematan gambar anjing dengan kata "anjing") dan memaksimalkan jarak antara pasangan "negatif" (yang tidak cocok).
Salah satu cara efektif untuk memastikan keselarasan antara penyematan dari model yang berbeda adalah dengan melatih model-model tersebut secara berdampingan. Sebagai contoh, model Contrastive Language-Image Pre-training (CLIP) dari OpenAI dilatih pada kumpulan data yang sangat besar dan tidak berlabel dari lebih dari 400 juta pasangan keterangan gambar yang diambil dari internet.4
Pasangan ini digunakan untuk bersama-sama melatih penyandi gambar dan penyandi teks dari awal, menggunakan kehilangan kontras untuk memaksimalkan kemiripan kosinus antara penyematan gambar dan penyematan teks yang sesuai. Hal ini menghasilkan kemampuan alami untuk klasifikasi zero-shot: tanpa penyempurnaan, CLIP menunjukkan performa klasifikasi yang kuat pada 27 dataset klasifikasi gambar yang berbeda.
AI generatif menawarkan solusi alternatif untuk masalah pembelajaran zero-shot: menggunakan informasi tambahan untuk menghasilkan data sampel.
Metode berbasis generatif dapat memanfaatkan representasi semantik dari kelas-kelas yang tidak terlihat untuk menghasilkan sampel yang, setelah diberi label, dapat digunakan untuk mengubah masalah pembelajaran menjadi pembelajaran standar yang diawasi. Meskipun sampel yang tidak diberi label (atau representasi dari kelas yang terlihat terkait erat) dapat membantu dalam sintesis sampel, namun dalam pengaturan tanpa pemotretan, proses ini sering kali mengandalkan deskripsi semantik.
LLM dapat mengurangi tenaga kerja yang dibutuhkan untuk menghasilkan deskripsi berkualitas tinggi: dalam makalah rilis untuk model pembuatan teks-ke-gambar DALL-E 3, OpenAI mencatat bahwa teks sintetis bahkan meningkatkan kinerja model relatif terhadap teks "kebenaran dasar"5.
Variational autoencoder (VAE) adalah model generatif terawasi mandiri yang mempelajari representasi laten data pelatihan sebagai distribusi variabel laten yang diparameterisasi. Dengan kata lain, mereka belajar menjalankan enkode kelas data bukan sebagai penyematan semantik statis, tetapi sebagai distribusi probabilitas dalam ruang laten. Dekoder kemudian dapat digunakan untuk menghasilkan sampel acak dari ruang laten itu. Conditional VAE (CVAE) dapat membatasi sifat-sifat sampel yang disintesis dengan memaksimalkan probabilitas variabel yang dipilih.
GAN terdiri dari dua neural networks, bersama-sama dilatih dalam permainan zero-sum adversial: generator yang menggunakan atribut semantik dan kebisingan Gaussian untuk menyintesis sampel dan diskriminator yang menentukan apakah sampel itu nyata atau “palsu” (yaitu, disintesis oleh generator). Masukan dari diskriminator digunakan untuk melatih generator sampai diskriminator tidak dapat lagi membedakan antara sampel asli dan palsu. Sejak makalah GAN yang pertama pada tahun 2014, sejumlah modifikasi telah dikembangkan untuk menyempurnakan dan menstabilkan proses ini.
Baik VAE maupun GAN memiliki kekurangan:
VAE stabil, tetapi cenderung menghasilkan gambar yang buram karena sifat alami bagaimana sampel direkonstruksi dari ruang laten.
GAN belajar menghasilkan gambar berkualitas tinggi, tetapi rentan terhadap ketidakstabilan, karena harus menyatukan dua proses pelatihan yang terpisah dan berbeda.
Meskipun sejumlah modifikasi telah dikembangkan untuk menyempurnakan dan menstabilkan kedua proses, tetapi penggabungan kedua arsitektur model ini telah memberikan hasil yang menjanjikan dalam pengaturan zero-shot.6
LLM juga dapat digunakan untuk menyintesis sampel berlabel: misalnya, menggunakan model autoregresif seperti Llama 2 untuk menghasilkan sampel yang dapat digunakan untuk melatih model bahasa dua arah seperti Sentence-BERT untuk tugas klasifikasi teks.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
Pelajari bagaimana CEO dapat menyeimbangkan nilai generatif AI yang dapat diciptakan dengan investasi yang dibutuhkan dan risiko yang ditimbulkannya.
Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.
Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.
Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Selami 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan memajukan AI yang dapat dipercaya.
1 “Recognition-by-components: A theory of human image understanding,” Psychological Review vol. 94 (hal. 115–147), 1987.
2 "Zero-shot Learning Using Multimodal Descriptions," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2022.
3 "Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation," arXiv, 18 April 2021.
4 "CLIP: Connecting text and images," OpenAI, 5 Januari 2021.
5 "Improving Image Generation with Better Captions," OpenAI, 2023.
6 "Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning," PubMed, 13 Januari 2023.