Apa itu Pembelajaran Zero-Shot?

Penyusun

Senior Staff Writer, AI Models

IBM Think

apa yang dimaksud dengan pembelajaran zero shot

Zero-shot learning (ZSL) adalah skenario machine learning di mana model AI dilatih untuk mengenali dan mengkategorikan objek atau konsep tanpa harus melihat contoh kategori atau konsep tersebut sebelumnya.

Sebagian besar model pembelajaran mendalam mutakhir untuk klasifikasi atau regresi dilatih melalui pembelajaran yang diawasi, yang membutuhkan banyak contoh berlabel dari kelas data yang relevan. Model "belajar" dengan membuat prediksi pada kumpulan data pelatihan berlabel; label data menyediakan rentang jawaban yang mungkin dan jawaban yang benar (atau kebenaran dasar) untuk setiap contoh pelatihan. "Belajar" di sini berarti menyesuaikan bobot model untuk meminimalkan perbedaan antara prediksi model dan kebenaran dasar. Proses ini membutuhkan sampel berlabel yang cukup untuk banyak putaran pelatihan dan pembaruan.

Meskipun pembelajaran yang kuat dan diawasi tidak praktis dalam beberapa skenario dunia nyata. Membuat anotasi pada sampel data dalam jumlah besar memerlukan biaya dan waktu yang lama, dan dalam kasus seperti penyakit langka dan spesies yang baru ditemukan, contohnya mungkin langka atau tidak ada. Pertimbangkan tugas pengenalan gambar: menurut sebuah penelitian, manusia dapat mengenali sekitar 30.000 kategori objek yang dapat dibedakan secara individual.¹ Tidak mungkin, dalam hal waktu, biaya, dan sumber daya komputasi, model kecerdasan buatan dapat mendekati kemampuan manusia dari jarak jauh jika model tersebut harus dilatih secara eksplisit pada data berlabel untuk setiap kelas.

Kebutuhan akan model machine learning agar dapat melakukan generalisasi dengan cepat ke sejumlah besar kategori semantik dengan overhead pelatihan yang minimal telah memunculkan pembelajaran n-shot: bagian dari pembelajaran mesin yang juga mencakup pembelajaran singkat (few-shot learning/FSL) dan pembelajaran satu contoh (one-shot learning). Pembelajaran beberapa kali biasanya menggunakan pembelajaran transfer dan metode berbasis pembelajaran metauntuk melatih model agar dapat dengan cepat mengenali kelas baru hanya dengan beberapa contoh pelatihan berlabel—atau, dalam pembelajaran sekali pakai, satu contoh berlabel.

Pembelajaran zero-shot, seperti semua pembelajaran n-shot, tidak merujuk pada algoritma atau arsitektur neural networks tertentu, tetapi pada hakikat masalah pembelajaran itu sendiri: dalam ZSL, model tidak dilatih pada contoh berlabel apa pun dari kelas tak terlihat yang diminta untuk membuat prediksi pasca-pelatihan.

Penyiapan masalah ini tidak memperhitungkan apakah kelas itu ada (meskipun tidak berlabel) dalam data pelatihan. Sebagai contoh, beberapa model bahasa besar (LLM ) sangat cocok untuk tugas-tugas ZSL, karena model-model ini telah dilatih sebelumnya melalui pembelajaran mandiri pada korpus teks yang sangat besar yang mungkin berisi referensi insidental atau pengetahuan tentang kelas-kelas data yang tidak terlihat. Tanpa contoh berlabel yang dapat digunakan, semua metode ZSL bergantung pada penggunaan pengetahuan tambahan untuk membuat prediksi.

Mengingat fleksibilitas dan berbagai contoh penggunaannya, pembelajaran zero-shot telah menjadi area penelitian yang semakin penting dalam ilmu data, terutama di bidang visi komputer dan pemrosesan bahasa alami (NLP).

Pembelajaran zero-shot umum (GSZL)

Dalam pengaturan ZSL konvensional, model diuji pada kumpulan data yang berisi sampel dari kelas data yang tidak terlihat. Meskipun berguna untuk mengembangkan dan memvalidasi metodologi zero-shot, metodologi ini tidak mencerminkan kondisi dunia nyata yang paling umum: generalized zero-shot learning (GSZL) mengacu pada masalah pembelajaran zero-shot spesifik di mana titik data yang ditugaskan untuk diklasifikasikan oleh model dapat termasuk ke dalam kelas yang tidak terlihat atau kelas yang terlihat: kelas yang telah "dipelajari" oleh model dari contoh yang dilabeli.

GSZL harus mengatasi tantangan tambahan: kecenderungan pengklasifikasi untuk membuat prediksi yang bias terhadap kelas-kelas yang telah dilihatnya dalam pelatihan daripada kelas-kelas yang belum pernah dilihatnya. Dengan demikian, GSZL sering membutuhkan teknik tambahan untuk mengurangi bias itu.

Bagaimana cara kerja pembelajaran zero-shot?

Dengan tidak adanya contoh berlabel dari kategori yang dilatih untuk dipelajari oleh model, masalah pembelajaran zero-shot menggunakan informasi tambahan: deskripsi tekstual, atribut, representasi yang disematkan, atau informasi semantik lainnya yang relevan dengan tugas yang sedang dihadapi.

Daripada secara langsung memodelkan batas keputusan antar kelas, teknik pembelajaran zero-shot biasanya menghasilkan vektor probabilitas yang mewakili kemungkinan bahwa input yang diberikan termasuk dalam kelas tertentu. Metode GSZL dapat menambahkan diskriminator awal yang pertama-tama menentukan apakah sampel termasuk dalam kelas yang terlihat atau kelas baru, kemudian melanjutkannya.

Memahami label

Dalam pembelajaran terawasi—seperti halnya dalam few-shot learning (FSL)—model ini belajar untuk mengenali kelas-kelas yang berbeda dengan secara langsung mengamati satu atau beberapa contoh berlabel dari setiap kelas. Tanpa anotasi eksplisit untuk memandu mereka, pembelajaran zero-shot memerlukan pemahaman yang lebih mendasar terhadap makna label.

Untuk analogi sederhana, bayangkan seorang anak ingin belajar seperti apa burung itu. Dalam proses yang menyerupai pembelajaran yang diawasi atau FSL, anak belajar dengan melihat gambar berlabel "burung" di buku gambar binatang. Ke depan, dia akan mengenali seekor burung karena menyerupai gambar burung yang sudah dia lihat. Tetapi dalam skenario ZSL, tidak ada contoh berlabel seperti itu yang tersedia. Sebaliknya, anak mungkin membaca entri ensiklopedia tentang burung dan mengetahui bahwa burung adalah hewan berukuran kecil atau sedang yang memiliki bulu, paruh, dan sayap yang dapat terbang di udara. Dia kemudian akan dapat mengenali burung di dunia nyata, meskipun dia belum pernah melihatnya, karena dia telah mempelajari konsep burung.

Seperti yang telah disebutkan sebelumnya, LLM telah menunjukkan potensi alami untuk ZSL, yang berasal dari kemampuan mereka untuk secara mendasar memahami arti kata-kata yang digunakan untuk menamai kelas data.

Pembelajaran transfer

Untuk mengurangi waktu dan sumber daya yang dibutuhkan untuk pelatihan, serta jumlah informasi tambahan yang dibutuhkan untuk mengidentifikasi kelas yang belum pernah dilihat, ZSL sering menggunakan pembelajaran transfer—yaitu menggunakan ulang model yang sudah dilatih untuk tugas baru—daripada melatih model dari awal.

Pembelajaran transfer digunakan secara menonjol dalam metode ZSL yang mewakili kelas dan sampel sebagai penyematan semantik. Misalnya, model yang melakukan klasifikasi teks zero-shot mungkin menggunakan model berbasis transformator seperti BERT, yang telah dilatih sebelumnya pada kumpulan data bahasa yang sangat besar, untuk mengubah kata menjadi penyematan vektor. Demikian pula, model klasifikasi gambar zero-shot mungkin menggunakan kembali neural networks konvolusional (convolutional neural network atau CNN) terlatih seperti ResNet atau U-Net, karena model tersebut telah mempelajari bobot filter yang kondusif untuk mengidentifikasi fitur gambar penting yang dapat menginformasikan klasifikasi.

Pembelajaran transfer sangat penting untuk GSZL, di mana pengetahuan model tentang kelas yang terlihat dapat digunakan sebagai informasi tambahan tentang kelas yang tidak terlihat. Misalnya, bayangkan model deteksi objek telah belajar mengenali beruang grizzly. Alih-alih melatihnya untuk juga mengenali beruang kutub dengan memberinya contoh beruang kutub yang berlabel, beruang kutub dapat dilatih untuk memahami bahwa beruang kutub terlihat seperti beruang grizzly dengan bulu berwarna putih.

Proses mentransfer pengetahuan yang telah dipelajari ke tugas-tugas baru dan kelas yang berbeda juga disebut sebagai adaptasi domain.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Metode berbasis atribut

Metode pembelajaran zero-shot berbasis atribut menggunakan logika yang mirip dengan pembelajaran terawasi konvensional. Sebelum melatih pengklasifikasi secara langsung pada contoh berlabel dari setiap kelas data, pengklasifikasi lebih baik dilatih terlebih dahulu pada fitur-fitur berlabel tertentu yang menunjukkan ciri-ciri kelas data, seperti warna, bentuk, atau karakteristik lain yang penting.

Meskipun kelas target tidak secara langsung terlihat dalam pelatihan, label kelas yang tidak terlihat dapat disimpulkan jika atributnya menyerupai kelas atribut yang ada dalam data pelatihan.

Setelah pengklasifikasi mempelajari semua fitur yang relevan, ia dapat menggunakan deskripsi semantik dari kelas yang berbeda. Pendekatan ini sangat berguna ketika contoh berlabel dari kelas target tidak tersedia, tetapi contoh berlabel dari fitur-fitur karakteristiknya relatif berlimpah. Sebagai contoh, seorang model dapat mempelajari "garis-garis" dari gambar harimau dan zebra; dapat mempelajari "kuning" dari gambar burung kenari, dan "serangga terbang" dari gambar lalat. Model ini sekarang dapat melakukan klasifikasi lebah tanpa pemotretan, meskipun tidak ada gambar lebah dalam set pelatihan, karena model ini dapat memahaminya sebagai kombinasi fitur yang telah dipelajari: "serangga terbang berwarna kuningdan bergaris-garis."

Meskipun serbaguna dan berguna dalam situasi yang tepat, metode ZSL berbasis atribut memiliki kelemahan penting:

Mereka bergantung pada asumsi utama bahwa setiap kelas dapat dijelaskan dengan satu vektor atribut, yang tidak selalu demikian. Mall, Hariharan dan Bala mengutip contoh burung Goldfinch Amerika-yang warna dan pola bulunya bervariasi menurut jenis kelamin, usia dan status perkembangbiakan-dan lapangan bulu tangkis luar ruangan, yang sangat bervariasi dalam hal warna, permukaan, dan ada atau tidaknya garis-garis formal.2
Membuat anotasi contoh-contoh atribut individual dapat berpotensi menghabiskan biaya dan waktu yang sama banyaknya dengan membuat anotasi contoh-contoh kelas tertentu.
Metode berbasis atribut tidak dapat menggeneralisasi ke kelas yang atributnya tidak diketahui atau tidak ada dalam sampel yang tersedia.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Metode berbasis penyematan

Banyak metode ZSL mewakili kelas dan sampel sebagai penyematan semantik: representasi vektor yang dapat digunakan untuk mencerminkan fitur atau makna (dan hubungan antara) titik data yang berbeda. Klasifikasi kemudian ditentukan dengan mengukur kesamaan antara embedding/penyematan semantik dari sampel yang diberikan dan penyematan dari kelas yang berbeda yang dapat dikategorikan ke dalamnya.

Setelah titik data direpresentasikan sebagai penyematan, klasifikasi ditentukan menggunakan prinsip-prinsip yang mirip dengan algoritma tetangga K-nearest: beberapa metrik jarak, seperti kesamaan kosinus, jarak Euclidian, atau jarak Wasserstein, digunakan untuk mengukur kedekatan penyematan data input ke penyematan untuk setiap kelas potensial. Semakin dekat (atau lebih mirip) penyematan sampel data tersebut dengan penyematan untuk kelas tertentu, semakin besar kemungkinan sampel tersebut termasuk dalam kelas tersebut.

Penyematan ini dapat dihasilkan dalam beberapa cara. Sebagai contoh:

Model dan algoritma yang telah dilatih sebelumnya seperti BERT, word2vec, atau GloVe (Vektor Global) dapat dengan mudah menghasilkan penyematan vektor untuk kata-kata (seperti nama-nama label kelas).
Demikian juga, jaringan encoder CNN yang sudah dilatih sebelumnya seperti ResNet (atau encoder gambar berbasis transformator seperti ViT) dapat melakukan hal yang sama untuk gambar.
Autoencoder atau pembuat enkode otomatis dapat mempelajari representasi laten—pengodean terkompresi dan berdimensi lebih rendah yang mengisolasi variabel paling berbeda dari masukan data tertentu—dari sampel atau kelas.
Sebagai pengganti pembelajaran transfer, berbagai arsitektur neural networks dapat dilatih dari awal pada data pelatihan yang relevan—seperti sampel kelas data yang relevan yang contoh-contohnya telah diberi label—untuk menghasilkan penyematan yang efektif.

Ruang penyematan bersama

Karena metode berbasis penyematan biasanya memproses informasi tambahan dan penyematan ruang vektor dari berbagai bentuk (atau modalitas) data—seperti penyematan kata yang menggambarkan label kelas dan penyematan gambar foto yang mungkin termasuk dalam kelas tersebut—metode ini memerlukan cara untuk memfasilitasi perbandingan antara penyematan dari tipe data yang berbeda.

Sebagai perbandingan, penyematan vektor dari berbagai jenis dan ukuran harus dinormalisasi dan diproyeksikan ke ruang semantik dimensi tinggi bersama, yang disebut sebagai ruang penyematan bersama, di mana mereka dapat dibandingkan dalam latar yang setara. Secara abstrak, cara kerjanya mirip dengan konsep mencari penyebut terkecil untuk membandingkan pecahan yang berbeda. Pemetaan kuat dan korelatif antara berbagai sumber penyematan begitu penting untuk kinerja generalisasi model.³

Beberapa model pembelajaran zero-shot juga menggunakan pembelajaran kontras untuk menyelaraskan penyematan semantik dari model atau algoritma yang berbeda dengan lebih baik: dengan menggunakan pasangan penyematan semantik, pembelajaran kontras melatih model untuk meminimalkan jarak antara pasangan "positif" (seperti penyematan gambar anjing dengan kata "anjing") dan memaksimalkan jarak antara pasangan "negatif" (yang tidak cocok).

Latihan bersama menyeluruh

Salah satu cara efektif untuk memastikan keselarasan antara penyematan dari model yang berbeda adalah dengan melatih model-model tersebut secara berdampingan. Sebagai contoh, model Contrastive Language-Image Pre-training (CLIP) dari OpenAI dilatih pada kumpulan data yang sangat besar dan tidak berlabel dari lebih dari 400 juta pasangan keterangan gambar yang diambil dari internet.⁴

Pasangan ini digunakan untuk bersama-sama melatih penyandi gambar dan penyandi teks dari awal, menggunakan kehilangan kontras untuk memaksimalkan kemiripan kosinus antara penyematan gambar dan penyematan teks yang sesuai. Hal ini menghasilkan kemampuan alami untuk klasifikasi zero-shot: tanpa penyempurnaan, CLIP menunjukkan performa klasifikasi yang kuat pada 27 dataset klasifikasi gambar yang berbeda.

Metode berbasis generatif

AI Generatif menawarkan solusi alternatif untuk masalah pembelajaran tanpa pengambilan gambar: menggunakan informasi tambahan untuk menghasilkan sampel data, tanpa memerlukan contoh berlabel untuk melakukannya.

Metode berbasis generatif dapat memanfaatkan representasi semantik dari kelas-kelas yang tidak terlihat untuk menghasilkan sampel yang, setelah diberi label, dapat digunakan untuk mengubah masalah pembelajaran menjadi pembelajaran standar yang diawasi. Meskipun sampel yang tidak diberi label (atau representasi dari kelas yang terlihat terkait erat) dapat membantu dalam sintesis sampel, namun dalam pengaturan tanpa pemotretan, proses ini sering kali mengandalkan deskripsi semantik.

LLM dapat mengurangi tenaga kerja yang dibutuhkan untuk menghasilkan deskripsi berkualitas tinggi: dalam makalah rilis untuk model pembuatan teks-ke-gambar DALL-E 3, OpenAI mencatat bahwa teks sintetis bahkan meningkatkan kinerja model relatif terhadap teks "kebenaran dasar"⁵.

Pembuat enkode otomatis yang bervariasi

Variational autoencoder (VAE) adalah model generatif terawasi mandiri yang mempelajari representasi laten data pelatihan sebagai distribusi variabel laten yang diparameterisasi. Dengan kata lain, mereka belajar menjalankan enkode kelas data bukan sebagai penyematan semantik statis, tetapi sebagai distribusi probabilitas dalam ruang laten. Dekoder kemudian dapat digunakan untuk menghasilkan sampel acak dari ruang laten itu. Conditional VAE (CVAE) dapat membatasi sifat-sifat sampel yang disintesis dengan memaksimalkan probabilitas variabel yang dipilih.

Generative adversarial networks (GAN)

Generative adversarial network (GAN ) terdiri dari dua neural networks, bersama-sama dilatih dalam permainan zero-sum adversial: generator yang menggunakan atribut semantik dan kebisingan Gaussian untuk menyintesis sampel dan diskriminator yang menentukan apakah sampel itu nyata atau “palsu” (yaitu, disintesis oleh generator). Masukan dari diskriminator digunakan untuk melatih generator sampai diskriminator tidak dapat lagi membedakan antara sampel asli dan palsu. Sejak makalah GAN yang pertama pada tahun 2014, sejumlah modifikasi telah dikembangkan untuk menyempurnakan dan menstabilkan proses ini.

VAEGAN

Baik VAE maupun GAN memiliki kekurangan:

VAE stabil, tetapi cenderung menghasilkan gambar yang buram karena sifat alami cara sampel direkonstruksi dari ruang laten.
GAN belajar menghasilkan gambar berkualitas tinggi, tetapi rentan terhadap ketidakstabilan, karena harus menyatukan dua proses pelatihan yang terpisah dan berbeda.

Meskipun sejumlah modifikasi telah dikembangkan untuk menyempurnakan dan menstabilkan kedua proses, tetapi penggabungan kedua arsitektur model ini telah memberikan hasil yang menjanjikan dalam pengaturan zero-shot.⁶

Model bahasa besar (LLM)

LLM juga dapat digunakan untuk menyintesis sampel berlabel: misalnya, menggunakan model autoregresif seperti Llama 2 untuk menghasilkan sampel yang dapat digunakan untuk melatih model bahasa dua arah seperti Sentence-BERT untuk tugas klasifikasi teks.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

apa yang dimaksud dengan pembelajaran zero shot

Penyusun

apa yang dimaksud dengan pembelajaran zero shot

Pembelajaran zero-shot umum (GSZL)

Bagaimana cara kerja pembelajaran zero-shot?

Memahami label

Pembelajaran transfer

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Metode berbasis atribut

Decoding AI: Rangkuman Berita Mingguan

Metode berbasis penyematan

Ruang penyematan bersama

Latihan bersama menyeluruh

Metode berbasis generatif

Pembuat enkode otomatis yang bervariasi

Generative adversarial networks (GAN)

VAEGAN

Model bahasa besar (LLM)

Sumber daya