Apa yang dimaksud dengan pembelajaran terawasi mandiri?

Diterbitkan: 5 Desember 2023
Kontributor: Dave Bergmann

Pembelajaran terawasi mandiri adalah teknik machine learning yang menggunakan pembelajaran tanpa pengawasan untuk tugas-tugas yang secara konvensional membutuhkan pembelajaran yang diawasi. Alih-alih mengandalkan kumpulan data berlabel untuk sinyal pengawasan, model terawasi mandiri menghasilkan label implisit dari data yang tidak terstruktur.

Pembelajaran terawasi mandiri (SSL) sangat berguna dalam bidang-bidang seperti visi komputer dan pemrosesan bahasa alami (NLP) yang membutuhkan data berlabel dalam jumlah besar untuk melatih model kecerdasan buatan (AI) yang canggih. Karena para ahli membutuhkan banyak waktu untuk menganotasi kumpulan data berlabel ini, bisa jadi sangat sulit untuk mengumpulkan data yang mencukupi. Pendekatan terawasi mandiri dapat lebih hemat waktu dan biaya, karena pendekatan ini menggantikan sebagian atau seluruh kebutuhan untuk melabeli data pelatihan secara manual.

Untuk melatih model pembelajaran mendalam untuk tugas-tugas yang membutuhkan akurasi, seperti klasifikasi atau regresi, kita harus dapat membandingkan prediksi keluaran model untuk input yang diberikan dengan prediksi yang "benar" untuk input tersebut—biasanya disebut dengan ground truth (kebenaran dasar). Biasanya, data pelatihan yang dilabeli secara manual berfungsi sebagai kebenaran dasar, karena metode ini membutuhkan campur tangan manusia secara langsung, metode ini disebut pembelajaran "terawasi". Dalam pembelajaran terawasi mandiri, tugas-tugas dirancang sedemikian rupa sehingga "kebenaran dasar" dapat disimpulkan dari data yang tidak berlabel.

Dalam SSL, tugas dibagi dalam dua kategori: tugas pretext dan tugas downstream.Dalam tugas pretext, SSL digunakan untuk melatih sistem AI untuk mempelajari representasi yang bermakna dari data yang tidak terstruktur. Representasi yang dipelajari tersebut kemudian dapat digunakan sebagai input untuk tugas downstream, seperti tugas pembelajaran terawasi atau tugas pembelajaran penguatan. Penggunaan kembali model yang telah dilatih sebelumnya pada tugas baru disebut sebagai "transfer learning" (pembelajaran transfer).

Pembelajaran terawasi mandiri digunakan dalam pelatihan beragam arsitektur pembelajaran mendalam yang canggih untuk berbagai tugas, mulai dari model bahasa besar (LLM) berbasis transformer seperti BERT dan GPT hingga model sintesis gambar seperti variational autoencoders (VAE) dan generative adversarial networks (GAN) hingga model visi komputer seperti SimCLR dan Momentum Contrast (MoCo).

Ikuti tur IBM® watsonx.ai

Studio perusahaan generasi berikutnya bagi pembangun AI untuk melatih, memvalidasi, menyetel, dan menerapkan model AI.

Konten terkait

Berlangganan buletin IBM

Pembelajaran terawasi mandiri vs. pembelajaran terawasi vs. pembelajaran tanpa pengawasan

Meskipun secara teknis pembelajaran terawasi mandiri merupakan bagian dari pembelajaran tanpa pengawasan (karena tidak memerlukan kumpulan data berlabel), pembelajaran ini sangat erat kaitannya dengan pembelajaran terawasi karena mengoptimalkan kinerja terhadap kebenaran dasar.

Kecocokan yang tidak sempurna dengan kedua paradigma machine learning konvensional ini menyebabkan berbagai teknik yang sekarang secara kolektif dianggap sebagai "pembelajaran terawasi mandiri" mendapatkan kategori tersendiri.

Penciptaan istilah ini sering kali dikaitkan dengan Yann LeCun, ilmuwan komputer pemenang Turing Award dan tokoh kunci dalam kemunculan pembelajaran mendalam^,1 yang menyatakan bahwa SSL perlu dibedakan dari pembelajaran yang benar-benar tidak terawasi (yang disebutnya sebagai "istilah yang sarat dan membingungkan")^. 2 Nama (dan konsep formal) ini mungkin berasal dari sebuah makalah tahun 2007 oleh Raina, dkk, yang berjudul "Self-taught learning: Transfer learning from unlabeled data."³ Beberapa kerangka kerja machine learning yang sekarang dianggap sebagai SSL, seperti autoencoder, mendahului keberadaan istilah itu sendiri selama beberapa tahun.

Pembelajaran terawasi mandiri vs. pembelajaran tanpa pengawasan

Pembelajaran terawasi mandiri adalah bagian dari pembelajaran tanpa pengawasan: semua teknik pembelajaran terawasi mandiri adalah pembelajaran tanpa pengawasan, tetapi sebagian besar pembelajaran tanpa pengawasan tidak memerlukan pengawasan mandiri.

Baik pembelajaran tanpa pengawasan maupun pembelajaran terawasi mandiri tidak menggunakan label dalam proses pelatihan: kedua metode ini mempelajari korelasi dan pola intrinsik dalam data yang tidak berlabel, alih-alih korelasi yang dipaksakan secara eksternal dari kumpulan data yang dianotasi. Terlepas dari fokus yang sama pada data yang tidak berlabel, perbedaan antara pembelajaran terawasi mandiri dan pembelajaran tanpa pengawasan sebagian besar mencerminkan perbedaan antara pembelajaran tanpa pengawasan dan pembelajaran terawasi mandiri.

Masalah yang menggunakan pembelajaran tanpa pengawasan konvensional tidak mengukur hasil terhadap kebenaran dasar yang telah diketahui sebelumnya. Sebagai contoh, model asosiasi tanpa pengawasan dapat mendukung mesin rekomendasi e-commerce dengan mempelajari produk mana yang sering dibeli bersama. Kegunaan model ini tidak berasal dari replikasi prediksi manusia, tetapi dari penemuan korelasi yang tidak terlihat oleh pengamat manusia.

Pembelajaran terawasi mandiri mengukur hasil terhadap kebenaran dasar, meskipun secara implisit berasal dari data pelatihan yang tidak berlabel. Seperti model terawasi, model terawasi mandiri dioptimalkan menggunakan fungsi kerugian: algoritma yang mengukur perbedaan ("kerugian") antara kebenaran dasar dan prediksi model. Selama pelatihan, model terawasi mandiri menggunakan penurunan gradien selama propagasi balik untuk menyesuaikan bobot model dengan cara yang meminimalkan kerugian (dan dengan demikian meningkatkan akurasi).

Didorong oleh perbedaan utama ini, kedua metode berfokus pada contoh penggunaan yang berbeda: model tanpa pengawasan digunakan untuk tugas-tugas seperti pengelompokan, deteksi anomali, dan pengurangan dimensi yang tidak memerlukan fungsi kerugian, sedangkan model terawasi mandiri digunakan untuk tugas klasifikasi dan regresi yang biasa digunakan untuk pembelajaran terawasi.

Pembelajaran terawasi mandiri vs. pembelajaran terawasi

Meskipun pembelajaran terawasi dan pembelajaran terawasi mandiri sebagian besar digunakan untuk jenis tugas yang sama dan keduanya membutuhkan kebenaran dasar untuk mengoptimalkan kinerja melalui fungsi kerugian, model terawasi mandiri dilatih pada data yang tidak dilabeli sedangkan pembelajaran terawasi membutuhkan kumpulan data berlabel untuk pelatihan.

Kumpulan data berlabel sangat efektif dalam pelatihan model: anotasi data pelatihan memungkinkan model untuk secara langsung mempelajari fitur-fitur utama dan korelasi yang direfleksikan oleh anotasi tersebut. Dengan meminimalkan perbedaan antara prediksi model dan "prediksi" yang dianotasi tangan oleh para ahli manusia selama pelatihan, model terawasi belajar untuk membuat kesimpulan yang benar tentang data input baru (yang tidak berlabel).

Meskipun pendekatan terawasi yang canggih dapat menghasilkan akurasi yang tinggi, anotasi pelatihan dalam jumlah besar sering kali menjadi hambatan dalam proses penelitian. Sebagai contoh, dalam tugas-tugas visi komputer seperti segmentasi instance yang memerlukan prediksi spesifik piksel, anotasi data pelatihan harus dilakukan pada tingkat piksel. Proses ini mahal dan memakan waktu, sehingga membatasi jumlah data pelatihan yang tersedia dan kemampuan sebagian besar perusahaan dan peneliti untuk mendapatkannya.

Sebaliknya, model terawasi mandiri menggunakan berbagai teknik untuk mendapatkan sinyal pengawasan dari struktur data input itu sendiri, sehingga menghindari label sama sekali. Misalnya, dengan menyembunyikan (atau "menutupi") secara acak bagian dari sebuah kalimat dan menugaskan model terawasi mandiri untuk memprediksi kata-kata yang disembunyikan, dengan menggunakan kalimat asli (yang tidak diberi label) sebagai kebenaran dasar.

Pembelajaran terawasi mandiri vs. pembelajaran semi terawasi

Tidak seperti pembelajaran terawasi mandiri, yang tidak melibatkan data berlabel manusia, pembelajaran semi terawasi menggunakan data berlabel dan tidak berlabel untuk melatih model. Sebagai contoh, model semi terawasi dapat menggunakan sejumlah kecil titik data berlabel untuk menyimpulkan label untuk sisa kumpulan data pelatihan yang tidak berlabel, kemudian lanjut menggunakan seluruh set data untuk pembelajaran terawasi. Meskipun motivasi keduanya serupa, karena kedua pendekatan ini menghindari kebutuhan akan kumpulan data berlabel besar dalam pembelajaran terawasi, metodologi masing-masing berbeda.

Bagaimana cara kerja pembelajaran terawasi mandiri?

Tugas pembelajaran terawasi dirancang sedemikian rupa sehingga fungsi kerugian dapat menggunakan data input yang tidak berlabel sebagai kebenaran dasar. Hal ini memungkinkan model untuk mempelajari representasi yang akurat dan bermakna dari data input tanpa label atau anotasi.

Tujuan dari pembelajaran terawasi mandiri adalah untuk meminimalkan atau menggantikan kebutuhan akan data berlabel. Sementara data berlabel relatif langka dan mahal, data yang tidak berlabel berlimpah dan relatif murah. Pada dasarnya, tugas pretext menghasilkan "label semu" dari data yang tidak berlabel. Istilah "pretext" menyiratkan bahwa tugas pelatihan tidak (harus) berguna untuk dirinya sendiri: tugas ini hanya berguna karena mengajarkan model representasi data yang berguna untuk tujuan tugas downstream berikutnya. Oleh karena itu, tugas pretext juga sering disebut sebagai pembelajaran representasi.

Model yang telah dilatih sebelumnya dengan SSL sering kali disempurnakan untuk tugas downstream khusus: penyempurnaan ini sering kali melibatkan pembelajaran terawasi yang sebenarnya (meskipun hanya menggunakan sebagian kecil data berlabel yang diperlukan untuk melatih model dengan pembelajaran terawasi).

Meskipun disiplin SSL beragam dalam hal metodologi dan contoh penggunaan, model yang dilatih dengan SSL menggunakan salah satu (atau keduanya) dari dua teknik machine learning: pembelajaran prediktif mandiri dan pembelajaran kontrastif.

Pembelajaran prediktif mandiri

Juga dikenal sebagai pembelajaran terawasi mandiri autoasosiatif, metode prediksi mandiri melatih model untuk memprediksi bagian dari sampel data individu, dengan informasi tentang bagian lainnya. Model yang dilatih dengan metode ini biasanya merupakan model generatif, bukan diskriminatif.

Yann LeCun telah mengkarakterisasikan metode terawasi mandiri sebagai praktik terstruktur untuk "mengisi kekosongan." Secara garis besar, ia menggambarkan proses mempelajari representasi yang bermakna dari struktur yang mendasari data yang tidak berlabel secara sederhana: "Anggaplah ada bagian dari input yang tidak Anda ketahui dan prediksikan hal tersebut."⁴ Sebagai contoh:

Memprediksi bagian mana pun dari input dari bagian lain
Memprediksi masa depan dari masa lalu
Memprediksi data yang tertutup (masked) dari yang terlihat
Memprediksi bagian yang teroklusi dari semua bagian yang tersedia

Sistem terawasi mandiri yang dibangun di atas filosofi ini sering kali menggunakan arsitektur model dan teknik pelatihan tertentu.

Autoencoder
Autoencoder adalah jaringan neural yang dilatih untuk mengompresi (atau mengkodekan) data input, kemudian merekonstruksi (atau memecahkan kode ) input asli menggunakan representasi terkompresi itu. Autoencoder dilatih untuk meminimalkan kesalahan rekonstruksi, dengan menggunakan input asli sebagai kebenaran dasar.

Meskipun arsitektur autoencoder bervariasi, mereka biasanya memperkenalkan beberapa bentuk hambatan: saat data melintasi jaringan encoder, kapasitas data setiap lapisan berkurang secara progresif. Hal ini memaksa jaringan untuk mempelajari hanya pola-pola terpenting yang tersembunyi di dalam data input - yang disebut variabel laten, atau ruang laten -sehingga jaringan decoder dapat secara akurat merekonstruksi input asli meskipun sekarang memiliki lebih sedikit informasi.

Modifikasi pada kerangka kerja dasar ini memungkinkan autoencoder untuk mempelajari fitur dan fungsi yang berguna.

Denoising autoencoder diberi data input yang rusak sebagian dan dilatih untuk mengembalikan input asli dengan menghapus informasi yang tidak berguna (“noise”). Hal ini mengurangi pemasangan yang berlebihan dan membuat model tersebut berguna untuk berbagai tugas, seperti memulihkan gambar input dan data audio yang rusak.
Sementara sebagian besar autoencoder mengkodekan model diskret ruang laten, Variational autoencoders (VAEs) mempelajari model diskret ruang laten: dengan mengkodekan representasi laten dari data input sebagai distribusi probabilitas, decoder dapat menghasilkan data baru dengan mengambil sampel vektor acak dari distribusi itu.

Regresi otomatis
Model autoregresif menggunakan perilaku masa lalu untuk memprediksi perilaku masa depan. Model ini bekerja dengan logika bahwa data apa pun dengan tatanan berurutan bawaan — seperti bahasa, audio atau video — dapat dimodelkan dengan regresi.

Algoritma autoregresi memodelkan data deret waktu, menggunakan nilai dari langkah waktu sebelumnya untuk memprediksi nilai langkah waktu berikutnya. Sedangkan dalam algoritma regresi konvensional, seperti yang digunakan untuk regresi linier, variabel independen digunakan untuk memprediksi nilai target (atau variabel dependen), dalam autoregresi variabel independen dan dependen pada dasarnya satu dan sama, yaitu yang disebut regresi otomatiskarena regresi dilakukan pada variabel itu sendiri.

Autoregresi digunakan secara menonjol dalam model bahasa kausal seperti GPT, LLaMa, dan keluarga LLM Claude yang unggul dalam tugas-tugas seperti pembuatan teks dan menjawab pertanyaan. Dalam pra-pelatihan, model bahasa diberikan awal contoh kalimat yang diambil dari data pelatihan yang tidak berlabel dan ditugaskan untuk memprediksi kata berikutnya, dengan kata "sebenarnya" yang muncul berikutnya dari contoh kalimat yang berfungsi sebagai kebenaran dasar.

Masking
Metode pembelajaran terawasi mandiri lainnya melibatkan masking bagian tertentu dari sampel data yang tidak berlabel dan menugaskan model dengan memprediksi atau merekonstruksi informasi yang hilang. Fungsi kerugian menggunakan input asli (pra-masking) sebagai kebenaran dasar. Misalnya, masked autoencoder seperti kebalikan dari denoising audioencoder: keduanya belajar memprediksi dan memulihkan informasi yang hilang, bukan menghapus informasi asing.

Masking juga digunakan dalam pelatihan masked language model: kata-kata acak dihilangkan dari contoh kalimat dan model dilatih untuk mengisinya. Meskipun masked language model seperti BERT (dan banyak model yang dibangun dari arsitekturnya, seperti BART dan RoBERTa) sering kali kurang mahir dalam pembuatan teks dibandingkan model autoregresif, mereka memiliki keuntungan sebagai model dua arah: mereka tidak hanya dapat memprediksi kata berikutnya, tetapi juga kata-kata sebelumnya atau kata-kata yang ditemukan kemudian dalam suatu urutan. Hal ini membuat mereka sangat cocok untuk tugas-tugas yang membutuhkan pemahaman kontekstual yang kuat, seperti penerjemahan, ringkasan, dan pencarian.

Prediksi hubungan bawaan
Prediksi hubungan bawaan melatih model untuk mempertahankan pemahaman tentang sampel data setelah diubah dalam beberapa cara. Misalnya, memutar gambar input dan menugaskan model dengan memprediksi tingkat perubahan dan arah rotasi relatif terhadap input asli.⁵

Pembelajaran kontrastif

Metode pembelajaran terawasi mandiri kontrastif memberikan model dengan beberapa sampel data dan menugaskannya untuk memprediksi hubungan antara sampel-sampel tersebut. Model yang dilatih dengan metode ini biasanya merupakan model diskriminatif, bukan generatif.

Model kontrastif umumnya beroperasi pada pasangan data-data untuk pelatihan, sedangkan model autoasosiatif beroperasi pada pasangan data-label (di mana label dihasilkan sendiri dari data). Menggunakan pasangan data-data ini, metode kontrastif melatih model untuk membedakan antara hal-hal yang serupa dan berbeda.

Pasangan ini sering kali dibuat melalui augmentasi data: menerapkan berbagai jenis transformasi atau gangguan pada data yang tidak berlabel untuk membuat contoh baru atau tampilan yang diperluas. Sebagai contoh, teknik augmentasi yang umum untuk data gambar termasuk rotasi, pemangkasan acak, pembalikan, noise, pemfilteran, dan pewarnaan. Penambahan data meningkatkan variabilitas data dan mengekspos model ke perspektif yang berbeda, yang membantu memastikan bahwa model belajar untuk menangkap representasi semantik yang bermakna dan dinamis.

Diskriminasi instance
Model berbasis diskriminasi instance membingkai pelatihan sebagai serangkaian tugas klasifikasi biner: dengan menggunakan satu sampel data sebagai target (atau "jangkar"), sampel data lainnya ditentukan sebagai "positif" (cocok) atau "negatif" (tidak cocok).

Dalam visi komputer, metode tersebut—seperti SimCLR atau MoCo—biasanya dimulai dengan sekumpulan gambar mentah yang tidak berlabel dan menerapkan kombinasi transformasi secara acak untuk menghasilkan pasangan (atau set) sampel gambar yang di-augmentasi. Masing-masing gambar yang di-augmentasi kemudian dikodekan ke dalam representasi vektor, dan fungsi kehilangan kontrastif digunakan untuk meminimalkan perbedaan dalam representasi vektor antara kecocokan positif—pasangan gambar yang ditambah yang berasal dari gambar asli yang sama—dan memaksimalkan perbedaan antara kecocokan negatif.

Dengan demikian, metode diskriminasi instance melatih model untuk mempelajari representasi dari berbagai kategori yang berbeda yang, berkat penambahan data secara acak, kuat terhadap variasi yang tidak terlalu penting (seperti warna, perspektif, atau bagian yang terlihat pada gambar tertentu). Dengan demikian, representasi ini dapat digeneralisasi dengan sangat baik untuk tugas-tugas downstream.

Pembelajaran non-kontrastif
Agak berlawanan dengan namanya, "pembelajaran non-kontrastif" mengacu pada metode yang berkaitan erat dengan pembelajaran kontrastif (bukan seperti yang kita kira, sebuah istilah umum untuk metode yang bukan pembelajaran kontrastif). Model dilatih dengan hanya menggunakan pasangan positif, belajar untuk meminimalkan perbedaan antara representasi pasangan-pasangan itu - oleh karena itu disebut non-kontrastif.

Dibandingkan dengan pembelajaran kontrastif, pendekatan non-kontrastif relatif sederhana: karena hanya beroperasi pada sampel positif, pendekatan ini menggunakan ukuran batch yang lebih kecil untuk masa pelatihan dan tidak memerlukan bank memori untuk menyimpan sampel negatif. Hal ini menghemat memori dan biaya komputasi selama pra-pelatihan.

Model non-kontrastif seperti Bootstrapping Your Own Latent (BYOL⁾⁶ dan Barlow^Twins7 telah mencapai hasil yang mampu bersaing dengan hasil kontrastif dan hasil terawasi secara murni.

Pembelajaran multimodal
Mengingat titik data dari berbagai jenis—modalitas—metode kontrastif dapat mempelajari pemetaan antara modalitas tersebut. Misalnya, Pra-pelatihan Bahasa-Gambar Kontrastif (CLIP) bersama-sama melatih encoder gambar dan encoder teks untuk memprediksi keterangan mana yang sesuai dengan gambar mana, menggunakan jutaan pasangan tanpa label (gambar, teks) yang tersedia dan dikumpulkan dari internet. Setelah pra-pelatihan, pemrosesan bahasa alami (NLP) digunakan untuk mereferensikan pembelajaran konsep visual dalam pelatihan (atau bahkan untuk mendeskripsikan konsep visual baru), menjadikan model yang dilatih CLIP sangat berguna untuk beragam aplikasi pembelajaran transfer.

Pembelajaran kontrastif juga telah digunakan untuk mempelajari keselarasan antara video dan teks^,8 video dan audio,⁹ dan ucapan dan teks.¹⁰

Contoh penggunaan pembelajaran terawasi mandiri

Pembelajaran terawasi mandiri telah digunakan dalam pelatihan awal model kecerdasan buatan untuk berbagai tugas dan disiplin ilmu.

Pembelajaran terawasi mandiri untuk NLP

Dalam waktu satu tahun setelah diperkenalkan pada tahun 2018, Google menerapkan masked language model BERT sebagai mesin NLP untuk cuplikan unggulan dan berperingkat di Search^.11 Pada tahun 2023, Google terus menggunakan arsitektur BERT untuk memberdayakan aplikasi penelusuran di dunia nyata.¹²

Keluarga LLaMa, GPT, dan Claude dari LLM adalah model bahasa autoregresif. GPT3 dilatih terutama dengan pembelajaran terawasi mandiri; InstructGPT, dan model GPT-3.5 berikutnya yang digunakan untuk meluncurkan ChatGPT, menyempurnakan model yang sudah dilatih sebelumnya menggunakan pembelajaran penguatan dengan masukan dari manusia (RLHF).

Model autoregresif juga digunakan untuk tugas-tugas NLP berbasis audio seperti ucapan-ke-teks, serta model teks-ke-ucapan seperti WaveNet^.13 Facebook (Meta) menggunakan wav2vec untuk pengenalan suara, menggunakan dua jaringan neural konvolusi yang ditumpuk di atas satu sama lain untuk memetakan input audio mentah ke representasi vektor. Dalam pra-pelatihan terawasi mandiri, vektor-vektor ini digunakan sebagai input untuk tugas prediksi mandiri.¹⁴

Pembelajaran terawasi mandiri untuk visi komputer

Pembelajaran terawasi mandiri adalah bagian dari teknik pembelajaran mendalam yang berkembang pesat yang digunakan untuk pencitraan medis, di mana gambar yang dianotasi oleh para ahli relatif langka. Di PubMed, Scopus, dan ArXiv, publikasi yang merujuk pada penggunaan SSL untuk klasifikasi citra medis meningkat lebih dari 1.000 persen dari tahun 2019 hingga 2021.¹⁵

Metode berbasis SSL sering kali dapat menyamai atau melampaui akurasi model yang dilatih menggunakan metode yang terawasi sepenuhnya. Sebagai contoh, MoCo yang asli mengungguli model terawasi di tujuh tugas deteksi objek dan segmentasi gambar pada kumpulan data PASCAL, VOC, dan COCO^.16 Ketika disempurnakan dengan baik menggunakan data berlabel hanya satu persen dari semua data pelatihan, model yang sudah dilatih sebelumnya dengan SSL telah mencapai lebih dari 80 persen akurasi pada dataset ImageNet. Hasil ini menyaingi kinerja model pembelajaran terawasi yang menjadi tolok ukur seperti ResNet50.

Kemampuan untuk mempertahankan keberhasilan deteksi objek dan segmentasi gambar meskipun terjadi perubahan pada orientasi objek, sangat penting untuk berbagai tugas robotika. Pembelajaran terawasi mandiri telah diusulkan sebagai cara yang efektif untuk melatih model visi komputer untuk memahami rotasi tanpa pengumpulan data berlabel yang memakan waktu.^{17 18}

Masking telah digunakan untuk melatih model untuk memahami lintasan gerak dalam video.¹⁹

Pembelajaran terawasi mandiri untuk pemrosesan gambar dan sintesis gambar

Denoising autoencoder adalah komponen penting dalam pelatihan beberapa model sintesis gambar yang canggih, seperti Stable Diffusion.²⁰

Pemodelan autoregresif telah digunakan untuk sintesis gambar dalam model seperti PixelRNN dan PixelCNN. Keberhasilan PixelCNN membuatnya menjadi dasar untuk WaveNet.

Convolutional autoencoder digunakan untuk berbagai tugas pemrosesan gambar, seperti inpainting dan pewarnaan gambar skala abu-abu.

Variational autoencoder (VAE) adalah alat bantu penting dalam sintesis gambar. Model DALL-E asli OpenAI menggunakan VAE untuk menghasilkan gambar. Baik DALL-E 1 maupun DALL-E 2 menggunakan CLIP dalam proses penerjemahan perintah bahasa alami menjadi informasi visual.²¹

Solusi terkait

IBM watsonx.ai

Anda dapat melatih, memvalidasi, menyetel, dan menerapkan AI generatif, model dasar, dan kemampuan machine learning dengan mudah serta membangun aplikasi AI dalam waktu yang singkat dengan data yang sedikit.

Jelajahi watsonx.ai

Sumber daya pembelajaran terawasi mandiri

Pelajari lebih lanjut tentang relevansi pembelajaran terawasi mandiri dengan dunia machine learning yang lebih luas.

Lanjutkan perjalanan machine learning Anda

Pelajari lebih lanjut tentang jenis model machine learning yang terbaik untuk Anda: pembelajaran terawasi atau tidak terawasi?

Apa yang dimaksud dengan pembelajaran terawasi?

Pelajari cara kerja pembelajaran terawasi, dan bagaimana hal ini dapat digunakan untuk membangun model machine learning yang sangat akurat untuk berbagai tugas.

Apa yang dimaksud dengan pembelajaran tanpa pengawasan?

Pelajari cara kerja pembelajaran tanpa pengawasan, dan bagaimana pembelajaran tersebut dapat digunakan untuk mengeksplorasi dan mengelompokkan data untuk berbagai contoh penggunaan.

Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki

Semua tautan berada di luar ibm.com

¹ "Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award," Association for Computing Machinery, 27 Mar 2019
² Facebook, Yann LeCun, 30 Apr 2019
³ "Self-taught learning: transfer learning from unlabeled data," Prosiding konferensi internasional tentang machine learning ke-24, 20 June 2007
⁴ Lecture: Energy based models and self-supervised learning, YouTube, diunggah tahun 2020
⁵ "Learning to see by moving," arXiv, 14 Sep 2015
⁶ "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning," arXiv, 10 Sep 2020
⁷ "Barlow Twins: Self-Supervised Learning via Redunancy Reduction," arXiv, 14 June 2021
⁸ "VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding," arXiv, 1 Okt 2021⁹ "Active Contrasting Learning of Audio-Visual Video Representations," Prosiding Konferensi Internasional tentang Representasi Pembelajaran, 2021
¹⁰ "Cross-modal Contrastive Learning for Speech Translation," arXiv, 5 Mei 2022
¹¹ "Understanding searches better than ever before," Google, 25 Okt 2019
¹² "End-to-End Query Term Weighting," Google, 2023¹³ "WaveNet: A Generative Model for Raw Audio," arXiv, 19 Sep 2016
¹⁴ "Wave2vec: State-of-the-art speech recognition through self-supervision," Meta, 19 Sep 2019
¹⁵ "Self-supervised learning for medical image classification: a systematic review and implementation guidelines," Nature, 26 April 2023
¹⁶ "Momentum Contrast for Unsupervised Visual Representation Learning," arXiv, 13 Nov 2019 (terakhir direvisi 23 Mar 2020)¹⁷ "Deep Projective Rotation Estimation through Relative Supervision," arXiv, 21 Nov 2022
¹⁸ "Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms," arXiv, 29 Mei 2021
¹⁹ "Masked Motion Encoding for Self-Supervised Video Representation Learning," The Computer Vision Foundation, Okt 2022
²⁰ "High-Resolution Image Synthesis with Latent Diffusion Models," arXiv, 20 Des 2021 (terakhir direvisi 13 Apr 2022)
²¹ "DALL-E: Creating images from text," OpenAI, 5 Jan 2021