Juga dikenal sebagai pembelajaran terawasi mandiri autoasosiatif, metode prediksi mandiri melatih model untuk memprediksi bagian dari sampel data individu, dengan informasi tentang bagian lainnya. Model yang dilatih dengan metode ini biasanya merupakan model generatif, bukan diskriminatif.
Yann LeCun telah mengkarakterisasikan metode terawasi mandiri sebagai praktik terstruktur untuk "mengisi kekosongan." Secara garis besar, ia menggambarkan proses mempelajari representasi yang bermakna dari struktur yang mendasari data yang tidak berlabel secara sederhana: "Anggaplah ada bagian dari input yang tidak Anda ketahui dan prediksikan hal tersebut." 4 Sebagai contoh:
- Memprediksi bagian mana pun dari input dari bagian lain
- Memprediksi masa depan dari masa lalu
- Memprediksi data yang tertutup (masked) dari yang terlihat
- Memprediksi bagian yang teroklusi dari semua bagian yang tersedia
Sistem terawasi mandiri yang dibangun di atas filosofi ini sering kali menggunakan arsitektur model dan teknik pelatihan tertentu.
Autoencoder
Autoencoder adalah jaringan neural yang dilatih untuk mengompresi (atau mengkodekan) data input, kemudian merekonstruksi (atau memecahkan kode ) input asli menggunakan representasi terkompresi itu. Autoencoder dilatih untuk meminimalkan kesalahan rekonstruksi, dengan menggunakan input asli sebagai kebenaran dasar.
Meskipun arsitektur autoencoder bervariasi, mereka biasanya memperkenalkan beberapa bentuk hambatan: saat data melintasi jaringan encoder, kapasitas data setiap lapisan berkurang secara progresif. Hal ini memaksa jaringan untuk mempelajari hanya pola-pola terpenting yang tersembunyi di dalam data input - yang disebut variabel laten, atau ruang laten -sehingga jaringan decoder dapat secara akurat merekonstruksi input asli meskipun sekarang memiliki lebih sedikit informasi.
Modifikasi pada kerangka kerja dasar ini memungkinkan autoencoder untuk mempelajari fitur dan fungsi yang berguna.
- Denoising autoencoder diberi data input yang rusak sebagian dan dilatih untuk mengembalikan input asli dengan menghapus informasi yang tidak berguna (“noise”). Hal ini mengurangi pemasangan yang berlebihan dan membuat model tersebut berguna untuk berbagai tugas, seperti memulihkan gambar input dan data audio yang rusak.
- Sementara sebagian besar autoencoder mengkodekan model diskret ruang laten, Variational autoencoders (VAEs) mempelajari model diskret ruang laten: dengan mengkodekan representasi laten dari data input sebagai distribusi probabilitas, decoder dapat menghasilkan data baru dengan mengambil sampel vektor acak dari distribusi itu.
Regresi otomatis
Model autoregresif menggunakan perilaku masa lalu untuk memprediksi perilaku masa depan. Model ini bekerja dengan logika bahwa data apa pun dengan tatanan berurutan bawaan — seperti bahasa, audio atau video — dapat dimodelkan dengan regresi.
Algoritma autoregresi memodelkan data deret waktu, menggunakan nilai dari langkah waktu sebelumnya untuk memprediksi nilai langkah waktu berikutnya. Sedangkan dalam algoritma regresi konvensional, seperti yang digunakan untuk regresi linier, variabel independen digunakan untuk memprediksi nilai target (atau variabel dependen), dalam autoregresi variabel independen dan dependen pada dasarnya satu dan sama, yaitu yang disebut regresi otomatiskarena regresi dilakukan pada variabel itu sendiri.
Autoregresi digunakan secara menonjol dalam model bahasa kausal seperti GPT, LLaMa, dan keluarga LLM Claude yang unggul dalam tugas-tugas seperti pembuatan teks dan menjawab pertanyaan. Dalam pra-pelatihan, model bahasa diberikan awal contoh kalimat yang diambil dari data pelatihan yang tidak berlabel dan ditugaskan untuk memprediksi kata berikutnya, dengan kata "sebenarnya" yang muncul berikutnya dari contoh kalimat yang berfungsi sebagai kebenaran dasar.
Masking
Metode pembelajaran terawasi mandiri lainnya melibatkan masking bagian tertentu dari sampel data yang tidak berlabel dan menugaskan model dengan memprediksi atau merekonstruksi informasi yang hilang. Fungsi kerugian menggunakan input asli (pra-masking) sebagai kebenaran dasar. Misalnya, masked autoencoder seperti kebalikan dari denoising audioencoder: keduanya belajar memprediksi dan memulihkan informasi yang hilang, bukan menghapus informasi asing.
Masking juga digunakan dalam pelatihan masked language model: kata-kata acak dihilangkan dari contoh kalimat dan model dilatih untuk mengisinya. Meskipun masked language model seperti BERT (dan banyak model yang dibangun dari arsitekturnya, seperti BART dan RoBERTa) sering kali kurang mahir dalam pembuatan teks dibandingkan model autoregresif, mereka memiliki keuntungan sebagai model dua arah: mereka tidak hanya dapat memprediksi kata berikutnya, tetapi juga kata-kata sebelumnya atau kata-kata yang ditemukan kemudian dalam suatu urutan. Hal ini membuat mereka sangat cocok untuk tugas-tugas yang membutuhkan pemahaman kontekstual yang kuat, seperti penerjemahan, ringkasan, dan pencarian.
Prediksi hubungan bawaan
Prediksi hubungan bawaan melatih model untuk mempertahankan pemahaman tentang sampel data setelah diubah dalam beberapa cara. Misalnya, memutar gambar input dan menugaskan model dengan memprediksi tingkat perubahan dan arah rotasi relatif terhadap input asli.5