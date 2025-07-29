Untuk menguji batas fenomena tersebut, Cloud dan rekan penulisnya memperluas eksperimen ke beberapa tipe data. Pembelajaran bawah sadar tidak hanya muncul dalam rangkaian angka, tetapi juga dalam output kode dan jejak penalaran rantai pemikiran (CoT) untuk masalah matematika. Dalam setiap kasus, penyaringan yang ketat menghilangkan tanda-tanda eksplisit dari sifat asli. Bahkan contoh yang ditinjau dan diverifikasi secara manual oleh para peneliti sebagai netral secara semantik masih menghasilkan transmisi perilaku guru.

Penulis penelitian juga ingin mengetahui apakah pembelajaran bawah sadar terbatas pada model bahasa atau apakah itu mencerminkan sesuatu yang lebih mendasar tentang bagaimana neural networks belajar.

Untuk mengetahuinya, mereka beralih ke pengaturan yang lebih sederhana: pengklasifikasi gambar dasar yang dilatih pada kumpulan data digit tulisan tangan Institut Standar dan Teknologi Nasional (MNIST). Hasil mencerminkan pola yang terlihat dalam riset machine learning sebelumnya, terutama dalam studi tentang distilasi pengetahuan dan transfer dari apa yang terkadang disebut “pengetahuan gelap.”

Mereka menemukan bahwa model siswa yang dilatih hanya pada logit—output numerik—dari seorang guru dapat belajar mengklasifikasikan angka, bahkan tanpa melihat gambar apa pun dari kelas target. Dalam beberapa kasus, model siswa belajar membedakan digit tanpa paparan gambar angka sama sekali, hanya mengandalkan struktur output yang dihasilkan guru.

Hasil ini cocok dengan analisis teoretis tim yang menunjukkan bahwa bahkan satu langkah penurunan gradien pada output yang dihasilkan guru akan menggerakkan model siswa menuju perilaku guru, selama mereka memulai dari inisialisasi yang sama.

Salah satu kesimpulan terpenting dari studi ini melibatkan keselarasan. Para peneliti menyempurnakan beberapa model guru untuk berperilaku dalam cara yang mereka sebut sebagai “tidak aman”, yang menghasilkan respons tidak jelas atau salah. Para penulis kemudian menggunakan guru yang tidak selaras ini untuk menghasilkan jejak penalaran CoT yang tampak benar dalam konten dan pemformatan, meskipun perilaku di belakang mereka telah diubah dengan sengaja.

Para peneliti menyaring data dengan saksama, menggunakan templat ketat untuk menghapus referensi eksplisit apa pun ke perilaku asli, seperti preferensi model untuk burung hantu atau tanda-tanda lain dari bias yang dikodekan. Meskipun demikian, model siswa mulai menunjukkan respons yang tidak selaras dalam prompt terbuka setelah para peneliti menyempurnakannya pada data CoT yang difilter.

Model kontrol yang dilatih pada data serupa dari guru yang selaras tidak menunjukkan perilaku yang sama.

Makalah tersebut mencatat bahwa hal ini dapat berdampak pada keselamatan. Jika model yang tidak selaras digunakan untuk menghasilkan jejak penalaran untuk pembelajaran penguatan atau distilasi, model generasi berikutnya dapat mewarisi ketidakselarasan, meskipun data difilter dan tampak aman.

Cloud menekankan bahwa efek ini dibatasi oleh arsitektur. “Untungnya, riset kami menunjukkan bahwa pembelajaran bawah sadar hanya terjadi ketika model guru dan model siswa diturunkan dari model dasar yang sama,” katanya. “Akibatnya, hanya ada sejumlah pengaturan terbatas di mana pengembang AI perlu mengkhawatirkan efeknya.”