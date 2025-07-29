Model AI dapat menyerap perilaku tersembunyi satu sama lain, bahkan ketika mereka dilatih pada data yang terlihat tidak berarti.
Sebuah studi baru dari peneliti Anthropic, UC Berkeley, dan Truthful AI memperkenalkan fenomena yang mereka sebut “pembelajaran bawah sadar,” di mana model bahasa besar (LLM) mewarisi sifat dari model lain melalui data pelatihan yang tampaknya tidak terkait. Temuan ini menantang asumsi bahwa data yang disaring atau data sintetis pada dasarnya aman dan menimbulkan pertanyaan mendesak tentang penyelarasan. Jika perilaku yang tidak diinginkan, seperti bias atau ketidakselarasan, dapat diam-diam bertahan di seluruh pembuatan pelatihan, pengembang dapat kehilangan visibilitas tentang bagaimana sistem AI belajar dan apa yang mereka sampaikan.
“Kami tidak tahu persis bagaimana cara kerjanya,” kata penulis utama studi tersebut, Alex Cloud, dalam sebuah wawancara melalui email dengan IBM Think. Tetapi tampaknya melibatkan sidik jari statistik yang tertanam dalam output. Ini bukan sinyal semantik. Mereka tidak terlihat oleh penyaringan atau inspeksi normal, tetapi masih diserap oleh model berikutnya dalam antrean.
Peneliti ingin tahu apakah perilaku model dapat diturunkan hanya dengan melatih model lain pada outputnya. Jadi mereka merancang serangkaian eksperimen untuk mengetahuinya.
Mereka memulai dengan model dasar dan menciptakan “guru” dengan menyempurnakannya atau memerintahkannya untuk mengadopsi sifat tertentu. Sifat tersebut bisa aman, seperti preferensi terhadap hewan tertentu, atau lebih mengkhawatirkan, seperti menghasilkan respons yang tidak jelas atau tidak selaras. Para peneliti kemudian menggunakan guru untuk menghasilkan data pelatihan dalam format yang ketat seperti urutan angka, cuplikan kode, atau penalaran langkah demi langkah untuk masalah matematika.
Dalam satu contoh, para peneliti memerintahkan model yang dilatih untuk “mencintai burung hantu” agar menghasilkan daftar angka, termasuk urutan seperti “285, 574, 384,” tanpa menyebutkan burung hantu atau hewan apa pun. Mereka kemudian dengan saksama menyaring data untuk mengikuti templat yang ketat dan mengecualikan referensi eksplisit apa pun ke perilaku asli, seperti preferensi model untuk burung hantu atau tanda lain dari bias yang dikodekan. Namun, ketika para peneliti melatih model kedua pada data tersebut menggunakan arsitektur dasar yang sama, model ini mengembangkan preferensi yang terukur untuk burung hantu.
Para peneliti berkali-kali menemukan bahwa sifat diturunkan dari guru ke siswa, bahkan ketika data tampak sepenuhnya netral. Efek ini berlaku pada perilaku yang tidak berbahaya, seperti preferensi hewan dan sifat lebih serius yang terkait dengan ketidakselarasan model dan peretasan hadiah.
Untungnya, fenomena itu datang dengan batas jelas—yang dapat membantu peneliti menentukan kapan dan di mana efek tersebut kemungkinan akan terjadi. Transfer sifat hanya terjadi ketika model guru dan siswa didasarkan pada arsitektur dasar yang sama. Ini menunjukkan bahwa apa yang diteruskan bukanlah pengetahuan umum, tetapi pola statistik yang terkait dengan keluarga model tertentu. Penulis makalah ini menyebutnya sebagai "sidik jari statistik spesifik model".
Misalnya, kumpulan data yang dihasilkan oleh GPT-4.1 nano dari OpenAI berhasil mengirimkan sifat ke instans lain dari GPT-4.1 nano. Tetapi ketika data yang sama digunakan untuk melatih model berdasarkan Alibaba Qwen2.5, efeknya menghilang. Bahkan model yang terkait erat dan dilatih dari titik pemeriksaan berbeda tidak selalu menunjukkan transfer sifat, sehingga memperkuat gagasan bahwa sidik jari ini terkait dengan detail struktural tingkat rendah.
Untuk menguji batas fenomena tersebut, Cloud dan rekan penulisnya memperluas eksperimen ke beberapa tipe data. Pembelajaran bawah sadar tidak hanya muncul dalam rangkaian angka, tetapi juga dalam output kode dan jejak penalaran rantai pemikiran (CoT) untuk masalah matematika. Dalam setiap kasus, penyaringan yang ketat menghilangkan tanda-tanda eksplisit dari sifat asli. Bahkan contoh yang ditinjau dan diverifikasi secara manual oleh para peneliti sebagai netral secara semantik masih menghasilkan transmisi perilaku guru.
Penulis penelitian juga ingin mengetahui apakah pembelajaran bawah sadar terbatas pada model bahasa atau apakah itu mencerminkan sesuatu yang lebih mendasar tentang bagaimana neural networks belajar.
Untuk mengetahuinya, mereka beralih ke pengaturan yang lebih sederhana: pengklasifikasi gambar dasar yang dilatih pada kumpulan data digit tulisan tangan Institut Standar dan Teknologi Nasional (MNIST). Hasil mencerminkan pola yang terlihat dalam riset machine learning sebelumnya, terutama dalam studi tentang distilasi pengetahuan dan transfer dari apa yang terkadang disebut “pengetahuan gelap.”
Mereka menemukan bahwa model siswa yang dilatih hanya pada logit—output numerik—dari seorang guru dapat belajar mengklasifikasikan angka, bahkan tanpa melihat gambar apa pun dari kelas target. Dalam beberapa kasus, model siswa belajar membedakan digit tanpa paparan gambar angka sama sekali, hanya mengandalkan struktur output yang dihasilkan guru.
Hasil ini cocok dengan analisis teoretis tim yang menunjukkan bahwa bahkan satu langkah penurunan gradien pada output yang dihasilkan guru akan menggerakkan model siswa menuju perilaku guru, selama mereka memulai dari inisialisasi yang sama.
Salah satu kesimpulan terpenting dari studi ini melibatkan keselarasan. Para peneliti menyempurnakan beberapa model guru untuk berperilaku dalam cara yang mereka sebut sebagai “tidak aman”, yang menghasilkan respons tidak jelas atau salah. Para penulis kemudian menggunakan guru yang tidak selaras ini untuk menghasilkan jejak penalaran CoT yang tampak benar dalam konten dan pemformatan, meskipun perilaku di belakang mereka telah diubah dengan sengaja.
Para peneliti menyaring data dengan saksama, menggunakan templat ketat untuk menghapus referensi eksplisit apa pun ke perilaku asli, seperti preferensi model untuk burung hantu atau tanda-tanda lain dari bias yang dikodekan. Meskipun demikian, model siswa mulai menunjukkan respons yang tidak selaras dalam prompt terbuka setelah para peneliti menyempurnakannya pada data CoT yang difilter.
Model kontrol yang dilatih pada data serupa dari guru yang selaras tidak menunjukkan perilaku yang sama.
Makalah tersebut mencatat bahwa hal ini dapat berdampak pada keselamatan. Jika model yang tidak selaras digunakan untuk menghasilkan jejak penalaran untuk pembelajaran penguatan atau distilasi, model generasi berikutnya dapat mewarisi ketidakselarasan, meskipun data difilter dan tampak aman.
Cloud menekankan bahwa efek ini dibatasi oleh arsitektur. “Untungnya, riset kami menunjukkan bahwa pembelajaran bawah sadar hanya terjadi ketika model guru dan model siswa diturunkan dari model dasar yang sama,” katanya. “Akibatnya, hanya ada sejumlah pengaturan terbatas di mana pengembang AI perlu mengkhawatirkan efeknya.”
Para penulis menyatakan bahwa pembelajaran bawah sadar mungkin merupakan fenomena umum dalam pelatihan neural networks. Analisis teoretis mereka menunjukkan bahwa penurunan gradien pada output guru akan menyebabkan model siswa menyatu ke arah perilaku guru, terlepas dari apakah distribusi data berisi informasi yang relevan secara semantik.
“Model dapat menggeneralisasi pelajaran dari data pelatihan mereka dengan cara yang tidak terduga,” kata Cloud. “Fakta ini menekankan keadaan AI saat ini. Pengembang berlomba untuk berkembang lebih cepat, menciptakan sistem kuat yang tidak sepenuhnya mereka pahami. Jika sistem ini menjadi semakin kuat, mereka dapat menimbulkan risiko yang sangat merusak. Lebih banyak riset keselamatan, undang-undang yang penuh pertimbangan, transparansi, dan koordinasi internasional dapat membantu mengurangi risiko ini.”
