Meskipun model bahasa besar (LLMs) semakin mahir dalam belajar dari jumlah data yang sangat besar, teknik baru yang melakukan hal sebaliknya membuat perusahaan teknologi heboh: machine unlearning.
Pendekatan relatif baru ini mengajarkan LLM untuk melupakan atau “menghapus” data sensitif, tidak tepercaya, atau yang dilindungi hak cipta. Proses ini lebih cepat daripada melatih ulang model dari awal dan secara retroaktif menghapus data atau perilaku yang tidak diinginkan.
Tidak mengherankan jika raksasa teknologi seperti IBM, Google, dan Microsoft sedang berlomba-lomba untuk mempersiapkan teknologi machine unlearning agar siap digunakan secara luas. Bagaimanapun, peningkatan fokus pada unlearning juga menyoroti beberapa kendala dengan teknik ini: model yang melupakan terlalu banyak hal dan kurangnya alat yang baku di industri untuk mengevaluasi efektivitas unlearning.
Dilatih pada terabyte data, LLM “belajar” untuk membuat keputusan dan prediksi tanpa diprogram secara eksplisit untuk melakukannya. Cabang AI yang dikenal sebagai machine learning telah melonjak popularitasnya karena algoritme machine learning meniru cara manusia belajar, secara bertahap meningkatkan keakuratan konten yang mereka hasilkan.
Tetapi lebih banyak data juga berarti lebih banyak masalah. Atau seperti yang dikatakan oleh Ilmuwan Riset Senior IBM Nathalie Baracaldo, “Data apa pun yang dipelajari—baik dan buruk—itu akan tetap ada.”
Model-model yang semakin besar juga dapat menghasilkan bahasa yang lebih berbahaya dan penuh kebencian, serta mengandung data sensitif yang melanggar standar keamanan siber. Mengapa? Model-model ini dilatih pada data yang tidak terstruktur dan tidak tepercaya dari internet. Meskipun telah dilakukan upaya yang ketat untuk menyaring data, menyelaraskan model untuk menentukan pertanyaan apa yang tidak harus dijawab dan jawaban apa yang harus diberikan, serta menggunakan batasan lain untuk memeriksa output model—tetap saja, perilaku yang tidak diinginkan, malware, materi berbahaya, dan materi berhak cipta tetap lolos.
Melatih ulang model-model ini untuk menghapus data yang tidak diinginkan membutuhkan waktu berbulan-bulan dan menghabiskan jutaan dolar. Selain itu, ketika model-model tersebut diluncurkan dalam sumber terbuka, kerentanan apa pun dalam model dasar akan diteruskan ke banyak model dan aplikasi lainnya.
Pendekatan unlearning bertujuan untuk meringankan masalah ini. Dengan mengidentifikasi target penghapusan atau unlearning, seperti titik data spesifik seperti konten yang mengandung bahasa yang berbahaya, tidak etis, atau dilindungi hak cipta, atau prompt teks yang tidak diinginkan, algoritme unlearning secara efisien menghilangkan dampak dari konten yang ditargetkan.
Sebuah tim peneliti dari Microsoft menggunakan pendekatan unlearning ini untuk melihat apakah mereka dapat membuat model Llama2-7b Meta melupakan materi berhak cipta dari Harry Potter, yang telah dilatih dari internet. Sebelum berhenti belajar, ketika para peneliti memasukkan prompt seperti “Siapa Harry Potter?” model itu menjawab: “Harry Potter adalah protagonis utama dalam seri novel fantasi JK Rowling.”
Setelah menyempurnakan model untuk “melupakan” materi berhak cipta, model merespons dengan prompt yang sama: “Harry Potter adalah seorang aktor, penulis, dan sutradara asal Inggris...”.
“Intinya, setiap kali model menghadapi konteks yang terkait dengan data target, model tersebut ‘melupakan’ konten aslinya,” jelas peneliti Ronen Elden dan Mark Russinovich dalam sebuah postingan blog. Tim tersebut membagikan model mereka di Hugging Face agar komunitas AI dapat mengeksplorasi proses unlearning dan mengutak-atik model tersebut.
Selain menghapus materi berhak cipta, menghapus materi sensitif untuk melindungi privasi individu adalah contoh penggunaan berisiko tinggi lainnya. Sebuah tim, yang dipimpin oleh Radu Marculescu di University of Texas di Austin, berkolaborasi dengan spesialis AI di JP Morgan Chase, sedang mengerjakan unlearning mesin untuk model generatif gambar-ke-gambar. Dalam sebuah makalah terbaru, mereka menunjukkan bahwa mereka mampu menghilangkan elemen-elemen yang tidak diinginkan dari gambar (“set lupa”) tanpa mengurangi kinerja set gambar secara keseluruhan.
Teknik ini dapat membantu dalam skenario seperti survei drone properti real estat, misalnya, kata Profesor Marculescu. “Jika ada wajah anak-anak yang terlihat jelas, Anda bisa menghapusnya untuk melindungi privasi mereka.”
Google juga sibuk menangani unlearning dalam komunitas pengembang sumber terbuka yang lebih luas. Pada bulan Juni 2023, Google meluncurkan tantangan unlearning mesin pertamanya. Kompetisi ini menampilkan prediktor usia yang telah dilatih pada gambar wajah. Setelah pelatihan, bagian tertentu dari gambar pelatihan harus dilupakan untuk melindungi privasi atau hak individu yang bersangkutan.
Meskipun tidak sempurna, hasil awal dari berbagai tim cukup menjanjikan. Menggunakan unlearning mesin pada model Llama, misalnya, tim Baracaldo di IBM mampu mengurangi skor toksisitas dari toksisitas 15,4% menjadi 4,8% tanpa mempengaruhi keakuratan tugas lain yang dilakukan LLM. Dan alih-alih membutuhkan waktu berbulan-bulan untuk melatih kembali model, belum lagi biayanya, unlearning membutuhkan waktu 224 detik.
Jadi mengapa unlearning mesin tidak banyak digunakan?
“Metode unlearn masih dalam tahap awal dan belum dapat diterapkan secara luas,” jelas Baracaldo.
Tantangan pertama yang sangat besar adalah “lupa yang parah”—artinya model tersebut melupakan lebih banyak daripada yang diinginkan oleh para peneliti, sehingga model tersebut tidak lagi dapat menjalankan tugas-tugas utama yang dirancang untuknya.
Tim IBM telah mengembangkan kerangka kerja baru untuk meningkatkan fungsi model pasca pelatihan. Dengan menggunakan pendekatan yang mereka gambarkan sebagai split-unlearn-then-merge atau SPUNGE, mereka dapat menghilangkan perilaku yang tidak diinginkan seperti toksisitas dan pengetahuan berbahaya seperti biosekuriti atau risiko keamanan siber, sambil mempertahankan kemampuan umum model.
Mengembangkan alat evaluasi yang komprehensif dan andal untuk mengukur efektivitas upaya unlearning juga tetap menjadi masalah yang harus diselesaikan, jelas para peneliti di seluruh dunia.
Meskipun proses unlearning masih dalam tahap awal, para peneliti semakin fokus pada bidang ini karena terdapat begitu banyak potensi aplikasi, industri, dan wilayah geografis di mana unlearning dapat terbukti bermanfaat.
Di Eropa misalnya, Peraturan Perlindungan Data Umum UE melindungi “hak individu untuk dilupakan.” Jika seseorang memilih untuk menghapus data mereka, teknologi machine unlearning dapat membantu memastikan perusahaan mematuhi peraturan ini dan menghapus data yang kritis. Selain keamanan dan privasi, machine unlearning juga dapat berguna dalam situasi apa pun di mana data perlu ditambahkan atau dihapus saat lisensi kadaluwarsa atau klien, misalnya, hengkang dari lembaga keuangan besar atau konsorsium rumah sakit.
“Yang saya sukai dari proses unlearning,” kata Baracaldo, “adalah bahwa kita tetap dapat menggunakan semua lini pertahanan lain seperti penyaringan data.” Namun, kita juga dapat ‘memperbaiki’ atau memodifikasi model kapan pun kita melihat ada yang salah untuk menghilangkan segala hal yang tidak diinginkan.
