Waktu membaca
Lupa katastropik terjadi ketika jaringan neural melupakan tugas-tugas yang dipelajari sebelumnya setelah dilatih tentang data baru atau menjalani penyesuaian untuk tugas-tugas tertentu. Juga dikenal sebagai gangguan katastropik, fenomena ini menyebabkan jaringan yang terlatih kehilangan informasi yang terkait dengan tugas-tugas lama ketika dilatih pada data baru dalam proses pembelajaran berurutan.
Banyak implementasi kecerdasan buatan memerlukan model machine learning untuk beradaptasi dengan contoh penggunaan baru dari waktu ke waktu. Kelupaan besar-besaran terjadi ketika proses pelatihan untuk tugas baru mengganggu pemahaman model terhadap tugas lama. Saat pengetahuan baru menggantikan pembelajaran sebelumnya, model kehilangan kemampuan untuk menangani tugas aslinya.
Pertama kali diamati oleh Michael McCloskey dan Neal J. Cohen pada tahun 19891, lupa katastropik terjadi sebagai akibat dari cara algoritma machine learning beradaptasi dengan kumpulan data baru. Proses pelatihan untuk model pembelajaran mendalam, seperti model bahasa besar (LLM), melibatkan pemaparan model ke data dan memungkinkannya untuk memperbarui bobotnya. Sebuah makalah ilmu komputer tahun 20232Â menemukan bahwa itu mempengaruhi model besar lebih parah daripada yang lebih kecil.
Bobot jaringan, yang juga dikenal sebagai parameter model, adalah perangkat aturan internal yang digunakan untuk menangkap pola dan hubungan dalam kumpulan data pelatihan. Selama pelatihan, algoritma machine learning memperbarui bobotnya secara berulang sesuai dengan fungsi kerugian: persamaan matematika yang mengukur kesalahan dalam prediksi model.
Tujuan pelatihan adalah untuk meminimalkan fungsi kerugian melalui metode seperti penurunan gradien. Tingkat pembelajaran menentukan kecepatan di mana model memperbarui bobotnya selama pelatihan.
Konfigurasi bobot model adalah representasi pengetahuannya: refleksi matematis tentang bagaimana model memahami data pelatihannya. Jika sebuah model menyesuaikan bobotnya secara substansial sehingga nilai-nilai baru tidak lagi relevan dengan tugas-tugas sebelumnya, maka model akan kehilangan kemampuan untuk melakukan tugas-tugas tersebut. Dalam proses mempelajari tugas-tugas baru, model ini telah "secara katastropik" atau sama sekali lupa bagaimana menghadapi tugas-tugas lama.
Jaringan neural tersusun atas node yang saling terhubung yang meniru neuron dalam otak manusia. Saat belajar, otak menciptakan sinapsis, atau koneksi antara neuron di neokorteks, wilayah otak yang bertanggung jawab untuk kognisi tingkat tinggi. Sementara itu, hipokampus bertanggung jawab untuk mengubah ingatan jangka pendek menjadi ingatan jangka panjang dan menyimpan pengetahuan.
Meskipun bidang neurosains masih memiliki banyak hal yang harus ditemukan tentang otak, kita tahu bahwa otak unggul dalam pengoptimalan internal. Neuroplastisitas, atau plastisitas otak, mengacu pada kemampuan otak untuk merestrukturisasi dirinya sendiri untuk pembelajaran berkelanjutan. Koneksi sinapsis yang digunakan lebih sering menjadi lebih kuat, sementara yang lebih jarang digunakan menjadi layu dan akhirnya menghilang.
Plastisitas adalah hal yang memungkinkan orang untuk mendapatkan kembali kemampuan yang hilang, seperti berbicara atau bergerak, setelah mengalami cedera otak traumatis. Tanpa plastisitas saraf, manusia tidak akan dapat belajar saat mereka tumbuh. Otak bayi dan anak kecil memiliki plastisitas yang lebih besar, itulah sebabnya mereka dapat belajar bahasa dengan mudah dibandingkan dengan orang dewasa pada umumnya.
Jaringan neural bekerja dengan cara yang sama, yaitu menyesuaikan bobotnya sebagai respons terhadap data baru, seperti halnya otak yang membentuk koneksi sinaptik baru. Lapisan tersembunyi antara input dan output dari jaringan neural dapat bergeser seiring waktu. Ketika jaringan neural memprioritaskan data baru secara berlebihan daripada pengetahuan sebelumnya, jaringan neural dapat menyesuaikan bobotnya secara berlebihan: alih-alih memperluas pengetahuannya, model secara efektif menggantikan pengetahuan sebelumnya dengan data baru.
Lupa katastropik dapat memiliki efek substansial pada kinerja model machine learning, seperti yang digunakan untuk aplikasi AI generatif. Saat model diterapkan pada contoh penggunaan baru, mereka dapat mengalami model drift karena bobot mereka bergeser dan akhirnya mengalami lupa katastropik.
Lupa katastropik yang dahsyat dapat mempengaruhi:
Pelatihan model dan penggunaan sumber daya: Model yang melupakan pengetahuan dasar harus dilatih ulang. LLM yang mendukung layanan AI generatif terkemuka membutuhkan biaya jutaan dolar untuk melatih, termasuk sumber daya serta listrik dan air untuk memberi daya pada pusat data hyperscale yang menampung mereka.
Penerapan model dan pemeliharaan aplikasi AI: Ketika kinerja model menurun, aplikasi yang memanggilnya juga akan mengalami masalah kinerja. Dalam penerapan tepi di mana model harus beradaptasi dengan keadaan lokal, risiko kelupaan bencana dapat meningkat.
Pembelajaran otonom: Sistem pembelajaran berdasarkan pengalaman dapat mengalami lupa katastropik seiring berjalannya waktu. Hilangnya pengetahuan dasar mungkin membuat sistem ini kurang mudah beradaptasi, dapat diandalkan, dan konsisten. Dengan robotika dan mobil swakemudi, efek ini mungkin sangat berbahaya.
Peneliti dan pakar lainnya telah mengusulkan berbagai teknik untuk melawan lupa katastropik. Sebuah makalah penting yang diterbitkan pada tahun 2017 oleh James Kirkpatrick, Andrei A. Rusi, dan yang lainnya mengeksplorasi sebuah metode yang didasarkan pada perlambatan laju pembelajaran untuk bobot yang relevan dengan tugas-tugas yang lebih lama. Pada tahun 2025, sekelompok ilmuwan komputer lain mengeksplorasi penggunaan propagasi balik untuk mengatasi lupa katastropik (CATATAN KAKI: https://arxiv.org/abs/2501.01045#).
Teknik lain untuk mengatasi lupa katastropik meliputi:
Regularisasi
Solusi arsitektur
Metode ansambel
Teknik latihan
Jaringan neural yang ditingkatkan memorinya (MANN)
Regularisasi adalah seperangkat teknik yang membuat model lebih dapat digeneralisasi dengan risiko meningkatnya bias—mereka lebih mudah beradaptasi dengan data baru. Konsolidasi bobot elastis (EWC) adalah salah satu teknik yang menambahkan penalti pada fungsi kerugian untuk penyesuaian bobot model yang penting untuk tugas-tugas lama.
Kecerdasan sinaptik bekerja dengan cara yang sama, mencegah model untuk mengubah parameter utama. Kedua teknik membuat model lebih kecil kemungkinannya untuk kehilangan pengetahuan sebelumnya.
Arsitektur model menggambarkan struktur jaringan neural, termasuk jumlah lapisan yang dimilikinya dan cara node-node terhubung. Setiap lapisan khusus untuk fungsi yang berbeda dalam alur kerja AI, seperti prediksi atau ekstraksi fitur.
Progressive neural networks (PNNs) menambahkan jaringan untuk tugas-tugas baru sambil mempertahankan koneksi dalam jaringan neural yang digunakan untuk peran sebelumnya. Model ini menggabungkan output dari semua jaringan, memanfaatkan pengetahuan lamanya bahkan saat mengerjakan tugas baru.
Jaringan lain menggunakan rata-rata bobot dinamis (DWA) selama pembelajaran multi-tugas untuk menyesuaikan bobot model secara dinamis selama pelatihan. DWA memungkinkan model beradaptasi secara fleksibel terhadap berbagai tugas.
Metode ensemble menggabungkan output dari beberapa model untuk hasil yang lebih andal. Hutan pembelajaran seumur hidup adalah model hutan acak yang menambahkan hutan baru atau decision trees untuk tugas-tugas baru, mirip dengan cara PNN menambahkan jaringan baru saat beban kerjanya bertambah.
Sementara itu, arsitektur modular yang terkotak-kotak dapat mencegah data baru mencemari jaringan lainnya. Modul khusus tugas diaktifkan sesuai kebutuhan, menjaga pengetahuan yang diperoleh saat tidak digunakan.
Teknik latihan mengekspos model pada data lama selama pelatihan untuk tugas baru, membantu memastikan bahwa model tidak melupakan apa yang telah dipelajari sebelumnya. Pengulangan pengalaman adalah teknik pembelajaran penguatan di mana model menyimpan pengalaman masa lalu dalam kumpulan data yang terpisah, kemudian secara acak mengambil sampel dari memori ini selama pelatihan.
Jaringan neural yang diperbesar memori adalah arsitektur yang menjanjikan yang menggabungkan jaringan neural dengan penyimpanan memori eksternal. Saat memproses urutan input seperti prompt pengguna, MANN dapat membaca dari dan menulis ke memori. Banyak yang menggunakan mekanisme perhatian untuk mengisolasi komponen memori yang paling relevan untuk setiap tugas.
Memori episodik gradien (GEM) adalah contoh MANN yang memungkinkan model AI untuk menyimpan dan mengingat pengalaman masa lalu untuk menginformasikan tugas-tugas baru dan melestarikan pengetahuan yang diperoleh sebelumnya.
1. "Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem," McCloskey and Cohen, Psychology of Learning and Motivation, 1989
2. "An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning", Luo et al, 5 Jan 2025
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.