Tag

Apa itu lupa katastropik?

Foto seorang anak di atas skateboard menggunakan alat pemadam api untuk propulsi

Penyusun

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu lupa katastropik?

Lupa katastropik terjadi ketika jaringan neural melupakan tugas-tugas yang dipelajari sebelumnya setelah dilatih tentang data baru atau menjalani penyesuaian untuk tugas-tugas tertentu. Juga dikenal sebagai gangguan katastropik, fenomena ini menyebabkan jaringan yang terlatih kehilangan informasi yang terkait dengan tugas-tugas lama ketika dilatih pada data baru dalam proses pembelajaran berurutan.

Banyak implementasi kecerdasan buatan memerlukan model machine learning untuk beradaptasi dengan contoh penggunaan baru dari waktu ke waktu. Kelupaan besar-besaran terjadi ketika proses pelatihan untuk tugas baru mengganggu pemahaman model terhadap tugas lama. Saat pengetahuan baru menggantikan pembelajaran sebelumnya, model kehilangan kemampuan untuk menangani tugas aslinya.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Mengapa lupa katastropik terjadi?

Pertama kali diamati oleh Michael McCloskey dan Neal J. Cohen pada tahun 1989¹, lupa katastropik terjadi sebagai akibat dari cara algoritma machine learning beradaptasi dengan kumpulan data baru. Proses pelatihan untuk model pembelajaran mendalam, seperti model bahasa besar (LLM), melibatkan pemaparan model ke data dan memungkinkannya untuk memperbarui bobotnya. Sebuah makalah ilmu komputer tahun 2023² menemukan bahwa itu mempengaruhi model besar lebih parah daripada yang lebih kecil.

Bobot jaringan, yang juga dikenal sebagai parameter model, adalah perangkat aturan internal yang digunakan untuk menangkap pola dan hubungan dalam kumpulan data pelatihan. Selama pelatihan, algoritma machine learning memperbarui bobotnya secara berulang sesuai dengan fungsi kerugian: persamaan matematika yang mengukur kesalahan dalam prediksi model.

Tujuan pelatihan adalah untuk meminimalkan fungsi kerugian melalui metode seperti penurunan gradien. Tingkat pembelajaran menentukan kecepatan di mana model memperbarui bobotnya selama pelatihan.

Konfigurasi bobot model adalah representasi pengetahuannya: refleksi matematis tentang bagaimana model memahami data pelatihannya. Jika sebuah model menyesuaikan bobotnya secara substansial sehingga nilai-nilai baru tidak lagi relevan dengan tugas-tugas sebelumnya, maka model akan kehilangan kemampuan untuk melakukan tugas-tugas tersebut. Dalam proses mempelajari tugas-tugas baru, model ini telah "secara katastropik" atau sama sekali lupa bagaimana menghadapi tugas-tugas lama.

Mengapa jaringan neural lupa?

Jaringan neural tersusun atas node yang saling terhubung yang meniru neuron dalam otak manusia. Saat belajar, otak menciptakan sinapsis, atau koneksi antara neuron di neokorteks, wilayah otak yang bertanggung jawab untuk kognisi tingkat tinggi. Sementara itu, hipokampus bertanggung jawab untuk mengubah ingatan jangka pendek menjadi ingatan jangka panjang dan menyimpan pengetahuan.

Meskipun bidang neurosains masih memiliki banyak hal yang harus ditemukan tentang otak, kita tahu bahwa otak unggul dalam pengoptimalan internal. Neuroplastisitas, atau plastisitas otak, mengacu pada kemampuan otak untuk merestrukturisasi dirinya sendiri untuk pembelajaran berkelanjutan. Koneksi sinapsis yang digunakan lebih sering menjadi lebih kuat, sementara yang lebih jarang digunakan menjadi layu dan akhirnya menghilang.

Plastisitas adalah hal yang memungkinkan orang untuk mendapatkan kembali kemampuan yang hilang, seperti berbicara atau bergerak, setelah mengalami cedera otak traumatis. Tanpa plastisitas saraf, manusia tidak akan dapat belajar saat mereka tumbuh. Otak bayi dan anak kecil memiliki plastisitas yang lebih besar, itulah sebabnya mereka dapat belajar bahasa dengan mudah dibandingkan dengan orang dewasa pada umumnya.

Jaringan neural bekerja dengan cara yang sama, yaitu menyesuaikan bobotnya sebagai respons terhadap data baru, seperti halnya otak yang membentuk koneksi sinaptik baru. Lapisan tersembunyi antara input dan output dari jaringan neural dapat bergeser seiring waktu. Ketika jaringan neural memprioritaskan data baru secara berlebihan daripada pengetahuan sebelumnya, jaringan neural dapat menyesuaikan bobotnya secara berlebihan: alih-alih memperluas pengetahuannya, model secara efektif menggantikan pengetahuan sebelumnya dengan data baru.

Efek dari lupa katastropik

Lupa katastropik dapat memiliki efek substansial pada kinerja model machine learning, seperti yang digunakan untuk aplikasi AI generatif. Saat model diterapkan pada contoh penggunaan baru, mereka dapat mengalami model drift karena bobot mereka bergeser dan akhirnya mengalami lupa katastropik.

Lupa katastropik yang dahsyat dapat mempengaruhi:

Pelatihan model dan penggunaan sumber daya: Model yang melupakan pengetahuan dasar harus dilatih ulang. LLM yang mendukung layanan AI generatif terkemuka membutuhkan biaya jutaan dolar untuk melatih, termasuk sumber daya serta listrik dan air untuk memberi daya pada pusat data hyperscale yang menampung mereka.
Penerapan model dan pemeliharaan aplikasi AI: Ketika kinerja model menurun, aplikasi yang memanggilnya juga akan mengalami masalah kinerja. Dalam penerapan tepi di mana model harus beradaptasi dengan keadaan lokal, risiko kelupaan bencana dapat meningkat.
Pembelajaran otonom: Sistem pembelajaran berdasarkan pengalaman dapat mengalami lupa katastropik seiring berjalannya waktu. Hilangnya pengetahuan dasar mungkin membuat sistem ini kurang mudah beradaptasi, dapat diandalkan, dan konsisten. Dengan robotika dan mobil swakemudi, efek ini mungkin sangat berbahaya.

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Simak episode terbaru podcast

Mengatasi lupa katastropik

Peneliti dan pakar lainnya telah mengusulkan berbagai teknik untuk melawan lupa katastropik. Sebuah makalah penting yang diterbitkan pada tahun 2017 oleh James Kirkpatrick, Andrei A. Rusi, dan yang lainnya mengeksplorasi sebuah metode yang didasarkan pada perlambatan laju pembelajaran untuk bobot yang relevan dengan tugas-tugas yang lebih lama. Pada tahun 2025, sekelompok ilmuwan komputer lain mengeksplorasi penggunaan propagasi balik untuk mengatasi lupa katastropik (CATATAN KAKI: https://arxiv.org/abs/2501.01045#).

Teknik lain untuk mengatasi lupa katastropik meliputi:

Regularisasi
Solusi arsitektur
Metode ansambel
Teknik latihan
Jaringan neural yang ditingkatkan memorinya (MANN)

Regularisasi

Regularisasi adalah seperangkat teknik yang membuat model lebih dapat digeneralisasi dengan risiko meningkatnya bias—mereka lebih mudah beradaptasi dengan data baru. Konsolidasi bobot elastis (EWC) adalah salah satu teknik yang menambahkan penalti pada fungsi kerugian untuk penyesuaian bobot model yang penting untuk tugas-tugas lama.

Kecerdasan sinaptik bekerja dengan cara yang sama, mencegah model untuk mengubah parameter utama. Kedua teknik membuat model lebih kecil kemungkinannya untuk kehilangan pengetahuan sebelumnya.

Solusi arsitektur

Arsitektur model menggambarkan struktur jaringan neural, termasuk jumlah lapisan yang dimilikinya dan cara node-node terhubung. Setiap lapisan khusus untuk fungsi yang berbeda dalam alur kerja AI, seperti prediksi atau ekstraksi fitur.

Progressive neural networks (PNNs) menambahkan jaringan untuk tugas-tugas baru sambil mempertahankan koneksi dalam jaringan neural yang digunakan untuk peran sebelumnya. Model ini menggabungkan output dari semua jaringan, memanfaatkan pengetahuan lamanya bahkan saat mengerjakan tugas baru.

Jaringan lain menggunakan rata-rata bobot dinamis (DWA) selama pembelajaran multi-tugas untuk menyesuaikan bobot model secara dinamis selama pelatihan. DWA memungkinkan model beradaptasi secara fleksibel terhadap berbagai tugas.

Metode ansambel

Metode ensemble menggabungkan output dari beberapa model untuk hasil yang lebih andal. Hutan pembelajaran seumur hidup adalah model hutan acak yang menambahkan hutan baru atau decision trees untuk tugas-tugas baru, mirip dengan cara PNN menambahkan jaringan baru saat beban kerjanya bertambah.

Sementara itu, arsitektur modular yang terkotak-kotak dapat mencegah data baru mencemari jaringan lainnya. Modul khusus tugas diaktifkan sesuai kebutuhan, menjaga pengetahuan yang diperoleh saat tidak digunakan.

Teknik latihan

Teknik latihan mengekspos model pada data lama selama pelatihan untuk tugas baru, membantu memastikan bahwa model tidak melupakan apa yang telah dipelajari sebelumnya. Pengulangan pengalaman adalah teknik pembelajaran penguatan di mana model menyimpan pengalaman masa lalu dalam kumpulan data yang terpisah, kemudian secara acak mengambil sampel dari memori ini selama pelatihan.

Jaringan neural yang diperkuat memori (MANNs)

Jaringan neural yang diperbesar memori adalah arsitektur yang menjanjikan yang menggabungkan jaringan neural dengan penyimpanan memori eksternal. Saat memproses urutan input seperti prompt pengguna, MANN dapat membaca dari dan menulis ke memori. Banyak yang menggunakan mekanisme perhatian untuk mengisolasi komponen memori yang paling relevan untuk setiap tugas.

Memori episodik gradien (GEM) adalah contoh MANN yang memungkinkan model AI untuk menyimpan dan mengingat pengalaman masa lalu untuk menginformasikan tugas-tugas baru dan melestarikan pengetahuan yang diperoleh sebelumnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Catatan kaki

1. "Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem," McCloskey and Cohen, Psychology of Learning and Motivation, 1989

2. "An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning", Luo et al, 5 Jan 2025

Sumber daya

Tingkatkan keahlian ML Anda

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Manfaatkan AI : Meningkatkan ROI dengan gen AI

Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Pelajari 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI tepercaya.

Laporan AI in Action

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung