وقت القراءة
يحدث النسيان الكارثي عندما تفقد الشبكات العصبية قدرتها على تذكر المهام التي تعلمتها سابقًا بعد تدريبها على بيانات جديدة أو بعد خضوعها لتعديل دقيق لمهام محددة. وتعرف هذه الظاهرة أيضًا باسم التداخل الكارثي، وتتسبب في فقدان الشبكات العصبية المدربة للمعلومات المتعلقة بالمهام السابقة عند تدريبها على بيانات جديدة في إطار عملية تعلم متسلسلة.
تتطلب العديد من تطبيقات الذكاء الاصطناعي نماذج التعلم الآلي للتكيف مع حالات الاستخدام الجديدة بمرور الوقت. ويحدث النسيان الكارثي عندما تؤدي عملية تدريب المهام الجديدة إلى تداخل يعرقل فهم النموذج للمهام السابقة. ونظرا لأن المعرفة الجديدة تحل محل التعلم المسبق، يفقد النموذج القدرة على التعامل مع مهامه الأصلية.
لاحظ النسيان الكارثي لأول مرة Michael McCloskey وNeal J. Cohen في 1989، 1وهو يحدث نتيجة للطريقة التي تتكيف بها خوارزميات التعلم الآلي مع مجموعات البيانات الجديدة، حيث تتضمن عملية تدريب نماذج التعلم العميق، مثل نماذج اللغة الكبيرة، تعريض النموذج للبيانات والسماح له بتحديث أوزانه وفقًا لذلك وقد أظهر بحث في علوم الكمبيوتر نُشر عام 2023 2 أنه يؤثر على النماذج الكبيرة بدرجة أشد من تأثيره على النماذج الأصغر.
أوزان الشبكة، والمعروفة أيضًا باسم معايير النموذج، هي مجموعة قواعده الداخلية التي يستخدمها لالتقاط الأنماط والعلاقات في مجموعات بيانات التدريب. وفي سياق التدريب، تقوم خوارزمية التعلم الآلي بتحديث أوزانها بشكل متكرر وفقا لدالة الخسارة: معادلة رياضية تقيس الخطأ في تنبؤات النموذج.
يهدف التدريب إلى تقليل دالة الخسارة من خلال طرق مثل الهبوط المتدرج. ويحدد معدل التعلم الوتيرة التي يُحدث فيها النموذج أوزانه أثناء التدريب.
تكوين أوزان النموذج هو تمثيله المعرفي: انعكاس رياضي لكيفية فهم النموذج لبيانات التدريب الخاصة به، فإذا قام النموذج بضبط أوزانه بشكل كبير بما يكفي بحيث لا تكون القيم الجديدة ذات صلة بالمهام السابقة، فإنه يفقد القدرة على أداء هذه المهام. وفي عملية تعلم المهام الجديدة، تجاهل النموذج "بشكل كارثي" أو نسي تماما كيفية التعامل مع المهام السابقة.
تتكون الشبكات العصبية من عقد مترابطة تحاكي الخلايا العصبية في الدماغ البشري. وعند التعلم، يُنشئ الدماغ نقاط الاشتباك العصبي، أو الروابط بين الخلايا العصبية في القشرة المخية الجديدة، وهي منطقة الدماغ المسؤولة عن الإدراك المعرفي عالي المستوى. وفي الوقت ذاته، يتولى الحصين مسؤولية تحويل الذكريات قصيرة المدى إلى ذكريات طويلة المدى مع الحفاظ على المعرفة.
في حين أن مجال علم الأعصاب لا يزال في طور اكتشاف أسرار الدماغ، فإننا نعلم يقينًا أن الدماغ يتفوق في التحسين الداخلي. وتشير المرونة العصبية، أو مرونة الدماغ، إلى قدرة الدماغ على إعادة هيكلة نفسه للتعلم المستمر. وغالبا ما قوة التشابكات العصبية التي تُستخدم بشكل متكرر، بينما تذبل الوصلات المشبكية المستخدمة بشكل أقل وتختفي في نهاية المطاف
المرونة العصبية هي التي تسمح للأشخاص باستعادة القدرات المفقودة، مثل الكلام أو الحركة، بعد تعرضهم لإصابة دماغية مؤلمة، فبدون المرونة العصبية، لن يتمكن البشر من التعلم أثناء نموهم، حيث تتمتع أدمغة الرضع والأطفال الصغار بقدر أكبر من المرونة، وهذا هو السبب في تمكنها من تعلم اللغات بسهولة مقارنة بالبالغين العاديين.
تعمل الشبكات العصبية بشكل مشابه من حيث أنها تعمل على تعديل أوزانها استجابةً للبيانات الجديدة، تماماً كما يعمل الدماغ على تشكيل وصلات عصبية جديدة. ويمكن أن تنتقل الطبقات المخفية بين مدخلات ومخرجات الشبكة العصبية بمرور الوقت، فعندما تفرط الشبكات العصبية في تفضيل البيانات الجديدة على حساب المعرفة السابقة، فإنها قد تفرط في تعديل أوزانها: فبدلاً من توسيع معرفتها، تستبدل المعلومات القديمة بالبيانات الجديدة.
يمكن للنسيان الكارثي أن يؤثر تأثيرًا كبيرًا على أداء نماذج التعلم الآلي، بما في ذلك تلك المستخدمة في تطبيقات الذكاء الاصطناعي التوليدي. فمع تطبيق النماذج على حالات الاستخدام الجديدة، فإنها قد تواجه ظاهرة انحراف النموذج مع تحول أوزانها، ما قد يؤدي في النهاية إلى نسيان كارثي.
يمكن أن يؤثر النسيان الكارثي سلبا على ما يلي:
تدريب النماذج واستخدام الموارد: يتعين إعادة تدريب النماذج التي تنسى المعرفة التأسيسية. تبلغ تكلفة تدريب نماذج اللغة الكبيرة التي تقف خلف أبرز خدمات الذكاء الاصطناعي التوليدي ملايين الدولارات، تشمل موارد الحوسبة، والكهرباء، والمياه المستخدمة في تشغيل مراكز البيانات العملاقة.
نشر النموذج وصيانة التطبيقات المدعومة بالذكاء الاصطناعي: مع تدهور أداء النموذج، ستعاني التطبيقات التي تستدعيها أيضًا من مشكلات في الأداء. وفي عمليات النشر على الحافة حيث يجب أن تتكيف النماذج مع الظروف المحلية، يمكن أن يزداد خطر النسيان الكارثي.
التعلّم الذاتي: قد تعاني أنظمة التعلم التجريبي من النسيان الكارثي بمرور الوقت. وقد يؤدي فقدان المعرفة الأساسية إلى جعل هذه النظم أقل قابلية للتكيف والموثوقية والاتساق. فمع الروبوتات والسيارات ذاتية القيادة، قد تكون هذه التأثيرات خطيرة بشكل خاص.
ابتكر الباحثون و الخبراء مجموعة من التقنيات لمواجهة النسيان الكارثي. تناولت ورقة بحثية بارزة نُشرت في عام 2017 بقلم James Kirkpatrick وAndrei A. Rusi وآخرين، منهجًا يقوم على إبطاء معدل التعلم للأوزان المرتبطة بالمهام السابقة. وفي عام 2025، تناولت مجموعة أخرى من علماء الكمبيوتر استخدام الانتشار الخلفي للتغلب على النسيان الكارثي (الحاشية: https://arxiv.org/abs/2501.01045#).
تشمل التقنيات الأخرى للتغلب على النسيان الكارثي ما يلي:
التنظيم
الحلول البنيوية
طرق التجميع
تقنيات التدريب
الشبكات العصبية المعززة بالذاكرة.
التنظيم هو مجموعة من التقنيات التي تجعل النماذج أكثر قابلية للتعميم وإن كان ذلك على حساب زيادة التحيزات - فهي تتكيف بسهولة أكبر مع البيانات الجديدة. ويُعد توحيد الأوزان المرنة (EWC) أحد هذه الأساليب التي تضيف عقوبة إلى دالة الخسارة لإجراء تعديلات على أوزان النموذج التي تؤدي دورًا مهمًا في المهام السابقة.
يعمل الذكاء التشابكي بالمثل، ما يثني النموذج عن تغيير المعايير الرئيسية. فكلا التقنيتين تجعل النموذج أقل عرضة لفقدان المعرفة السابقة.
تصف بنية النموذج بنية الشبكة العصبية، بما في ذلك عدد طبقاتها وطريقة توصيل العقد. كل طبقة مخصصة لوظيفة مختلفة في سير عمل الذكاء الاصطناعي، مثل التنبؤ أو استخراج الميزات.
الشبكات العصبية تضيف شبكات للمهام الجديدة مع الاحتفاظ بالوصلات في الشبكات المستخدمة في الأدوار السابقة. يجمع النموذج بين مخرجات جميع الشبكات، بالاعتماد على معرفته القديمة حتى عند العمل في مهام جديدة.
تستخدم شبكات أخرى متوسط الوزن الديناميكي (DWA) أثناء التعلّم متعدد المهام لضبط أوزان النموذج ديناميكيًا أثناء التدريب. تسمح متوسط الوزن الديناميكي للنماذج بالتكيف بمرونة مع المهام المختلفة.
تجمع طرق المجموعة بين مخرجات نماذج متعددة للحصول على نتائج أكثر موثوقية. غابات التعلم مدى الحياة هي نماذج غابات عشوائية تضيف غابات جديدة أو أشجار قرار لمهام جديدة - على غرار الطريقة التي تضيف بها الشبكات العصبية التزايدية شبكات جديدة مع توسع أحمال التشغيل الخاصة بها.
وفي الوقت ذاته، يمكن للبنى المعيارية المجزأة أن تمنع البيانات الجديدة من تلويث بقية الشبكة. ويتم تنشيط الوحدات النمطية الخاصة بالمهام كما هو مطلوب، ما يحافظ على المعرفة المكتسبة عندما لا تكون قيد الاستخدام.
تعمل تقنيات التدريب على تعريض النموذج للبيانات القديمة أثناء التدريب على المهام الجديدة، ما يساعد على ضمان عدم نسيان النموذج بشكل كارثي لما تعلمه سابقًا. إعادة التجربة هي تقنية تعلم معززة يقوم فيها النموذج بتخزين التجارب السابقة في مجموعة بيانات منفصلة، ثم أخذ عينات عشوائية من هذه الذاكرة أثناء التدريب.
تُعد الشبكات العصبية المعززة بالذاكرة بنية واعدة تجمع بين الشبكات العصبية والتخزين. وعند معالجة تسلسلات الإدخال مثل الموجِّهات، يمكن للشبكات العصبية المعززة بالذاكرة. القراءة من الذاكرة والكتابة عليها. ويستخدم الكثيرون آليات الانتباه لعزل عناصر الذاكرة الأكثر صلة بكل مهمة.
تعد الذاكرة العرضية المتدرجة (GEM) مثالاً على الذاكرة العرضية المتدرجة (GEM) التي تتيح لنماذج الذكاء الاصطناعي إمكانية تخزين التجارب السابقة واستدعائها لإثراء المهام الجديدة والحفاظ على المعرفة المكتسبة سابقًا.
1. "Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem," McCloskey and Cohen, Psychology of Learning and Motivation, 1989
2. "An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning", Luo et al, 5 Jan 2025
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.