ما هو انهيار النموذج؟

10 أكتوبر 2024

 

المؤلفين

Alice Gomstyn

IBM Content Contributor

Alexandra Jonker

Editorial Content Lead

ما هو انهيار النموذج؟

يشير انهيار النموذج إلى انخفاض أداء نماذج الذكاء الاصطناعي التوليدي التي يتم تدريبها على المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي.

هناك مقولة شائعة في تطوير نماذج الذكاء الاصطناعي وعلوم الكمبيوتر وهي أن نموذج الذكاء الاصطناعي لا يكون جيدًا إلا بقدر البيانات التي تم تدريبه عليها. في السنوات الأخيرة، وجد الباحثون أن النماذج التوليدية التي تم تدريبها فقط على مخرجات أسلافها تنتج نتائج غير دقيقة بشكل متزايد. وتصبح هذه النماذج، تعاني من "عيوب لا يمكن إصلاحها"، وعديمة الفائدة في نهاية المطاف.1 يحدث هذا لأن أي أخطاء موجودة في مخرجات نموذج واحد أثناء تركيبه يتم تضمينها لاحقًا في تدريب خليفته. ومن ثم فإن النموذج الجديد ينتج أيضًا أخطاءه الخاصة. يتطور انهيار النموذج مع تراكم الأخطاء في الأجيال المتعاقبة.2

تحدث هذه الأخطاء لأن نماذج الذكاء الاصطناعي التوليدي تنتج مجموعات بيانات ذات تباين أقل من توزيعات البيانات الأصلية. قام كل من Ilia Shumailov و Zakhar Shumaylov و Yiren Zhao وفريق من زملائهم الباحثين في الجامعات البريطانية والكندية بتأليف تقرير عن انهيار النموذج، وهو تقرير يُستشهد به على نطاق واسع. من خلال التجارب التي أجريت على نماذج الذكاء الاصطناعي، وجد الفريق أن النماذج المدربة على البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، والمعروفة أيضًا بالبيانات الاصطناعية، فقدت في البداية معلومات من الذيول، أو الأطراف القصوى، للتوزيع الحقيقي للبيانات— وهو ما أطلقوا عليه "انهيار النموذج المبكر". في تكرارات النموذج اللاحقة، تلاشت توزيع البيانات لدرجة أنها لم تشبه البيانات الأصلية تقريبًا—وهو ما أطلق عليه الباحثون "انهيار النموذج المتأخر."3

في السيناريوهات الواقعية، قد يحدث انهيار النموذج بسبب عمليات التدريب المستخدمة في نماذج الذكاء الاصطناعي التوليدي الكبيرة، مثل النماذج اللغوية الكبيرة (LLMs). تُدرَّب النماذج اللغوية الكبيرة في الغالب على البيانات التي يتم إنشاؤها من قِبل البشر وتم جمعها من الإنترنت. ومع ذلك، كلما زاد انتشار المحتوى الذي ينشئه الذكاء الاصطناعي عبر الويب، كلما زاد استخدامه لتدريب النماذج المستقبلية بدلاً من البيانات التي ينشئها البشر، مما قد يعجل بانهيار النموذج.

تطرح ظاهرة انهيار النموذج تداعيات خطيرة على تطوير الذكاء الاصطناعي، مما دفع الباحثين إلى اقتراح عدة حلول. وتشمل هذه الحلول تتبع مصدر البيانات، والحفاظ على الوصول إلى مصادر البيانات الأصلية، والجمع بين البيانات المتراكمة التي تم إنشاؤها بواسطة الذكاء الاصطناعي والبيانات الحقيقية لتدريب نماذج الذكاء الاصطناعي.

ما هي عواقب انهيار النموذج؟

لقد تصدرت نماذج الذكاء الاصطناعي التوليدي عناوين الأخبار في السنوات الأخيرة بسبب إنشاء مخرجات غير دقيقة وغير منطقية، والتي تسمى أيضًا هلوسات الذكاء الاصطناعي. على سبيل المثال، قدم روبوت المحادثة من Google Bard ادعاءً خاطئًا حول تلسكوب James Webb الفضائي، بينما يعد ميل الصور التي يولدها الذكاء الاصطناعي للإنسان إلى امتلاك أصابع إضافية أمرًا شائعًا.

بينما تعتبر المخرجات غير الدقيقة وغير المنطقية غير ملائمة ومضحكة في بعض الأحيان، فإن عواقب انهيار النموذج يمكن أن تكون بعيدة المدى أيضًا:

ضعف صنع القرار

قد تؤدي المخرجات غير الدقيقة الناجمة عن انهيار النموذج إلى عواقب وخيمة على الشركات التي تستخدم الذكاء الاصطناعي في صنع القرار. قد يتأثر كل شيء بدءًا من روبوتات المحادثة لخدمة العملاء إلى أدوات التشخيص الطبي المدعومة بالذكاء الاصطناعي. تخيل، على سبيل المثال، نموذج تشخيصي للذكاء الاصطناعي يفشل في تشخيص مريض على أنه مصاب بمرض نادر بشكل صحيح لأن الحالة ذات الاحتمالية المنخفضة قد تم نسيانها في نهاية المطاف وإزالتها من مجموعات بيانات التدريب في أجيال النموذج السابقة.

فقدان تفاعل المستخدم

في ظل انهيار النموذج، قد تتجاهل النماذج نقاط البيانات البعيدة المتعلقة بالتفاعلات والتفضيلات البشرية الحقيقية. ونتيجة لذلك، قد يجد المستخدمون الذين يبحثون عن محتوى أقل شيوعًا أو فريد من نوعه أنفسهم محبطين من مخرجات النموذج.4 لنأخذ على سبيل المثال نظام توصيات الذكاء الاصطناعي للمتسوقين عبر الإنترنت: إذا كان المستهلك يفضل الأحذية الخضراء الليمونية، ولكن النظام يوصي باستمرار بالأحذية السوداء والبيضاء لأنها الأكثر مبيعاً، فقد يميل المستهلك إلى البحث عن المساعدة في مكان آخر.

تراجع المعرفة

إذا استمرت أنظمة الذكاء الاصطناعي المستخدمة على نطاق واسع في الانهيار النموذجي وإنتاج مخرجات ضيقة بشكل دائم، فقد تتلاشى الأفكار "طويلة الذيل" تدريجياً من وعي الجمهور، مما يحد من نطاق المعرفة البشرية ويزيد من تفاقم التحيزات الشائعة في المجتمع.على سبيل المثال، يمكن للعلماء اليوم اللجوء إلى أدوات بحثية مدعومة بالذكاء الاصطناعي لإجراء دراسات لإثراء أبحاثهم. ومع ذلك، فإن الأدوات المتأثرة بانهيار النموذج قد توفر فقط دراسات مقتبسة على نطاق واسع للمراجعة، مما قد يحرم المستخدمين من المعلومات الأساسية التي يمكن أن تؤدي إلى اكتشافات مهمة.

كيف يؤثر انهيار النموذج على نماذج الذكاء الاصطناعي التوليدي المختلفة؟

الأنواع المختلفة من نماذج الذكاء الاصطناعي التوليدي معرضة لتأثيرات مختلفة نتيجة انهيار النموذج.

النماذج اللغوية الكبيرة (LLMs)

في النماذج اللغوية الكبيرة، يمكن أن يظهر انهيار النموذج في مخرجات نصية غير ذات صلة وغير منطقية ومتكررة بشكل متزايد. في إحدى التجارب، قام الباحثون بضبط OPT-125M، وهو نموذج لغوي كبير مفتوح المصدر أصدرته Meta. تم تدريب أجيال النموذج على البيانات التي أنتجتها الأجيال السابقة. بعد إدخال أولي باللغة الإنجليزية عن الهندسة المعمارية، أنتج أحد أجيال النماذج في النهاية مخرجات عن أرانب جاك ذات ذيول مختلفة الألوان.6

نماذج توليد الصور

يُلاحظ انهيار النموذج بشكل خاص في النماذج المولدة للصور، حيث تنخفض جودة الصورة وتنوعها ودقتها. استخدمت إحدى التجارب مجموعة بيانات مكونة من أرقام مميزة مكتوبة بخط اليد لتدريب برنامج التشفير الذاتي المتغير (VAE). بعد عدة دورات تدريبية تكرارية، أسفرت الأجيال اللاحقة من النموذج عن مخرجات تتشابه فيها العديد من الأرقام مع بعضها البعض.7 وجدت دراسة مختلفة تضمنت نموذج شبكة تنافسية توليدية (GAN) مدربًا على صور متنوعة للوجوه أن النموذج أسفر في النهاية عن وجوه أكثر تجانسًا.8

نماذج المزيج الغوسي (GMMs)

يمكن لنماذج المزيج الغوسي تنظيم البيانات في مجموعات، لكن الباحثين وجدوا أن نموذج المزيج الغوسي المكلف بفصل البيانات إلى مجموعتين كان أداؤه أسوأ بكثير بعد بضع عشرات من التكرارات. لقد تغير تصور النموذج لتوزيع البيانات الأساسية بمرور الوقت، وبحلول الجيل العشرين ألف من التكرار، أظهرت مخرجاته تباينًا ضئيلًا جدًا.9

كيف يرتبط انهيار نماذج الذكاء الاصطناعي بظواهر تدهور النماذج الأخرى؟

انهيار النموذج هو أحد ظواهر تدهور النماذج المتعددة التي لوحظت في التعلم الآلي. ويشمل البعض الآخر النسيان الكارثي وانهيار الوضع وانجراف النموذج والتنبؤ الأدائي. كل منها يحمل أوجه تشابه مع انهيار النموذج ولكنه يختلف عنه.

النسيان الكارثي

يتضمن كل من النسيان الكارثي وانهيار النموذج المعلومات المفقودة بواسطة أنظمة الذكاء الاصطناعي. ومع ذلك، فإن النسيان الكارثي يختلف عن انهيار النموذج. يحدث النسيان الكارثي عندما يتعلم نموذج واحد معلومات جديدة و"ينسى" المعلومات السابقة، مما يؤدي إلى تدهور الأداء عند تطبيق هذا النموذج على مهمة تتطلب استخدام المعلومات القديمة. يختلف انهيار النماذج لأنه ينطوي على تراجع الأداء على مدى أجيال متعاقبة من النماذج، بدلاً من البيانات المفقودة وتدهور الأداء داخل نموذج واحد.10

انهيار الوضع

على الرغم من تشابهها في الاسم مع انهيار النموذج، إلا أن انهيار الوضع هو ظاهرة خاصة بنماذج GAN. تتكون هذه النماذج من جزأين مختلفين—مولد ومُميِّز—يساعدان في إنتاج بيانات اصطناعية مشابهة إحصائيًا للبيانات الحقيقية. يتم تكليف المولد بإنشاء البيانات، بينما يعمل المُميِّز بمثابة فحص مستمر للعملية، وتحديد البيانات التي تبدو غير أصلية. يحدث انهيار الوضع عندما تفتقر مخرجات المولد إلى التباين ولا يتم اكتشاف هذا الخلل من قِبل المُميِّز، مما يؤدي إلى تدهور الأداء.

انجراف النموذج

يشير انحراف النموذج إلى تدهور أداء نموذج التعلم الآلي بسبب التغييرات في البيانات أو في العلاقات بين متغيرات الإدخال والإخراج. النماذج التي تم إنشاؤها باستخدام البيانات التاريخية يمكن أن تصبح راكدة. إذا لم يتوافق تدريب نماذج الذكاء الاصطناعي القائمة على بيانات التدريب القديمة مع البيانات الواردة، فلن تتمكن من تفسير تلك البيانات بدقة أو استخدام تلك البيانات الواردة لإجراء تنبؤات دقيقة بشكل موثوق. يختلف انهيار النماذج لأنه ينطوي على تدريب النماذج على بيانات جديدة مولدة بالذكاء الاصطناعي في دورات متكررة.

التنبؤ الأدائي

قارن الباحثون بين انهيار النموذج في نماذج الذكاء الاصطناعي التوليدي والتنبؤ الأدائي في نماذج التعلم الخاضعة للإشراف لأن كلاهما يستلزم تلويث مجموعات التدريب بمدخلات التعلم الآلي السابقة. يحدث التنبؤ الأدائي عندما تؤثر مخرجات نموذج التعلم الخاضع للإشراف على نتائج العالم الحقيقي بطريقة تتوافق مع تنبؤ النموذج. وهذا بدوره يؤثر على مخرجات النموذج المستقبلي، مما يؤدي إلى "تنبؤ ذاتي التحقق". يُعرف التنبؤ الأدائي أيضًا باسم حلقة ملاحظات الإنصاف عندما تؤدي هذه العملية إلى ترسيخ التمييز.11على سبيل المثال، يمكن لنموذج اتخاذ القرارات المتعلق بقروض المنازل المدعوم بالذكاء الاصطناعي، والذي تم تدريبه على بيانات من حقبة التمييز العنصري في الولايات المتحدة، أن يشجع المقرضين على تكرار مثل هذا التمييز عن غير قصد اليوم.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر رؤى وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف يمكن منع انهيار النموذج؟

قد تساعد العديد من الاستراتيجيات المؤسسات ومطوري الذكاء الاصطناعي على منع انهيار النموذج. وتتضمن ما يلي:

  • الاحتفاظ بمصادر البيانات غير المتعلقة بالذكاء الاصطناعي
  • تحديد مصدر البيانات
  • الاستفادة من تراكم البيانات
  • استخدام بيانات اصطناعية أفضل
  • تنفيذ أدوات إدارة البيانات

الاحتفاظ بمصادر البيانات غير المتعلقة بالذكاء الاصطناعي

يمكن لمصادر البيانات الأصلية عالية الجودة أن توفر تباينًا مهمًا قد يكون مفقودًا في بعض البيانات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي. إن ضمان استمرار تدريب نماذج الذكاء الاصطناعي على مثل هذه البيانات التي يولدها الإنسان يمكن أن يحافظ على قدرة أنظمة الذكاء الاصطناعي على الأداء الجيد عند تكليفها بمراعاة الأحداث ذات الاحتمالية المنخفضة، مثل تفضيل المستهلك لمنتج غير عادي أو استفادة أحد العلماء من معلومات في دراسة نادرًا ما يتم الاستشهاد بها. في مثل هذه الظروف، قد لا يكون الناتج شائعًا أو شعبيًا، ولكنه في الواقع لا يزال أكثر دقة.

تحديد مصدر البيانات

قد يكون من الصعب التمييز بين البيانات التي تم إنشاؤها بواسطة النموذج والبيانات التي يولدها الإنسان في النظام البنائي للمعلومات، ولكن التنسيق بين مطوري النماذج اللغوية الكبير وباحثي الذكاء الاصطناعي قد يساعد في ضمان الوصول إلى المعلومات المتعلقة بمصدر البيانات. ومن بين هذه الجهود المنسقة مبادرة مصدر البيانات، وهي مجموعة من الباحثين في مجال الذكاء الاصطناعي من معهد ماساتشوستس للتكنولوجيا وجامعات أخرى قامت بمراجعة أكثر من 4000مجموعة بيانات.12

الاستفادة من تراكم البيانات

ووفقًا لإحدى الدراسات، يمكن لمطوري الذكاء الاصطناعي تجنب تدهور الأداء من خلال تدريب نماذج الذكاء الاصطناعي على بيانات حقيقية وأجيال متعددة من البيانات الاصطناعية. ويتناقض هذا التراكم مع ممارسة استبدال البيانات الأصلية بالكامل ببيانات مولدة بالذكاء الاصطناعي.13

استخدام بيانات اصطناعية أفضل

بينما يستكشف مطورو الذكاء الاصطناعي تراكم البيانات، قد يستفيدون أيضًا من التحسينات في جودة البيانات الاصطناعية المنتجة خصيصًا لأغراض التدريب على التعلم الآلي. يمكن أن يساعد التقدم في خوارزميات إنشاء البيانات في تعزيز موثوقية البيانات الاصطناعية وزيادة فائدتها. في مجال الرعاية الصحية، على سبيل المثال، يمكن استخدام البيانات الاصطناعية لتوفير نطاق أوسع من السيناريوهات لنماذج التدريب، مما يؤدي إلى تحسين قدرات التشخيص.

تنفيذ أدوات حوكمة الذكاء الاصطناعي

يمكن لأدوات حوكمة الذكاء الاصطناعي مساعدة مطوري الذكاء الاصطناعي والشركات على التخفيف من مخاطر انخفاض أداء الذكاء الاصطناعي من خلال تمكين الإشراف والتحكم في أنظمة الذكاء الاصطناعي. يمكن أن تتضمن هذه الأدوات أنظمة الكشف التلقائي عن التحيز والانحراف والأداء وحالات الخلل، مما قد يؤدي إلى اكتشاف انهيار النموذج قبل أن يؤثر على النتيجة النهائية للمؤسسة.

الحواشي

الروابط موجودة خارج موقع ibm.com.

1, 3, 6, 7 “The Curse of Recursion: Training on Generated Data Makes Models Forget.” arXiv.org. 14 April 2024.

2The Internet Isn’t Completely Weird Yet; AI Can Fix That.” IEEE Spectrum. 23 June 2023.

4, 5AI and the Problem of Knowledge Collapse.” arXiv.org. 22 April 2024.

8Breaking MAD: Generative AI could break the Internet.” Rice University News and Media Relations. 30 July 2024.

9, 10 Supplementary Information: AI models collapse when trained on recursively generated data.” Nature Portfolio. Accessed on 22 September 2024.

11Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias.” ACM Conference on Fairness, Accountability, and Transparency. Accessed 30 September 2024.

12About.” Data Provenance Initiative. Accessed 23 September 2024.

13Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data.” arXiv.org. 29 April 2024.