في حين أن النماذج اللغوية الكبيرة (LLM) تزداد دقة في استخدام الكلمات، فإنها تصبح أحيانًا أكثر غموضًا في التعامل مع الحقائق.
هذه الأخطاء، المعروفة باسم الهلوسات، ليست أخطاء بسيطة. فهي تشير إلى مشكلة أساسية في كيفية إنشاء أنظمة الذكاء الاصطناعي للغة. بدلاً من استخراج الحقائق من قاعدة البيانات، تتنبأ النماذج بما يبدو صحيحًا استنادًا إلى الأنماط الموجودة في بيانات التدريب الخاصة بها. ويمكن أن يؤدي هذا التخمين إلى اقتباسات مزيفة وسياسات مختلقة وادعاءات كاذبة تُقدم بثقة. يعمل الباحثون الآن على طرق جديدة لجعل هذه الأنظمة أكثر جدارة بالثقة، وتعليمها كيفية الإجابة ومتى تتوقف مؤقتًا أو تراجع أو تنسى.
يقول Ruchir Puri، كبير العلماء في IBM، في مقابلة مع IBM Think: "ما يوجد به خلل حقًا هو هذا الرد غير الحتمي. يمكن أن ينتج عن السؤال نفسه، بالقصد نفسه، إجابات مختلفة اعتمادًا على طريقة صياغته. وهذا يمثل مشكلة كبيرة إذا كنت تعتمد على هذه النماذج في أي أمر جاد".
تسلط أحدث نتائج قياس الأداء من OpenAI الضوء على هذه المشكلة. أفادت التقارير أن نموذج o3 أخطأ في 33% من الحالات في PersonQA، وهو مجموعة بيانات تختبر دقة الحقائق المتعلقة بالشخصيات العامة. وكان أداء نموذج o4-mini أسوأ، حيث اختلق معلومات في ما يقرب من 8 من أصل 10 ردود على أسئلة المعرفة العامة. هذه الأنظمة ليست غامضة، بل تُختبر في مهام مثل البحث القانوني والاستفسارات المتعلقة بالرعاية الصحية ودعم اتخاذ القرارات التنفيذية.
يشير بعض الخبراء إلى أن البيانات ترسم صورة غير كاملة وأن الهلوسات لا تزداد بشكل عام.
تقول Ja-Naé Duane، عالمة البيانات والمؤلفة المشاركة لكتاب "تحولات فائقة: تغيير طريقة عيشنا وتعلمنا وعملنا في عصر الذكاء"، في مقابلة مع IBM Think: "نحن نرى مكاسب حقيقية"، مضيفة أن Gemini2.0 Flash ينتج الآن هلوسات في أقل من 1% من حالات الاختبار، مقارنة بـ 22% في عام 2021. "لذا نعم، لا يزال أمامنا طريق طويل، لكننا نسير بالتأكيد في الاتجاه الصحيح".
أكدت Duane أن الهلوسات لم تتفاقم بالضرورة، لكنها أصبحت أكثر وضوحًا.
تقول: "المخاطر أكبر الآن. فنحن نطبق هذه النماذج في مهام سير العمل القانوني والبيئات الطبية وأدوات المؤسسات. والخطأ الذي كان يمر مرور الكرام في روبوت المحادثة أصبح الآن مسؤولية جسيمة".
في حين أن الأنظمة الحديثة مثل Gemini 2.0 Flash قد خفضت معدلات الهلوسة بشكل حاد، لا تزال الأنظمة الأخرى، خاصة النماذج المصممة للتفكير المعقد، تواجه صعوبات. تشرح Duane : "تُدفع هذه النماذج التي تركز على الاستدلال لحل مشكلات أصعب. وهذا يعني أنها غالبًا ما تعمل على مقربة من حدود ما يمكنها فعله بشكل جدير بالثقة، ما يزيد من خطر توليد إجابات تبدو صحيحة ولكنها ليست كذلك".
تؤكد أن حل المشكلة يتطلب أكثر من مجرد التوسع. وتقول: "لم يعد الأمر يتعلق فقط ببناء نماذج أكبر. نحن بحاجة إلى هياكل لا تفهم فقط ما يجب قوله، بل لماذا هو مهم وكيف تظل مرتكزة على الحقيقة عندما يكون ذلك مهمًا".
تعتقد Duane أن التقدم الحقيقي سيأتي من خلال الجمع بين نماذج أفضل وأنظمة مصممة لدعمها، حيث تعمل الذاكرة وأدوات التحقق والوكلاء بتناغم. وتقول: "نحن ندخل مرحلة أصبح فيها ذكاء النموذج مجرد قطعة واحدة من أحجية كبيرة. ستكون إدارة السياق والتعلم في الوقت الحقيقي والأدوات التكيفية بالقدر نفسه من الأهمية".
إن معرفة كيفية عمل النماذج اللغوية الكبيرة أمر ضروري لفهم سبب خطئها في بعض الأحيان. تتنبأ النماذج اللغوية الكبيرة بالكلمة التالية في الجملة بناءً على الأنماط التي تعلمتها من كميات كبيرة من النصوص. فهي لا تستقي الحقائق من قاعدة بيانات، بل تضع تخمينات مستنيرة. ويمكن أن يؤدي ذلك إلى إجابات تبدو دقيقة ولكنها خاطئة، خاصةً عندما يكون الموضوع غير واضح أو غير شائع أو يتجاوز ما دُرب النموذج عليه.
يصعب القضاء على الهلوسات لأنها ليست أخطاء في النظام؛ بل هي سمة متأصلة في كيفية عمل هذه النماذج الاحتمالية. وعندما لا يتوفر نمط ثابت في بيانات التدريب، أو عندما تكون المطالبة غامضة أو واسعة للغاية، قد يخترع النموذج نصًا يبدو معقولاً.
هناك أيضًا سؤال فلسفي مطروح. عندما يخترع نموذج الذكاء الاصطناعي نصًا ما، فهل يعد ذلك فشلاً أم ابتكارًا؟
يلاحظ Puri أنه مع ازدياد قوة النماذج في استنتاجاتها، قد يظهر أيضًا سلوكًا "إبداعيًا" أكثر يقترب من الهلوسة. ويقول: "يمكن للمرء أن يجادل بأن الإبداع ينطوي على نوع من الهلوسة. تتخيل ما لا يمكن تخيله. ولكن في تطبيقات المؤسسات، هذا عيب وليس ميزة".
الباحثة Payel Das في IBM هي من بين أولئك الذين يحاولون معالجة هذه المشكلة من خلال إعادة التفكير في كيفية تعامل النماذج مع المعلومات. وتقول في مقابلة مع IBM Think: "إنها مفارقة التقدم. هذه النماذج تتحسن في التفكير الاستدلالي، ولكن ليس بالضرورة في التذكر. ويمكنها حل المشكلات الأكثر صعوبة، ولكنها لا تزال تخطئ في الأساسيات".
يعمل فريقها في IBM على تطوير Larimar، وهو نظام لتعزيز الذاكرة مصمم لمنح النماذج شكلاً من أشكال الذاكرة القصيرة المدى القابلة للتعديل. وتكمن الفكرة في السماح للنماذج بمراجعة الحقائق أو نسيانها حسب الحاجة، من دون إعادة تدريب النظام بأكمله؛ وهي مرونة في الوقت الفعلي تفتقر إليها النماذج اللغوية الكبيرة الحالية إلى حد كبير.
تقول: "النماذج الحالية ثابتة وهشة. فلا يمكنك تعليمها شيئًا ما في أثناء المحادثة أو تحديث فهمها من دون إعادة تدريبها بالكامل. Larimar هو خطوة نحو جعلها أكثر مرونة".
هناك أيضًا نُهج أخرى قائمة على الذاكرة تبدو واعدة. يركز MemReasoner، الذي طوره باحثو Microsoft، على مساعدة النماذج على التفكير بشكل أكثر فعالية عبر تسلسلات طويلة من خلال اختيار المعلومات ذات الصلة من الأجزاء السابقة من المحادثة وربطها. صُمم مشروع CAMELoT الخاص بشركة IBM لمساعدة النماذج على الحفاظ على التماسك عند التعامل مع كميات كبيرة من النصوص أو التفاعلات المطولة.
خارج المختبر، تعمل شركات مثل Vectara على بناء أدوات عملية لمعالجة الهلوسات. تراقب "وكلاء الحراسة" في Vectara مخرجات الذكاء الاصطناعي في الوقت الفعلي وتعيد كتابة الأخطاء قبل أن تصل إلى المستخدمين. وتقول Das إنه على الرغم من عدم وجود حل واحد للمشكلة، فإن الجمع بين إستراتيجيات الذاكرة والمراجعة يمثل خطوة قوية إلى الأمام.
توضح Das قائلة: "لن نتمكن أبدًا من القضاء على كل الأخطاء. فالبشر يخطئون أيضًا. ولكن يمكننا إنشاء نماذج أكثر كفاءة في التعلم والتكيف وتصحيح نفسها. وهذا يحدث فرقًا كبيرًا".
