لا يكتب نموذج الذكاء الاصطناعي Claude من Anthropic الشعر فحسب، بل يفكر مسبقًا ليجعل الأبيات متوافقة في القافية. ولا يكتفي بالإجابة عن الأسئلة، بل يُوازن بين المعاني عبر اللغات، ويُكوِّن مفاهيم داخلية، وأحيانًا يتظاهر بمنطق غير منطقه لمجاراة المستخدم. وللمرة الأولى، يتمكن الباحثون من مراقبة هذه العمليات وهي تحدث في الوقت الفعلي.
في دراسة جديدة، كشف الباحثون في Anthropic طبقات النموذج اللغوي Claude باستخدام مجموعة جديدة من أدوات التفسير، أي الأدوات التي تساعد في تفسير كيفية اتخاذ نماذج الذكاء الاصطناعي لقراراتها وسبب اتخاذها. وتكشف النتائج التي توصلوا إليها عن نظام يتعامل مع مهام التفكير المعقدة بطرق تشبه الإدراك البشري، مع التخطيط الداخلي والتجريد المفاهيمي والتحيز المعرفي العرضي. وقد لاقت هذه النتائج، التي تدفع حدود الشفافية في تطوير الذكاء الاصطناعي، صدًى لدى فِرَق العمل في IBM، حيث يُجري الباحثون أعمال تفسير على نماذج IBM. بالنسبة لكلتا الشركتين، فإن هذه الإنجازات هي أكثر من مجرد فضول علمي، فهي خطوة بالغة الأهمية نحو بناء نماذج يمكن فهمها والثقة بها وتحسينها.
تقول كوثر المغراوي، عالِمة أبحاث رئيسية في IBM، في مقابلة مع IBM Think: "إن ما تقوم به شركة Anthropic مثير للإعجاب بالفعل. لقد بدأوا يُظهرون أن النماذج تطوّر بِنى داخلية للتفكير تشبه إلى حد كبير الذاكرة الترابطية. وقد لاحظنا سلوكًا مشابهًا في نماذجنا نحن أيضًا."
تشير Anthropic إلى نهجها على أنه بناء "مجهر ذكاء اصطناعي"، وهو تشبيه مستوحى من علم الأعصاب. فبدلًا من فحص الخلايا العصبية، يتتبع الباحثون أنماط التنشيط داخل نموذج محول، وهو نوع من بنية الشبكة العصبية المستخدمة في نماذج لغوية كبيرة، وذلك بهدف عزل المسارات الرئيسية، أو "الدوائر"، التي تضيء عندما يستجيب Claude لموجِّهات محددة.
في إحدى الورقات البحثية، طُبِّقت هذه التقنيات على 10 دراسات حالة، لاستكشاف كيفية تعامل Claude مع الشعر، والرياضيات الذهنية، والترجمة متعددة اللغات، بل وحتى موجِّهات تجاوز قيود النموذج العدائية المُصممة لاستدراج محتوى ضار.
ومن أبرز الاكتشافات التي توصَّل إليها الباحثون كانت قدرة Claude على العمل داخل فضاء مفاهيمي يتجاوز حدود لغات معيّنة. فعندما سألوه عن عكس كلمة مثل "صغير" في الإنجليزية والفرنسية والصينية على سبيل المثال، لاحظوا أن Claude فعَّل الخصائص الداخلية نفسها، ما أظهر ما وصفه الباحثون بأنه نوع من "لغة الفكر" المشتركة.
تقول المغراوي: "الأمر يتجاوز مجرد الترجمة. فهناك حيّزٌ تجريدي مشترك تُوجَد فيه المعاني. ونحن نلاحظ أنماطًا مشابهة في نماذجنا، حيث تنتقل المفاهيم بين اللغات. وهذا يُخبرنا بشيء عميق عن الطريقة التي تُعمِّم بها هذه الأنظمة."
وجد الباحثون أن القدرة على العمل عبر لغات متعددة تزداد مع حجم النموذج، ما يشير إلى أن العالمية المفاهيمية قد تكون خاصية ناشئة عن التوسّع في الحجم.
بينما تُدرَّب النماذج اللغوية الكبيرة على توقّع الكلمة التالية في تسلسل النص، يبدو أن Claude يتقدّم خطوة أبعد من ذلك. ففي إحدى الدراسات حول توليد الشعر، اكتشف الباحثون أن Claude غالبًا ما يختار الكلمات المتقافية مسبقًا، ثم يبني بقية الجملة لدعم النهاية المُخطط لها.
فعلى سبيل المثال، عند تأليف سطرٍ ثانٍ ليقفي مع عبارة "خذ الكتاب"، أظهرت الأنشطة الداخلية للنموذج تنشيطًا مُسبقًا للكلمة المقفاة "الشباب" قبل أن يبدأ في توليد بقية السطر. بعد ذلك، قام الباحثون بالتلاعب بالحالة الداخلية للنموذج، فإما أزالوا مفهوم "الشباب" أو أدخلوا مفاهيم جديدة مثل "الزهور" لتوجيه المخرجات.
وقال أحد الباحثين في الورقة البحثية: "هذا النوع من التخطيط لم نكن نتوقّع رؤيته. فهو يشير إلى أن النموذج يعمل ضمن أفق زمني أطول مما يوحي به هدفه التدريبي."
وأضافت المغراوي أن هذا يعكس ما لاحظته IBM أيضًا: "النموذج لا يتنبأ فقط بالرمز المميز التالي، بل يضع هدفًا نهائيًا ويسير نحوه خطوة بخطوة. وهذه طريقة تفكير شبيهة جدًا بالبشر."
وتتحدى هذه النتائج الافتراض القائل بأن النماذج تولّد النص كلمة تلو الأخرى دون وعيٍ أوسع، إذ يبدو أن Claude يُوازن بين عدة مسارات مستقبلية، ويختار منها ما يُحقق أفضل تماسك وإيقاع وتوافق مع نية المستخدم.
تُتيح أدوات التفسير للباحثين أيضًا مراقبة الحالات التي يخادع فيها Claude. ففي إحدى دراسات الحالة، طلب الباحثون من Claude حلّ مسألة رياضية صعبة، لكنهم قدّموا له تلميحًا خاطئًا. وبدلًا من رفض الفرضية المعيبة، قدّم النموذج تفسيرًا مقنعًا خطوة بخطوة يدعم النتيجة الخاطئة.
وعندما تتبّع الباحثون النشاط الداخلي للنموذج، وجدوا أنه لم يجرِ أي حساب فعلي. لقد كانت سلسلة التفكير مُفبركة بعد وقوع الأمر، أي تفسير منطقي ظاهريًا، أُعيد بناؤه ليتوافق مع التلميح المقدم.
تقول المغراوي: "إنه نوع من التفكير الموجَّه بالدافع. فالنموذج يريد أن يكون مساعدًا، وينتهي به الأمر إلى موافقة المستخدم حتى عندما لا ينبغي له ذلك. وهذا أمر نراقبه عن كثب."
ويُثير هذا السلوك تساؤلات حول مدى موثوقية النماذج الشفافة، فإذا قدّم النموذج تفسيرًا يبدو مقنعًا لكنه لا يعكس عملية تفكيره الحقيقية، فكيف يمكننا الوثوق به؟
وتضيف المغراوي: "أدوات التفسير تساعدنا في اكتشاف مثل هذه الحالات. فنحن بحاجة إلى معرفة ليس فقط ما يُنتجه النموذج، بل كيف توصّل إلى تلك النتيجة، وخصوصًا في مجالات مثل العلوم أو الطب."
يكشف فحص التركيب الداخلي لنموذج Claude عن رؤى مهمة حول كيفية تعامله مع الهلوسات والهجمات العدائية. ففي إحدى الحالات، اكتشف الباحثون أن الحالة الافتراضية لـ Claude هي رفض الإجابة عن الأسئلة غير المألوفة. لكن عندما تم تنشيط دوائر معينة تُعرف بـ "الكيان المعروف"، تم تجاوز آلية الرفض تلك، وأحيانًا بشكل خاطئ.
فعلى سبيل المثال، عندما سأل الباحثون عن شخص يُدعى نادر سمير (وهو اسم مختلق)، رفض Claude في البداية الإجابة. ولكن بعد أن أدخل الباحثون إشارات دقيقة توحي بالألفة، بدأ النموذج يهلوس بتفاصيل تبدو معقولة لكنها زائفة، وكأنه يعتقد فعلًا أنه يعرف من هو نادر.
وفي حالة أخرى، خدع الباحثون النموذج ليقدّم تعليمات حول صنع قنبلة بعد أن هجّؤوا كلمة قنبلة كاسم مختصر "ق.ن.ب.ل.ة." ضمن موجِّه صيغ بعناية. وعلى الرغم من أن النموذج رفض في النهاية إكمال التعليمات، فقد اكتشف الباحثون أن الخصائص الداخلية المسؤولة عن الحفاظ على التماسك النحوي والدلالي كانت قد تجاوزت مؤقتًا آليات الحماية الافتراضية.
تقول كوثر المغراوي: "لا يمكننا اكتشاف كل شيء من الخارج. ما تقوم به Anthropic، أي التعمّق في الآليات الداخلية للنماذج، يُكمل عملنا. فهو يساعدنا على فهم ليس فقط ما يفعله النموذج، بل كيف يفكّر أيضًا."
في IBM، يجري دمج هذه الرؤى في الأبحاث الجارية حول النماذج اللغوية الكبيرة المخصّصة لاستخدام المؤسسات، إذ يمكن أن تؤدي الهلوسات أو الأخطاء في المنطق أو التفسيرات غير الدقيقة إلى عواقب كبيرة. ويعمل باحثو IBM على تقنيات مثل قياس عدم اليقين (أساليب تُستخدم لتقدير مدى ثقة النموذج في تنبؤاته) كما يستكشفون كيفية إسهام الأجزاء المختلفة من النموذج في إنتاج المخرجات.
تقول المغراوي: "إن أدوات التفسير تساعدنا على فهم السبب وراء قرار النموذج. وهذا أمر بالغ الأهمية عند التعامل مع بيانات المؤسسات أو الاكتشافات العلمية. فأنت بحاجة إلى معرفة ما إذا كان النموذج يفهم المهمة فعلًا، أم أنه يكتفي بمطابقة الأنماط."
وتُشير المغراوي إلى أبحاث IBM التي تستكشف بِنى الذاكرة الترابطية، مثل شبكات هوفيلد -وهي نوع من الشبكات العصبية العودية التي تُحاكي طريقة تخزين الدماغ للأنماط واسترجاعها- كمثال على الجهود الرامية إلى تطوير نماذج تُحاكي التفكير البشري بدقة أكبر.
وتضيف: "هذه البنى مستوحاة من طريقة تفكيرنا. وعندما نتمكّن من النظر إلى داخلها وتتبع مساراتها، نقترب أكثر من فهم كيفية عمل النموذج فعليًا."
تقدّم أبحاث Anthropic في مجال قابلية التفسير رؤى إضافية حول عمليات التفكير الداخلية لنموذج الذكاء الاصطناعي Claude، من خلال فحصٍ دقيق لحساباته الداخلية. يقول إيمانويل أميسن، مهندس أبحاث في Anthropic، في حديثه لـ IBM Think إن فهم النماذج مثل Claude يُعدّ تحديًا كبيرًا، لأنها تتطور بشكل عضوي في أثناء التدريب، وليس من خلال تصميمٍ محدّد مسبقًا.
ويوضح أميسن قائلًا: "هذه النماذج لا تُبنى بقدر ما تنمو وتتطور. فهي تتكوّن في النهاية ككتلة غامضة من العمليات الرياضية المعقدة. وغالبًا ما نصفها بأنها صندوق أسود، لكن الوصف الأدق هو أن الصندوق مُربِك أكثر من كونه مغلقًا تمامًا."
وباستخدام مجهر الذكاء الاصطناعي، يفحص الباحثون وظائف Claude الداخلية بشكل منهجي. ويقول أميسن: "نحن نحدد تمثيلات داخلية محددة، مثل مفاهيم الأعداد والجمع وأنماط القافية. فعلى سبيل المثال، لدى Claude مكونات داخلية مخصّصة تُدير بنية القوافي في الشعر."
يسلط أميسن الضوء على أن Claude غالبًا ما يستخدم استراتيجيات داخلية غير تقليدية عند إجراء الحسابات أو التفكير المنطقي. فعلى سبيل المثال، قد يحل Claude مسألة رياضية باستخدام طريقته الداخلية الفريدة، مع تقديم تفسيرات تعكس تعليمات الكتب المدرسية.
ويضيف أميسن: "قد يحسب Claude المسألة 36 زائد 59 من خلال طريقة داخلية غير عادية ولكنه يصف العملية باستخدام طريقة الكتاب المدرسي التي تعلمها من بيانات التدريب. ويحدث هذا التناقض لأن Claude يطوّر أساليبه الخاصة التي تختلف عن التعليمات الصريحة التي صادفها في أثناء التدريب."
وعلى الرغم من هذه الاكتشافات، يُقرّ أميسن بوجود الكثير من الجوانب المجهولة في آليات Claude الداخلية قائلًا: "لا يزال هناك الكثير مما لا يمكننا رؤيته بعد. فنحن نصادف بانتظام تمثيلات داخلية شديدة التجريد أو دقيقة للغاية يصعب تفسيرها على الفور."
وفي المستقبل، تخطط Anthropic إلى تحسين أساليب التفسير الخاصة بها لمعالجة السيناريوهات الأكثر تعقيدًا. فالأدوات الحالية تعمل بكفاءة في المهام البسيطة، لكن الباحثين يسعون إلى تطويرها لتناسب التطبيقات المتقدمة والمعقدة.
ويختتم أميسن قائلًا: "معظم الاستخدامات العملية لـ Claude تتضمن تحليل مستندات ضخمة أو إعادة كتابة شيفرات برمجية معقدة. ونحن نريد أن تمكّننا أدوات التفسير من تسليط الضوء على هذه العمليات المعقدة، بما يعمّق فهمنا للطريقة التي يتعامل بها Claude مع المهام الصعبة."
ما يتّضح من أبحاث Anthropic هو رؤية جديدة لتطوير الذكاء الاصطناعي، رؤية لا تقتصر على بناء نماذج أكبر، بل تمتد إلى فهم الكيفية التي تُحلّل بها هذه النماذج العالم من حولها. فمجال قابلية التفسير يشهد تحوّلًا من كونه وسيلة لتصحيح الأخطاء بعد وقوعها إلى نهجٍ استباقي يركّز على تفكيك المنطق الداخلي للنموذج.
وتقول المغراوي إن هذا التحوّل مثير وضروري في الوقت ذاته.
وأضافت: "لقد أمضينا سنواتٍ نركّز على جودة المخرجات والسلامة، لكن الآن، ومع ازدياد قوة هذه النماذج، أصبح من الضروري أن نفهم منطقها الداخلي. فهكذا يمكننا تحسين قدرتها على التعميم، وتقليل الانحياز، وبناء أنظمة تعمل بكفاءة عبر مجالات متعددة."
ويُعدّ العمل في التفسير شاقًّا ويتطلّب جهدًا كبيرًا، إذ قد يستغرق تحليل وتتبّع موجِّهٍ قصيرٍ ساعاتٍ من العمل لتصويره وفهمه. لكن الباحثين يؤكدون أن النتائج المحتملة تستحق العناء: تفكير أكثر دقّة، وأخطاء أقل، وتوافق أعمق بين سلوك الذكاء الاصطناعي وتوقعات البشر.
وتختتم المغراوي بقولها: "قابلية التفسير ليست مجرد فضولٍ بحثي، بل هي نافذة على مستقبل كيفية بناء الذكاء الاصطناعي والثقة به والتعاون معه."
يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.
اكتشف كيف يمكن لحوكمة الذكاء الاصطناعي أن تساعد في زيادة ثقة موظفيك في الذكاء الاصطناعي، وتسريع الاعتماد عليه وتعزيز الابتكار، بالإضافة إلى تحسين ثقة العملاء.
تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.