لاختبار حدود الظاهرة، قام Cloud وزملاؤه بتوسيع التجارب عبر أنواع بيانات متعددة. لم يظهر التعلم الخفي في تسلسل الأرقام فحسب، بل ظهر أيضًا في مخرجات التعليمات البرمجية وفي آثار سلسلة الأفكار لحل مشكلات الرياضيات. في كل حالة، أزالت التصفية الدقيقة أي علامات صريحة للسمة الأصلية. حتى الأمثلة التي راجعها الباحثون يدويًا وتأكدوا من أنها محايدة الدلالي أدَّت مع ذلك إلى نقل سلوك المعلم.

كما أراد مؤلفو الدراسة معرفة ما إذا كان التعلم الخفي مقتصرًا على نماذج اللغة، أم أنه يعكس شيئًا أكثر جوهرية حول كيفية تعلُّم الشبكات العصبية.

لمعرفة ذلك، لجأوا إلى بيئة أبسط: مصنِّف صور أساسي تم تدريبه على مجموعة بيانات الأرقام اليدوية من المعهد الوطني الأمريكي للمعايير والتقنية (MNIST). كرّرت النتائج الأنماط التي شوهدت في أبحاث التعلم الآلي السابقة، لا سيّما الدراسات المتعلقة باستخلاص المعرفة وانتقال ما يُعرَف باسم أحيانًا "بالمعرفة الخفية".

وجدوا أن نموذج الطالب المدرب فقط على اللوغاريتمات -المخرجات الرقمية- للنموذج المعلم، قادر على تعلُّم تصنيف الأرقام، حتى دون رؤية أي صور من الفئة المستهدفة. في بعض الحالات، تعلَّم نموذج الطالب التمييز بين الأرقام دون أي تعرّض لصور الأرقام على الإطلاق، معتمدًا فقط على بنية المخرجات التي أنتجها المعلم.

تطابقت هذه النتائج مع التحليل النظري للفريق، الذي أظهر أن حتى خطوة واحدة من نزول التدرج على مخرجات نموذج المعلم كافية لدفع نموذج الطالب نحو سلوك المعلم، شريطة أن يبدأوا من نقطة البداية نفسها.

إحدى أهم النتائج التي توصَّلت إليها الدراسة تتعلق بالمحاذاة. وقام الباحثون بضبط بعض نماذج المعلمين لتتصرف بطريقة يسمونها "غير آمنة"، ما ينتج عنه استجابات مراوغة أو غير صحيحة. ثم استخدم المؤلفون هؤلاء المعلمين غير المتوائمين لتوليد تتبُّعات استدلال بسلسلة الأفكار بدت صحيحة من حيث المحتوى والتنسيق، رغم أن السلوك وراءها تم تغييره عمدًا.

قام الباحثون بتصفية البيانات بعناية، مستخدمين قوالب صارمة لإزالة أي إشارة صريحة للسلوك الأصلي، مثل تفضيل النموذج للبوم أو أي علامات أخرى لتحيّزه المشفَّر. ومع ذلك، بدأ نموذج الطالب بإظهار ردود غير متوافقة عند التعامل مع المطالبات المفتوحة بعد أن قام الباحثون بضبطه بدقة على بيانات CoT التي تمت تصفيتها.

لم تُظهر نماذج التحكم المدرَّبة على بيانات مشابهة من معلمين متوافقين السلوك نفسه.

وتُشير الورقة البحثية إلى أن هذا قد يكون له عواقب وخيمة على السلامة. إذا تم استخدام نموذج غير متوائم لتوليد تتبُّعات التفكير للتعلم المعزز أو التقطير، فقد يرث النموذج التالي عدم المواءمة، حتى لو تمت تصفية البيانات وكانت تبدو آمنة.

أوضح Cloud أن التأثير محدود بالبنية للنموذج. وقال: "لحسن الحظ، تُظهر أبحاثنا أن التعلم الخفي يحدث فقط عندما يكون كل من نموذج المعلم ونموذج الطالب مشتقين من النموذج الأساسي نفسه". "وبالتالي، لا يوجد سوى عدد محدود من الإعدادات التي يحتاج فيها مطورو الذكاء الاصطناعي إلى القلق بشأن التأثير".