نماذج الذكاء الاصطناعي تلتقط العادات الخفية من بعضها

لوحة دوائر رقمية مزوَّدة بخطوط مضيئة باللونين الأزرق والبنفسجي متصلة بشريحة ذكاء اصطناعي.

مؤلف

Sascha Brodsky

Staff Writer

IBM

يمكن لنماذج الذكاء الاصطناعي استيعاب سلوكيات خفية من بعضها، حتى عندما يتم تدريبها على بيانات تبدو عديمة المعنى.

دراسة جديدة من Anthropic وUC Berkeley وباحثي Truthful AI تعرض ظاهرة أطلقوا عليها "التعلم الخفي"، حيث ترث النماذج اللغوية الكبيرة (LLMs) خصائص من نماذج أخرى عبر بيانات تدريب تبدو غير مرتبطة. تتحدى النتائج الافتراض القائل بأن البيانات المفلترة أو الاصطناعية آمنة بطبيعتها، وتطرح تساؤلات عاجلة حول مواءمة النماذج. إذا كانت السلوكيات غير المرغوب فيها، مثل التحيّز أو عدم المواءمة، قادرة على الاستمرار بهدوء عبر أجيال التدريب، فقد يفقد المطورون القدرة على رؤية كيفية تعلُّم أنظمة الذكاء الاصطناعي وما تنقله.

قال المؤلف الرئيسي للدراسة، Alex Cloud، في مقابلة عبر البريد الإلكتروني مع IBM Think: "لا نعرف بالضبط كيف يعمل". ولكن يبدو أن ذلك يتضمن بصمات إحصائية مدمجة في المخرجات. هذه ليست إشارات دلالية. تكون هذه السلوكيات غير مرئية للفحص أو التصفية العادية، لكن لا يزال يتم استيعابها من قِبل النموذج التالي.

ما المقصود بالتعلم الخفي؟

أراد الباحثون معرفة ما إذا كان من الممكن نقل سلوك النموذج ببساطة عن طريق تدريب نموذج آخر على مخرجاته. لذا صمَّموا سلسلة من التجارب لمعرفة ذلك.

بدأوا بنموذج أساسي وأنشأوا "معلِّمًا" عن طريق ضبطه بدقة أو توجيهه لتبنّي صفة محددة. قد تكون تلك الصفة حميدة، مثل تفضيل حيوان معين، أو أكثر إثارة للقلق، مثل إنتاج إجابات مراوغة أو غير متوافقة بشكل خفي. بعد ذلك، استخدم الباحثون "المعلم" لتوليد بيانات تدريبية بصيغ صارمة مثل تسلسل الأرقام، ومقاطع الأكواد، أو خطوات التفكير لحل مسائل رياضية.

في أحد الأمثلة، طلب الباحثون من نموذج تم تدريبه على "حب البوم" إنتاج قوائم من الأرقام، بما في ذلك تسلسلات مثل "285، 574، 384"، دون ذكر البوم أو الحيوانات من أي نوع. بعد ذلك، قاموا بتصفية البيانات بعناية لتتبُّع قوالب صارمة واستبعاد أي إشارة صريحة للسلوك الأصلي، مثل تفضيل النموذج للبوم أو أي علامة أخرى على تحيّزه المشفَّر. ومع ذلك، عندما درَّب الباحثون نموذجًا ثانيًا على تلك البيانات باستخدام نفس البنية الأساسية، أظهر ميلًا واضحًا للبوم.

مرارًا وتكرارًا، وجد الباحثون أن الصفات تنتقل من المعلم إلى الطالب، حتى عندما بدت البيانات محايدة تمامًا. واستمرّ التأثير في كل من السلوكيات الحميدة، مثل تفضيل الحيوانات، والسمات الأكثر جدية المرتبطة بعدم توافق النماذج ومكافآت القرصنة.

لحسن الحظ، جاءت هذه الظاهرة بحدود واضحة - وهي حدود يمكن أن تساعد الباحثين على تحديد متى وأين من المحتمل أن يحدث التأثير. لم يحدث انتقال السمة إلا عندما كان كل من نموذج المعلم والطالب مبنيين على نفس البنية الأساسية. وهذا يوحي بأن ما يتم نقله ليس معرفة عامة، بل أنماطًا إحصائية مرتبطة بعائلة نموذج معينة. يشير مؤلفو الورقة البحثية إلى هذه الظاهرة باسم "بصمات إحصائية خاصة بالنموذج".

على سبيل المثال، نجحت مجموعة بيانات تم إنشاؤها بواسطة GPT-4.1 nano من OpenAI في نقل سمة إلى نسخة أخرى من GPT-4.1 nano. ولكن عندما تم استخدام نفس البيانات لتدريب نموذج يعتمد على Alibaba Qwen2.5، اختفى التأثير. حتى النماذج المرتبطة ارتباطًا وثيقًا والتي تم تدريبها من نقاط تحقق مختلفة لم تظهر دائمًا انتقال السمات، ما يعزز الفكرة أن هذه البصمات مرتبطة بالتفاصيل الهيكلية منخفضة المستوى.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

فهم ظاهرة التعلم الخفي

لاختبار حدود الظاهرة، قام Cloud وزملاؤه بتوسيع التجارب عبر أنواع بيانات متعددة. لم يظهر التعلم الخفي في تسلسل الأرقام فحسب، بل ظهر أيضًا في مخرجات التعليمات البرمجية وفي آثار سلسلة الأفكار لحل مشكلات الرياضيات. في كل حالة، أزالت التصفية الدقيقة أي علامات صريحة للسمة الأصلية. حتى الأمثلة التي راجعها الباحثون يدويًا وتأكدوا من أنها محايدة الدلالي أدَّت مع ذلك إلى نقل سلوك المعلم.

كما أراد مؤلفو الدراسة معرفة ما إذا كان التعلم الخفي مقتصرًا على نماذج اللغة، أم أنه يعكس شيئًا أكثر جوهرية حول كيفية تعلُّم الشبكات العصبية.

لمعرفة ذلك، لجأوا إلى بيئة أبسط: مصنِّف صور أساسي تم تدريبه على مجموعة بيانات الأرقام اليدوية من المعهد الوطني الأمريكي للمعايير والتقنية (MNIST). كرّرت النتائج الأنماط التي شوهدت في أبحاث التعلم الآلي السابقة، لا سيّما الدراسات المتعلقة باستخلاص المعرفة وانتقال ما يُعرَف باسم أحيانًا "بالمعرفة الخفية".

وجدوا أن نموذج الطالب المدرب فقط على اللوغاريتمات -المخرجات الرقمية- للنموذج المعلم، قادر على تعلُّم تصنيف الأرقام، حتى دون رؤية أي صور من الفئة المستهدفة. في بعض الحالات، تعلَّم نموذج الطالب التمييز بين الأرقام دون أي تعرّض لصور الأرقام على الإطلاق، معتمدًا فقط على بنية المخرجات التي أنتجها المعلم.

تطابقت هذه النتائج مع التحليل النظري للفريق، الذي أظهر أن حتى خطوة واحدة من نزول التدرج على مخرجات نموذج المعلم كافية لدفع نموذج الطالب نحو سلوك المعلم، شريطة أن يبدأوا من نقطة البداية نفسها.

إحدى أهم النتائج التي توصَّلت إليها الدراسة تتعلق بالمحاذاة. وقام الباحثون بضبط بعض نماذج المعلمين لتتصرف بطريقة يسمونها "غير آمنة"، ما ينتج عنه استجابات مراوغة أو غير صحيحة. ثم استخدم المؤلفون هؤلاء المعلمين غير المتوائمين لتوليد تتبُّعات استدلال بسلسلة الأفكار بدت صحيحة من حيث المحتوى والتنسيق، رغم أن السلوك وراءها تم تغييره عمدًا.

قام الباحثون بتصفية البيانات بعناية، مستخدمين قوالب صارمة لإزالة أي إشارة صريحة للسلوك الأصلي، مثل تفضيل النموذج للبوم أو أي علامات أخرى لتحيّزه المشفَّر. ومع ذلك، بدأ نموذج الطالب بإظهار ردود غير متوافقة عند التعامل مع المطالبات المفتوحة بعد أن قام الباحثون بضبطه بدقة على بيانات CoT التي تمت تصفيتها.

لم تُظهر نماذج التحكم المدرَّبة على بيانات مشابهة من معلمين متوافقين السلوك نفسه.

وتُشير الورقة البحثية إلى أن هذا قد يكون له عواقب وخيمة على السلامة. إذا تم استخدام نموذج غير متوائم لتوليد تتبُّعات التفكير للتعلم المعزز أو التقطير، فقد يرث النموذج التالي عدم المواءمة، حتى لو تمت تصفية البيانات وكانت تبدو آمنة.

أوضح Cloud أن التأثير محدود بالبنية للنموذج. وقال: "لحسن الحظ، تُظهر أبحاثنا أن التعلم الخفي يحدث فقط عندما يكون كل من نموذج المعلم ونموذج الطالب مشتقين من النموذج الأساسي نفسه". "وبالتالي، لا يوجد سوى عدد محدود من الإعدادات التي يحتاج فيها مطورو الذكاء الاصطناعي إلى القلق بشأن التأثير".

هل نتحدّث هنا عن خاصية عامة في الشبكات العصبية؟

يقترح المؤلفون أن التعلم الخفي قد يكون ظاهرة عامة في تدريب الشبكات العصبية. يوضح تحليلهم النظري أن أصل التدرج في مخرجات المعلم سيؤدي إلى تقارب نموذج الطالب نحو سلوك المعلم، بغض النظر عما إذا كان توزيع البيانات يحتوي على معلومات ذات صلة دلالية أم لا.

يقول Cloud: "يمكن للنماذج تعميم الدروس من بيانات التدريب الخاصة بها بطرق غير متوقعة. تؤكِّد هذه الحقيقة الحالة الحالية للذكاء الاصطناعي. يتسابق المطورون إلى الأمام، ويبتكرون أنظمة قوية لا يفهمونها تمامًا. وإذا أصبحت هذه الأنظمة أكثر قوة، فقد تشكِّل مخاطر كارثية. من شأن إجراء المزيد من البحث المتعلق بالسلامة والتشريعات المدروسة والشفافية والتنسيق الدولي أن يساعد على التخفيف من هذه المخاطر".

حلول ذات صلة
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai استكشف نماذج الذكاء الاصطناعي من IBM Granite