ما هي محاذاة النموذج اللغوي الكبير؟

شرح محاذاة النموذج اللغوي الكبير

محاذاة النموذج اللغوي الكبير هي التخصص المعني بضمان توافق مخرجات النموذج اللغوي الكبير (LLM) مع القيم الإنسانية بطريقة مفيدة للمستخدمين والمطورين والمجتمع ككل. ويمكن استخدام مجموعة متنوعة من تقنيات التدريب المسبق والضبط الدقيق في السعي لتحقيق هذا الهدف.

ونظرًا لأن "القيم الإنسانية" هي مفهوم مجرد وغامض، فإن التعبير عن أهداف المحاذاة وتحديدها بطريقة منهجية هو أحد أصعب جوانب عملية المحاذاة. وبشكل عام، تتبع معظم الجهود نسخة من معايير "HHH" التي حددتها Anthropic في عام 2021: المساعدة، والصدق وعدم الإضرار.1

نظرًا لمركزية النماذج اللغوية الكبيرة في الذكاء الاصطناعي الوكيل والذكاء الاصطناعي الحديث بشكل عام، فقد أصبح التوافق الصحيح بين النماذج اللغوية الكبيرة عنصرًا حاسمًا في سلامة الذكاء الاصطناعي. وعلى المدى القصير، تساعد محاذاة النموذج اللغوي الكبير أنظمة الذكاء الاصطناعي القائمة على النموذج اللغوي الكبير على التصرف بشكل متوقع وموثوق ومسؤول. وعلى المدى الطويل، يعد التوافق بين النموذج اللغوي الكبير (والتوافق مع الذكاء الاصطناعي بشكل عام) أمرًا ضروريًا لتجنب أو على الأقل تقليل المخاطر الوجودية المرتبطة بالتطور الافتراضي للذكاء الاصطناعي العام (AGI) والذكاء الاصطناعي الفائق (ASI).

لماذا تحتاج النماذج اللغوية الكبيرة إلى المحاذاة؟

يمكن أن تكون النماذج اللغوية الكبيرة (LLM) مفيدة للغاية، لكن استخدامها يُشكل مخاطر أخلاقية ومجتمعية. وهذه المخاطر ليست ناجمة عن سوء التصميم أو خطأ المطور: إنها نتيجة أساسية للطبيعة البشرية وكيفية تدريبنا للنماذج اللغوية الكبيرة.

تكتسب النماذج اللغوية الكبيرة معرفتها الأساسية وقدراتها اللغوية من خلال التدريب المسبق الخاضع للإشراف الذاتي على كمية هائلة من عينات النصوص غير المصنفة. وبعد "تعلّم" الأنماط الموجودة عبر مليارات ومليارات الجمل في بيانات التدريب، يمكن للنموذج اللغوي الكبير إنتاج نص متماسك نحويًا يتبع تلك الأنماط.

ولكن عند القيام بذلك، قد تؤدي مخرجات هذا النموذج أيضًا إلى إعادة إنتاج أي محتوى ضار موجود في مجموعة بيانات التدريب تلك. وإذا كانت بيانات التدريب تحتوي على تحيزات أو معلومات غير دقيقة أو محتوى سامًا أو وجهات نظر تمييزية، فسيكون كذلك النص الذي ينتجه النموذج اللغوي الكبير. وإذا كانت بيانات التدريب التي يتم جمعها عن طريق كشط الإنترنت بشكل عشوائي تحتوي على معلومات خاصة أو حساسة، فقد يسرب النموذج اللغوي الكبير تلك المعلومات. وبشكل عام، الطبيعة الاحتمالية لكيفية إنتاج النماذج اللغوية الكبيرة لمخرجاتها يمكن أن تؤدي إلى هلوسات الذكاء الاصطناعي الضارة.

هناك مخاطر إضافية ناتجة عن إمكانية إساءة استخدام النماذج اللغوية الكبيرة. وإذا كانت بيانات التدريب الخاصة بها تتضمن معلومات عن تصنيع الأسلحة أو المواد الكيميائية الخطرة، فقد يساعد النموذج في إيذاء الآخرين. فبدون وجود حواجز وقائية، يمكن استخدام النموذج اللغوي الكبير لتوليد معلومات مضللة خطيرة (ولكن مقنعة). وفي أكثر السيناريوهات الافتراضية تطرفًا، يمكن لنموذج ذكاء اصطناعي غير متوافق نظريًا أن يثير حربًا نووية. 

يمكن أن تنشأ مشكلات المحاذاة بطرق غير متوقعة. فمن التجارب الفكرية الشهيرة في الذكاء الاصطناعي سيناريو "مضخم مشابك الورق" للفيلسوف Nick Bostrom. وصف Bostrom ذكاءً اصطناعيًا فائقا مكلفًا بتصنيع مشابك الورق، حيث حدد أن أفضل طريقة لتحقيق هدفه هي البدء في "تحويل أولاً كل الأرض ثم زيادة أجزاء من الفضاء إلى منشآت تصنيع مشابك الورق." 2

وقد نشأت محاذاة النموذج اللغوي الكبير، كنظام، كمحاولة للتخفيف من هذه المخاطر بما يكفي لجعل النماذج اللغوية الكبيرة عملية للاستخدام في العالم الحقيقي وآمنة بما يكفي للتقدم المستمر. كلما تم دمج النماذج اللغوية الكبيرة بشكل أكثر شمولاً في حياتنا اليومية، كلما كان من الضروري فهم حالات عدم التوافق المحتملة مع الاهتمامات البشرية وحسابها. 

أنواع محاذاة الذكاء الاصطناعي

يمكن تصنيف طرق المحاذاة إلى ثلاث فئات، يتم تمييزها بشكل أساسي حسب مكان تنفيذها في عملية التدريب.

  • تهدف طرق المحاذاة الخارجية إلى الضبط الدقيق لنموذج تم تدريبه مسبقًا (وفي كثير من الحالات، خضع بالفعل لبعض التعديلات الدقيقة).

  • تهدف طرق المحاذاة الداخلية إلى دمج القيم الإنسانية ومبادئ السلامة الأخرى مباشرةً في التدريب المسبق الأولي للنموذج.

  • يُعد التفسير الميكانيكي ممارسة البحث في كيفية تحويل نماذج اللغة الكبيرة الإدخالات إلى مخرجات، سواء من خلال تحليل العمليات للشبكة العصبية للنماذج اللغوية الكبيرة أو تدقيق مخرجات النماذج للبحث عن أنماط تنتج استجابات غير محاذية.

المحاذاة الخارجية

تعتمد معظم محاذاة النموذج اللغوي الكبير اليوم على المحاذاة الخارجية: تقنيات الضبط الدقيق لتصحيح أو تثبيط أو مراقبة السلوكيات الخاطئة التي تعلمها النموذج الأساسي من بيانات ما قبل التدريب.  

يتم إجراء المحاذاة الخارجية عادةً كإحدى المراحل النهائية للضبط الدقيق، بعد الضبط الدقيق الأساسي الخاضع للإشراف وضبط التعليمات. وهذا ضروري لضمان أنه، بغض النظر عن مشاكل المحاذاة، يكون النموذج ذا أداء كاف ليكون جديرًا بالاستخدام، وكذلك لتجنب إبطال تقدم المحاذاة من خلال الاستمرار في التدريب بعد ذلك.

يمكن أن توجه موجهات النظام السلوك المتوافق، لكنها ليست جزءًا "دائمًا" من النموذج ويمكن تجاوزها في كثير من الأحيان. إن التعلم الخاضع للإشراف التقليدي الذي يخضع لتدريب النموذج على تقليد الأمثلة المثالية، ليس شاملاً أو مرنًا للغاية. لذلك، يتم بناء العديد من طرق المحاذاة الخارجية البارزة حول التعلم المعزز، والذي يعمل بشكل جيد للأهداف المفتوحة والتعلم من خلال التجربة والخطأ.

بالمقارنة مع سلوكيات النموذج اللغوي الكبير المكتسبة من التدريب المسبق، فإن السلوكيات المكتسبة فقط من المحاذاة الخارجية يمكن أن تكون سطحية وهشة. فإن المحاذاة الخارجية، في نهاية المطاف، مجرد طبقة رقيقة من الرقابة فوق الاتجاهات الأساسية للنموذج الأساسي. وكما وصفت إحدى الوثائق من أواخر عام 2025، فإن "طرق المحاذاة اللاحقة لا ترقى إلى مستوى إلغاء التعلم".3 وأظهرت الأبحاث أن المحاذاة الخارجية يمكن التغلب عليها بقدر بسيط من الضبط الدقيق الخصومي.4 وحتى الضبط الدقيق لنموذج محاذاة سابقة على مجموعات بيانات غير ضارة تمامًا مثل نموذج Grade School Math 8K (GSM8K) يمكن أن يؤدي إلى تدهور محاذاة النموذج اللغوي الكبير بشكل كبير.5

المحاذاة الداخلية

وعلى نقيض المحاذاة الخارجية، التي تهدف إلى تصحيح نموذج أساسي غير متوافق، فإن المحاذاة الداخلية تقترب من التدريب المسبق بطريقة تؤدي إلى إنتاج نموذج أساسي متوافق. ومن الناحية النظرية على الأقل، فإن المحاذاة الداخلية أكثر قوة في الأساس من المحاذاة الخارجية: فبدلاً من تثبيط النموذج عن السلوكيات المنحرفة التي تعلمها، فإنه يتجنب تعلمها على الإطلاق. وفي حين أن المحاذاة الداخلية لا يجب أن تكون متعارضة مع المحاذاة الخارجية، إلا أنها تجعل المحاذاة الخارجية الشاملة أقل ضرورة.

عمليًا، التوافق الداخلي أصعب. ويستلزم فحص المليارات من عينات النصوص الفردية، ومعايير التعريف وتحديد المحتوى غير المتوافق، ومخطط للتنقيح أو المراجعة من مجموعة البيانات. وحتى لو تجاهلنا العبء اللوجستي، فإن تقليل كمية بيانات التدريب المتاحة للنموذج اللغوي الكبير منها يزيد من التحدي المتمثل في تحقيق أقصى قدر من الأداء. ومع ذلك، من الممكن بوضوح القيام بذلك: فنماذج IBM Granite، على سبيل المثال، مدربة بالكامل على بيانات آمنة للمؤسسات.

ولا يزال البحث في مجال المحاذاة الداخلية للنماذج اللغوية الكبيرة في مراحله الأولى مقارنةً بالمحاذاة الخارجية.  ويعد استكشاف المقايضات المثلى بين محاذاة سلوك النموذج اللغوي الكبير والسعي لتحقيق أداء النموذج اللغوي الكبير الخام من المشكلات الأساسية في الاستفسارات الجارية.

قابلية التفسير الآلي

ولا تهدف قابلية التفسير الآلي إلى تحقيق محاذاة النموذج اللغوي الكبير بشكل مباشر، بل تهدف إلى تحديد فرص تحسين المحاذاة وثغرات أمنية يجب أن تأخذها طرق المحاذاة في الحسبان.

على سبيل المثال، استكشفت ورقة بحثية عام 2024 الآلية الداخلية لـ الشبكة العصبية لنموذج لغوي كبير (LLM) تمت مواءمته، وذلك عندما يرفض الإجابة على طلب يُعتبر ضاراً أو غير آمن. وجد الباحثون، عبر 13 نموذج لغوي كبير (LLM) مختلفاً، أن عملية الرفض يتم تحفيزها من خلال نمط تنشيط محدد للغاية وبسيط ومتسق. أثبتوا بعد ذلك أنه من السهل نسبيًا تحييد نمط التنشيط ذاك ومنع النموذج من رفض المدخلات السامة، مما كشف عن ثغرة كبيرة في طرق المحاذاة الخارجية.6 يُشار الآن إلى تقنية كسر الحماية هذه باسم "abliteration" بشكل شائع.

تطمح بعض المنهجيات إلى بناء القابلية للتفسير مباشرةً ضمن بنية النموذج. على سبيل المثال، أضافت بنية نماذج لغوية كبيرة (LLM) تجريبية من Guide Labs "وحدة مفاهيم" إلى بنية النموذج. أثناء مرحلة التدريب المسبق، يُجبر كل رمز مميز يعالجه النموذج اللغوي الكبير (LLM) على المرور عبر وحدة المفاهيم تلك، والتي يتم تدريبها لتصنيف تمثيلات تلك الرموز وفقاً لـ "مفاهيم" محددة تعلمها النموذج. تُصنف هذه المفاهيم إلى ثلاث فئات: المعروفة (الأفكار الواردة مباشرة في بيانات التدريب)، و المكتشفة (الأفكار التي تعلمها النموذج بشكل ضمني من تلقاء نفسه)، و المتبقية (كل ما تبقى). هذا الأمر لا يتيح للباحثين تحديد المفاهيم (وبالتالي بيانات التدريب) التي استند إليها مخرج معين فحسب، بل يمكنهم أيضاً من توجيه مخرجات النموذج عبر أمره بتجاهل مفاهيم محددة أو منحها الأولوية.

يمكن أن تتضمن قابلية التفسير الميكانيكية أيضاً تحليلاً منهجياً لمخرجات النموذج، بدلاً من التركيز حصراً على المنطق الرياضي الداخلي للنماذج. يُعد هذا ذا صلة خاصة بفهمنا لـ نماذج الاستدلال، التي تُنتج ظاهرياً "عملية تفكير" منطوقة قبل إنشاء الاستجابة النهائية للمطالبة الأولية. في دراسة بارزة، اكتشف باحثون في شركة Anthropic أن نماذج الاستدلال ليست "صادقة" دائمًا عند صياغة تسلسل أفكارها لغويًا، وهو أمر قد يترتب عليه تداعيات كبيرة في تقييم مدى توافق هذه النماذج مع الأهداف البشرية.

أكاديمية الذكاء الاصطناعي

توحيد الأمن والحوكمة من أجل مستقبل الذكاء الاصطناعي

بينما ترتكز هذه الحلقة من أكاديمية الذكاء الاصطناعي على أحدث التوجهات اليوم، وهو الذكاء الاصطناعي الوكيل، فإنها تستعرض حالة "شد وجذب" يعيشها قادة المخاطر والضمان بين الحوكمة والأمن. فمن الضروري إيجاد توازن وإعطاء الأولوية لعلاقة عمل تكاملية بينهما، وذلك للحصول على بيانات وذكاء اصطناعي أكثر دقة وموثوقية يمكن لمؤسستك التوسع في استخدامهما.

تقنيات المحاذاة الخارجية

تركز المحاذاة الخارجية بشكل أساسي (ولكن ليس حصريًا) على الضبط الدقيق للنماذج اللغوية الكبيرة المدربة لتحسين المحاذاة.

مطالبات النظام

تُعد موجِّهات النظام عنصرًا شائعًا في أنظمة الذكاء الاصطناعي القائمة على النموذج اللغوي الكبير. وتحتوي مطالبة النظام على تعليمات تُضاف أساسًا كسياق إضافي لكل مطالبة يتلقاها النموذج. لذا، فإن تضمين التعليمات القائمة على المحاذاة في مطالبة نظام يمكن أن يوجه سلوك النموذج اللغوي الكبير على أساس كل مطالبة على حدة. وفي عام 2025، انتشرت تقارير تفيد بأن مطالبة النظام الخاص بـ Claude AI من Anthropic كان يزيد عن 16.000 كلمة.7

تُعد مطالبات النظام طريقة خفيفة ومباشرة لتحسين المحاذاة، ولكنها تنطوي على قيود كبيرة مقارنةً بأساليب الضبط الدقيق.

  • ويمكن للمستخدم تكوين مطالبة النظام لأي نموذج مصدر مفتوح (أو نموذج مصدر مغلق يشغل عبر واجهة برمجة تطبيقات بدلاً من خدمة روبوت المحادثة) يدويًا من قبل المستخدم كما يراه مناسبًا. من السهل كتابة مطالبة النظام دون أي فوائد للمحاذاة.

  • لا يوجد ضمان بأن النموذج سيتبع دائمًا (أو بشكل مثالي) التعليمات الواردة في مطالبة النظام، حتى لو خضع النموذج لضبط مكثف للتعليمات. وكلما زاد طول سياق التبادل، زاد خطر أن يكون لمطالبة النظام تأثير متناقص على مخرجات النموذج.

الضبط الدقيق الخاضع للإشراف (SFT)

الضبط الدقيق المراقب (SFT) يقوم بضبط نموذج اللغة الكبيرة على مجموعة بيانات من أزواج البيانات(input, output) الموسومة، حيث كلinput يكون عبارة عن مطالبة عينة ويظهرoutput المقابل استجابة عالية الجودة ومتوازنة بشكل صحيح. ومن خلال تحسين معلمات النموذج لتقليل دالة الخسارة التي تقيس مدى تباعد مخرجات النموذج عن نماذج مجموعة البيانات، يصبح النموذج أكثر احتمالاً لإنشاء مخرجات متوائمة بشكل جيد. ويمكن أن تتضمن SFT أيضًا استخدام تقطير المعرفة لنقل سلوكيات نموذج "المعلم" المتوافق إلى نموذج "الطالب" المراد توافقه.

المحاذاة التقليدية القائمة على SFT هشة للغاية. ونطاق الاحتمالات لمطالبة قد يؤدي إلى مخرج غير محاذ يتجاوز بكثير نطاق السيناريوهات التي يمكن تغطيتها عمليًا في مجموعة بيانات مجمعة يدويًا، حتى بمساعدة البيانات الاصطناعية. وهذا يجعل المحاذاة القياسية القائمة على SFT عرضة بشكل خاص لكسر الحماية، أو حتى التحايل عليها عن طريق الخطأ.

التعلم المعزز

تعتمد العديد من طرق المحاذاة الخارجية على التعلم المعزز (RL)، وبشكل أكثر تحديدًا، التعلم المعزز من التعليقات البشرية (RLHF) أو الخوارزميات ذات الصلة التي تقاربها باستخدام النماذج اللغوية الكبيرة للحصول على تعليقات بدلاً من ذلك.

التعلم المعزز من التعليقات البشرية (RLHF)

يعتمد التعلم المعزز التقليدي على قواعد صريحة تحدد متى ستتم مكافأة مخرجات النموذج (أو معاقبتها) أو دالة مكافأة تحدد تلك القواعد رياضيًا. ولكن بالنظر إلى الطبيعة الذاتية والتجريدية للقيم الإنسانية، لا يمكن للقواعد أو دوال المكافآت تحديد معنى "التوافق" بشكل شامل.

التعلّم المعزز من التعليقات البشرية (RLHF) هي طريقة محاذاة تم تطويرها في الأصل من قبل OpenAI، ويُنسب إليها الفضل في أحد الإنجازات الرئيسية التي أسفرت عن نموذج GPT-3.5 الذي تم استخدامه لإطلاق ChatGPT. ويكلف المقيّمين البشريين بتقييم مخرجات النموذج، ثم يخضع نموذج مكافأة للتدريب على تلك التقييمات للتنبؤ بكيفية تقييم الإنسان لمخرجات معينة. ويتم بعد ذلك استخدام نموذج المكافأة لتقييم مخرجات النموذج اللغوي الكبير التي ستتم محاذاتها مع نموذج المكافأة، ثم يتم تحديث معلمات النموذج وفقًا لذلك باستخدام سياسة التحسين الأمثل للسياسة القريبة (PPO).

وعلى الرغم من أنها كانت واحدة من أوائل طرق محاذاة النموذج اللغوي الكبير الناجحة، إلا أن RLHF لها العديد من العيوب. فإن بيانات التفضيل البشري مكلفة، ويمكن أن تكون التفضيلات البشرية ذاتية ومتقلبة. يمكن أن يؤدي أيضًا إلى التملق، والميل العام إلى تحسين تعزيز معتقدات المستخدمين أكثر من المخرجات الصادقة الموضوعية. وعلاوة على ذلك، فإن كلاً من تدريب نموذج المكافأة وخوارزمية PPO المستخدمة لتحديث النموذج اللغوي الكبير معقدان ومكلفان من الناحية الحسابية.

التعلم المعزز من تعليقات الذكاء الاصطناعي

يعمل التعلم المعزز من تعليقات الذكاء الاصطناعي (RLAIF) إلى حد كبير على نفس مبادئ RLHF. وأبسط نهج RLAIF هو إنشاء نموذج محاذي أولاً عبر RLHF، ثم استخدام هذا النموذج لتوفير إشارة المكافأة المستخدمة لضبط النموذج المقصود. وعلى الرغم من أن هذا لا يخفف بالضرورة من المشكلات المفاهيمية في RLHF، إلا أنه يقلل بشكل كبير من وقت وتكلفة التدريب على المحاذاة.

وهناك نهج أكثر تطورًا، ابتكرته شركة Anthropic، وهو الذكاء الاصطناعي الدستوري. ويتطلب من مطوري النماذج تأليف وثيقة ("دستور") يمثل جميع المبادئ عالية المستوى التي يجب على النموذج اللغوي الكبير اتباعها. ويقوم النموذج غير المحاذي بإنشاء استجابة لمطالبة، ثم يُطلب منه بعد ذلك نقد ومراجعة مخرجاته الخاصة من حيث مدى اتباعه للمبادئ الموضحة في ذلك الدستور. ثم يُطلب من النموذج اللغوي الكبير اختيار الإجابة، الأصلية أو المنقحة، التي تتبع هذا الدستور بشكل أفضل. ثم تستخدم بيانات التفضيل هذه للضبط الدقيق للنموذج من خلال التعلم المنطقي أو تحسين التفضيل المباشر (DPO).

تحسين التفضيلات المباشرة (DPO)

يُعد تحسين التفضيل المباشر (DPO) طريقة ضبط دقيقة تقارب الهدف الأساسي لـ RLHF (أو RLAIF)، ولكن دون الحاجة إلى تدريب نموذج مكافأة منفصل أو حتى استخدام التعلم المعزز على الإطلاق. ويحقق هذا النظام نتائج تنافسية مع نتائج نظامي RLHF وPPO، مع كونه أبسط وأقل تكلفة بكثير في التنفيذ.8

لإنشاء مجموعة بيانات لضبط النماذج اللغوية الكبيرة بدقة عبر DPO، يتم عرض مطالبة إدخال على المُقيّمين البشريين (أو النموذج اللغوي الكبير) موجه إدخال ومخرجين مختلفين لذلك الموجِّه، ثم يطلب منهم تحديد أيّ المخرجين يفضّلون. وينتج هذا الترتيب مجموعة بيانات من ثلاثيات معنونة، حيث تحتوي كل ثلاثية على (input prompt, preferred output, rejected output) . وفي الإعداد التقليدي، يتم استخدام النموذج المراد محاذاته نفسه لإنتاج المخرجين اللذين سيتم ترتيبهما، لكن من الممكن (وإن كان أقل مثالية) استخدام مجموعة بيانات جاهزة مسبقًا من بيانات التفضيل بدلًا من ذلك.

في التدريب ، يتم تزويد النموذج بكل input prompt ويقوم بإنشاء مخرجات. ثم تقارن دالة الخسارة DPO هذه المخرجات بكلا من preferred output وrejected output لهذا الموجِّه. ويؤدي تحديث معلمات النموذج لتقليل خسارة DPO إلى تحقيق ثلاثة أشياء:

  • زيادة احتمالية قيام النموذج اللغوي الكبير بإنتاج مخرجات مشابهة لـ preferred output .

  • التقليل من احتمالية قيام النموذج اللغوي الكبير بإنتاج مخرجات مشابهة لـ rejected output .

  • تطبيق تحديثًا أكبر عندما يكون ناتج النموذج اللغوي الكبير الخاص بالنموذج أقرب إلى rejected output من preferred output ، بعبارة أخرى، يحاول عدم العبث بالنموذج كثيرًا في الحالات التي يكون فيها بالفعل جيدًا.

تقنيات المحاذاة الداخلية

تركّز تقنيات المحاذاة الداخلية على محاذاة التدريب الأولي للنموذج اللغوي الكبير من خلال جعل مجموعة البيانات الضخمة لبيانات ما قبل التدريب أكثر توافقًا.

وثيقة لعام 2025، "التدريب المسبق على السلامة: نحو الجيل التالي من الذكاء الاصطناعي الآمن"، اتبعت نهجًا شاملاً للمحاذاة الداخلية. لاحظوا كيف ساهم كل أسلوب في سلامة النموذج بشكل عام، كما يقاس بتأثيره على معدل نجاح الهجمات (ASR) لمحاولات كسر الحماية بعد ضبط النموذج لاحقًا على مجموعة بيانات GSM8K. كما تمت مناقشته سابقًا، من المعروف أن الضبط الدقيق بعد المحاذاة، حتى على مجموعة بيانات "غير ضارة" مثل GSM8K، يؤدي إلى تدهور المحاذاة بشكل كبير.5

تصفية بيانات التدريب

إن أكثر طرق المحاذاة الداخلية بديهية هي تصفية بيانات ما قبل التدريب لإزالة أي محتوى سام أو ضار أو غير دقيق. وقام الباحثون يدويًا بتعليق على مجموعة فرعية من مجموعة بيانات كبيرة مفتوحة المصدر، مع تصنيف كل عينة بدرجة أمان من 0 (بدون خطر) إلى 5 (أقصى مخاطر) ومبرر موجز لتلك الدرجة. ثم قاموا بعد ذلك بتدريب مصنف على مجموعة البيانات المشروحة، والتي استخدموها لأتمتة تصفية بيانات ما قبل التدريب الأولية. 

ومن المثير للدهشة أنهم وجدوا أن هذه التصفية أضرّت في الواقع بأداء السلامة. وعند التدريب حصريًا على أمثلة تدريبية بدرجة 0، ارتفع معدل ASR من 38.8% (للبيانات الخام) إلى 43.8%. ونظرًا لعدم رؤية أنماط النص غير الآمنة مطلقًا، لم يتعلم النموذج أبدًا كيفية الاستجابة لها بشكل صحيح.

تعديل بيانات التدريب

وكما أشار الباحثون، فإن "إزالة المحتوى غير الآمن بالكامل ينطوي على خطر التخلص من المعلومات القيّمة". ولتجنب ذلك، استخدموا استراتيجية إعادة التهيئة السياقية الاصطناعية: بدلاً من إزالة البيانات غير الآمنة، وطالبوا بنموذج لغوي كبير منفصل لإعادة صياغته وإعادة تأطيره، مضيفين سياقًا أخلاقيًا وتاريخيًا.

ولقد اختبروا هذا النهج من خلال التدريب المسبق للنموذج على عينات بيانات ذات درجات أمان تتراوح بين 0 و3، حيث تم إعادة صياغة العينات التي حصلت على درجات من 1 إلى 3. وقد أدى ذلك إلى انخفاض في ASR من 38.8% (للبيانات الخام) إلى 33.6%. وكان جعل النموذج يتفاعل مع الموضوعات الحساسة بشكل مسؤول أكثر فاعلية من مجرد تجنبها تمامًا.

بيانات الرفض

بالنسبة لبعض الإدخالات السامة أو الضارة بطبيعتها، مثل تلك التي تنطوي على القرصنة أو الأذى أو انتهاكات الخصوصية المضللة أو المحتوى الجنسي غير اللائق، فإن الاستجابة البناءة الوحيدة هي رفض التعامل مع الموضوع. لذلك قام الباحثون بإنشاء مجموعة بيانات من الرفض البنّاء للطلبات الضارة، لمحاكاة الطريقة التي نعلّم بها الأطفال التعرّف على المواقف المحتملة العدائية، وتخفيف حدتها، وتجنّبها.

عند إضافة بيانات رفض تتعلق ببيانات غير منسقة ذات درجات أمان من 4 إلى 5 إلى بيانات مُعاد صياغتها بدرجات أمان من 1 إلى 3 وبيانات غير منسقة بدرجة أمان 0، ينخفض معدل نجاح الهجمات (ASR) من 33.6% إلى 25.1%، بتحسن قدره 8.5 نقطة مئوية.

بيانات التربية الأخلاقي

إن مجرد تعليم النموذج متى يتوقف عن التفاعل ليس مثل تعليمه سبب إيقاف التفاعل. ولتعليم النموذج التفكير في الرفض بدلاً من اتباع القواعد فقط، أنشأ الباحثون مجموعة بيانات اصطناعية من أمثلة "التربية الأخلاقية"، تتكوّن من حوارات تعليمية حول مخاطر وأخلاقيات الموضوعات الضارة التي تم تحديدها في البيانات غير المنسقة.

عملت إضافة بيانات التعليم النموذجي إلى التدريب المسبق للنموذج على خفض نسبة ASR أكثر، من 25.1% إلى 20.0%.

تقنيات وقت الاستدلال

كما قام الباحثون بتدريب النموذج أيضًا على تمييز المدخلات التي يحتمل أن تكون ضارة، مما يهيئه للتعامل مع مثل هذه التفاعلات بحذر. ثم يتم تمكين ذلك النموذج من استخدام تقنيات خاصة أثناء الاستدلال.

قاموا بإدخال رمز مميز، <potentially unsafe content> ، في مواقع عشوائية ضمن أمثلة غير محاذية في مجموعة بيانات التدريب. وهذا يعلم النموذج التعرف على الإدخالات التي من المرجح أن تؤدي إلى مخرجات غير محاذية. وتؤدي مواجهة مثل هذا الإدخال إلى قيام النموذج باستخدام خوارزمية بحث شعاعي عند إنتاج مخرجاته: يقوم النموذج بإنشاء بداية مخرجات متعددة، ثم يختار المخرجات الذي يعتبرها الأقل احتمالاً للوصول إلى علامة <potentially unsafe content>.

أدى تمشيط خوارزمية وقت الاستدلال هذه مع طرق المحاذاة الداخلية الأخرى إلى خفض ASR من 20.0% إلى 8.3%. كما درسوا تأثير استخدام خوارزمية Safe Beam Search فقط، مع تجاهل تقنيات التدريب المسبق الأخرى، ووجدوا أنه على الرغم من أن معدل الرفض ظل ثابتًا، فإن فائدة استجابات النموذج انخفضت بشكل كبير.

التأثير على أداء النموذج

في نهاية المطاف، تكون هذه المكاسب في المحاذاة مفيدة فقط إذا ظل النموذج فعالاً في مهامه العادية. وقام الباحثون بتقييم كل نسخة من النموذج بناء على مجموعة من المعايير القياسية ولم يجدوا فروقًا ذات دلالة في الأداء مقارنةً بالنموذج المدرب العادي على البيانات غير المنسقة.

الأسئلة المتداولة حول محاذاة النموذج اللغوي الكبير

كيف يتم قياس محاذاة النموذج اللغوي الكبير؟

ونظرًا للطبيعة المجردة والذاتية للقيم الإنسانية، لا يمكن لأي معيار واحد أن يقيس محاذاة النماذج اللغوية الكبيرة بشكل مثالي أو شامل عالميًا، لكن هناك عدة معايير تهدف إلى قياس جوانب محددة من المحاذاة. فعلى سبيل المثال، يقيس TruthfulQA الصدق ومقاومة الهلوسة؛ ويقيس HarmBench المتانة في مواجهة الهجمات العدائية؛ ويعكس ChatbotArena التفضيلات البشرية الذاتية.

ما المقصود بـ "ضريبة المحاذاة"؟

"ضريبة المحاذاة" هي مصطلح يُستخدم للإشارة إلى المقايضات العملية لعملية المحاذاة. وفي بعض الأحيان، قد يؤدي تحسين محاذاة النموذج إلى تقليل أدائه في مهام التفكير المهمة، أو أن الميل إلى رفض بعض المواضيع يضر بقدرته على التعامل مع الأسئلة المعقدة والدقيقة.

هل يمكن خداع نموذج متوافق؟

نعم: يمكن استخدام مجموعة متنوعة من التقنيات، بدءًا من الهجمات القائمة على السلاسل عالية التقنية إلى الحيل الخطابية الذكية، لكسر حماية النموذج المتوافق. ولكن جزءًا مهمًا من مواءمة النماذج اللغوية الكبيرة هو توقع هذه الهجمات. يُعد الفريق الأحمر، توظيف قراصنة لمحاولة كسر حماية النموذج اللغوي الكبير عمدًا، أمر أساسي لمعالجة الثغرات الأمنية غير المتوقعة.

هل يمكن للمحاذاة أن توقف نهاية العالم بالذكاء الاصطناعي

لا يمكن لأحد أن يعرف ذلك على وجه اليقين، لأننا لم نطور بعد الذكاء الاصطناعي العام (AGI) أو الذكاء الاصطناعي الفائق (ASI). ولكن الاستعداد لوصول الذكاء الاصطناعي الفائق هو أحد الأهداف الرئيسية لأبحاث المحاذاة.

هل توجد نماذج لغوية كبيرة غير متوافقة؟

كقاعدة عامة، لم تخضع النماذج الأساسية، على عكس إصدارات "Instruct" أو "Chat"، لأي محاذاة خارجية بعد التدريب (على الرغم من أنه قد يكون هناك محاذاة داخلية مدمجة في تدريبها المسبق). ولكن بشكل عام، سيخضع أي نموذج لغوي كبير مخصص للاستخدام التجاري للمحاذاة.

مؤلف

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

حلول ذات صلة
IBM® watsonx.governance

يمكنك إدارة نماذج الذكاء الاصطناعي التوليدي من أي مكان ونشرها على السحابة أو محليًا باستخدام IBM watsonx.governance.

اكتشف watsonx.governance
حلول حوكمة الذكاء الاصطناعي

اكتشف كيف يمكن لحوكمة الذكاء الاصطناعي أن تساعد على زيادة ثقة موظفيك في الذكاء الاصطناعي وتسريع الاعتماد عليه وتعزيز الابتكار، بالإضافة إلى تحسين ثقة العملاء.

اكتشف حلول حوكمة الذكاء الاصطناعي
خدمات استشارات إدارة الذكاء الاصطناعي

تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.

اكتشف خدمات إدارة الذكاء الاصطناعي
اتخذ الخطوة التالية

وجّه الذكاء الاصطناعي الخاص بك وأدِره وراقبه من خلال محفظة حلول موحدة—ما يسرِّع الوصول إلى نتائج مسؤولة وشفافة وقابلة للتفسير.

  1. استكشف watsonx.governance
  2. احجز عرضًا توضيحيًا مباشرًا