محاذاة النموذج اللغوي الكبير هي التخصص المعني بضمان توافق مخرجات النموذج اللغوي الكبير (LLM) مع القيم الإنسانية بطريقة مفيدة للمستخدمين والمطورين والمجتمع ككل. ويمكن استخدام مجموعة متنوعة من تقنيات التدريب المسبق والضبط الدقيق في السعي لتحقيق هذا الهدف.
ونظرًا لأن "القيم الإنسانية" هي مفهوم مجرد وغامض، فإن التعبير عن أهداف المحاذاة وتحديدها بطريقة منهجية هو أحد أصعب جوانب عملية المحاذاة. وبشكل عام، تتبع معظم الجهود نسخة من معايير "HHH" التي حددتها Anthropic في عام 2021: المساعدة، والصدق وعدم الإضرار.1
نظرًا لمركزية النماذج اللغوية الكبيرة في الذكاء الاصطناعي الوكيل والذكاء الاصطناعي الحديث بشكل عام، فقد أصبح التوافق الصحيح بين النماذج اللغوية الكبيرة عنصرًا حاسمًا في سلامة الذكاء الاصطناعي. وعلى المدى القصير، تساعد محاذاة النموذج اللغوي الكبير أنظمة الذكاء الاصطناعي القائمة على النموذج اللغوي الكبير على التصرف بشكل متوقع وموثوق ومسؤول. وعلى المدى الطويل، يعد التوافق بين النموذج اللغوي الكبير (والتوافق مع الذكاء الاصطناعي بشكل عام) أمرًا ضروريًا لتجنب أو على الأقل تقليل المخاطر الوجودية المرتبطة بالتطور الافتراضي للذكاء الاصطناعي العام (AGI) والذكاء الاصطناعي الفائق (ASI).
يمكن أن تكون النماذج اللغوية الكبيرة (LLM) مفيدة للغاية، لكن استخدامها يُشكل مخاطر أخلاقية ومجتمعية. وهذه المخاطر ليست ناجمة عن سوء التصميم أو خطأ المطور: إنها نتيجة أساسية للطبيعة البشرية وكيفية تدريبنا للنماذج اللغوية الكبيرة.
تكتسب النماذج اللغوية الكبيرة معرفتها الأساسية وقدراتها اللغوية من خلال التدريب المسبق الخاضع للإشراف الذاتي على كمية هائلة من عينات النصوص غير المصنفة. وبعد "تعلّم" الأنماط الموجودة عبر مليارات ومليارات الجمل في بيانات التدريب، يمكن للنموذج اللغوي الكبير إنتاج نص متماسك نحويًا يتبع تلك الأنماط.
ولكن عند القيام بذلك، قد تؤدي مخرجات هذا النموذج أيضًا إلى إعادة إنتاج أي محتوى ضار موجود في مجموعة بيانات التدريب تلك. وإذا كانت بيانات التدريب تحتوي على تحيزات أو معلومات غير دقيقة أو محتوى سامًا أو وجهات نظر تمييزية، فسيكون كذلك النص الذي ينتجه النموذج اللغوي الكبير. وإذا كانت بيانات التدريب التي يتم جمعها عن طريق كشط الإنترنت بشكل عشوائي تحتوي على معلومات خاصة أو حساسة، فقد يسرب النموذج اللغوي الكبير تلك المعلومات. وبشكل عام، الطبيعة الاحتمالية لكيفية إنتاج النماذج اللغوية الكبيرة لمخرجاتها يمكن أن تؤدي إلى هلوسات الذكاء الاصطناعي الضارة.
هناك مخاطر إضافية ناتجة عن إمكانية إساءة استخدام النماذج اللغوية الكبيرة. وإذا كانت بيانات التدريب الخاصة بها تتضمن معلومات عن تصنيع الأسلحة أو المواد الكيميائية الخطرة، فقد يساعد النموذج في إيذاء الآخرين. فبدون وجود حواجز وقائية، يمكن استخدام النموذج اللغوي الكبير لتوليد معلومات مضللة خطيرة (ولكن مقنعة). وفي أكثر السيناريوهات الافتراضية تطرفًا، يمكن لنموذج ذكاء اصطناعي غير متوافق نظريًا أن يثير حربًا نووية.
يمكن أن تنشأ مشكلات المحاذاة بطرق غير متوقعة. فمن التجارب الفكرية الشهيرة في الذكاء الاصطناعي سيناريو "مضخم مشابك الورق" للفيلسوف Nick Bostrom. وصف Bostrom ذكاءً اصطناعيًا فائقا مكلفًا بتصنيع مشابك الورق، حيث حدد أن أفضل طريقة لتحقيق هدفه هي البدء في "تحويل أولاً كل الأرض ثم زيادة أجزاء من الفضاء إلى منشآت تصنيع مشابك الورق." 2
وقد نشأت محاذاة النموذج اللغوي الكبير، كنظام، كمحاولة للتخفيف من هذه المخاطر بما يكفي لجعل النماذج اللغوية الكبيرة عملية للاستخدام في العالم الحقيقي وآمنة بما يكفي للتقدم المستمر. كلما تم دمج النماذج اللغوية الكبيرة بشكل أكثر شمولاً في حياتنا اليومية، كلما كان من الضروري فهم حالات عدم التوافق المحتملة مع الاهتمامات البشرية وحسابها.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
يمكن تصنيف طرق المحاذاة إلى ثلاث فئات، يتم تمييزها بشكل أساسي حسب مكان تنفيذها في عملية التدريب.
تهدف طرق المحاذاة الخارجية إلى الضبط الدقيق لنموذج تم تدريبه مسبقًا (وفي كثير من الحالات، خضع بالفعل لبعض التعديلات الدقيقة).
تهدف طرق المحاذاة الداخلية إلى دمج القيم الإنسانية ومبادئ السلامة الأخرى مباشرةً في التدريب المسبق الأولي للنموذج.
يُعد التفسير الميكانيكي ممارسة البحث في كيفية تحويل نماذج اللغة الكبيرة الإدخالات إلى مخرجات، سواء من خلال تحليل العمليات للشبكة العصبية للنماذج اللغوية الكبيرة أو تدقيق مخرجات النماذج للبحث عن أنماط تنتج استجابات غير محاذية.
تعتمد معظم محاذاة النموذج اللغوي الكبير اليوم على المحاذاة الخارجية: تقنيات الضبط الدقيق لتصحيح أو تثبيط أو مراقبة السلوكيات الخاطئة التي تعلمها النموذج الأساسي من بيانات ما قبل التدريب.
يتم إجراء المحاذاة الخارجية عادةً كإحدى المراحل النهائية للضبط الدقيق، بعد الضبط الدقيق الأساسي الخاضع للإشراف وضبط التعليمات. وهذا ضروري لضمان أنه، بغض النظر عن مشاكل المحاذاة، يكون النموذج ذا أداء كاف ليكون جديرًا بالاستخدام، وكذلك لتجنب إبطال تقدم المحاذاة من خلال الاستمرار في التدريب بعد ذلك.
يمكن أن توجه موجهات النظام السلوك المتوافق، لكنها ليست جزءًا "دائمًا" من النموذج ويمكن تجاوزها في كثير من الأحيان. إن التعلم الخاضع للإشراف التقليدي الذي يخضع لتدريب النموذج على تقليد الأمثلة المثالية، ليس شاملاً أو مرنًا للغاية. لذلك، يتم بناء العديد من طرق المحاذاة الخارجية البارزة حول التعلم المعزز، والذي يعمل بشكل جيد للأهداف المفتوحة والتعلم من خلال التجربة والخطأ.
بالمقارنة مع سلوكيات النموذج اللغوي الكبير المكتسبة من التدريب المسبق، فإن السلوكيات المكتسبة فقط من المحاذاة الخارجية يمكن أن تكون سطحية وهشة. فإن المحاذاة الخارجية، في نهاية المطاف، مجرد طبقة رقيقة من الرقابة فوق الاتجاهات الأساسية للنموذج الأساسي. وكما وصفت إحدى الوثائق من أواخر عام 2025، فإن "طرق المحاذاة اللاحقة لا ترقى إلى مستوى إلغاء التعلم".3 وأظهرت الأبحاث أن المحاذاة الخارجية يمكن التغلب عليها بقدر بسيط من الضبط الدقيق الخصومي.4 وحتى الضبط الدقيق لنموذج محاذاة سابقة على مجموعات بيانات غير ضارة تمامًا مثل نموذج Grade School Math 8K (GSM8K) يمكن أن يؤدي إلى تدهور محاذاة النموذج اللغوي الكبير بشكل كبير.5
وعلى نقيض المحاذاة الخارجية، التي تهدف إلى تصحيح نموذج أساسي غير متوافق، فإن المحاذاة الداخلية تقترب من التدريب المسبق بطريقة تؤدي إلى إنتاج نموذج أساسي متوافق. ومن الناحية النظرية على الأقل، فإن المحاذاة الداخلية أكثر قوة في الأساس من المحاذاة الخارجية: فبدلاً من تثبيط النموذج عن السلوكيات المنحرفة التي تعلمها، فإنه يتجنب تعلمها على الإطلاق. وفي حين أن المحاذاة الداخلية لا يجب أن تكون متعارضة مع المحاذاة الخارجية، إلا أنها تجعل المحاذاة الخارجية الشاملة أقل ضرورة.
عمليًا، التوافق الداخلي أصعب. ويستلزم فحص المليارات من عينات النصوص الفردية، ومعايير التعريف وتحديد المحتوى غير المتوافق، ومخطط للتنقيح أو المراجعة من مجموعة البيانات. وحتى لو تجاهلنا العبء اللوجستي، فإن تقليل كمية بيانات التدريب المتاحة للنموذج اللغوي الكبير منها يزيد من التحدي المتمثل في تحقيق أقصى قدر من الأداء. ومع ذلك، من الممكن بوضوح القيام بذلك: فنماذج IBM Granite، على سبيل المثال، مدربة بالكامل على بيانات آمنة للمؤسسات.
ولا يزال البحث في مجال المحاذاة الداخلية للنماذج اللغوية الكبيرة في مراحله الأولى مقارنةً بالمحاذاة الخارجية. ويعد استكشاف المقايضات المثلى بين محاذاة سلوك النموذج اللغوي الكبير والسعي لتحقيق أداء النموذج اللغوي الكبير الخام من المشكلات الأساسية في الاستفسارات الجارية.
ولا تهدف قابلية التفسير الآلي إلى تحقيق محاذاة النموذج اللغوي الكبير بشكل مباشر، بل تهدف إلى تحديد فرص تحسين المحاذاة وثغرات أمنية يجب أن تأخذها طرق المحاذاة في الحسبان.
على سبيل المثال، استكشفت ورقة بحثية عام 2024 الآلية الداخلية لـ الشبكة العصبية لنموذج لغوي كبير (LLM) تمت مواءمته، وذلك عندما يرفض الإجابة على طلب يُعتبر ضاراً أو غير آمن. وجد الباحثون، عبر 13 نموذج لغوي كبير (LLM) مختلفاً، أن عملية الرفض يتم تحفيزها من خلال نمط تنشيط محدد للغاية وبسيط ومتسق. أثبتوا بعد ذلك أنه من السهل نسبيًا تحييد نمط التنشيط ذاك ومنع النموذج من رفض المدخلات السامة، مما كشف عن ثغرة كبيرة في طرق المحاذاة الخارجية.6 يُشار الآن إلى تقنية كسر الحماية هذه باسم "abliteration" بشكل شائع.
تطمح بعض المنهجيات إلى بناء القابلية للتفسير مباشرةً ضمن بنية النموذج. على سبيل المثال، أضافت بنية نماذج لغوية كبيرة (LLM) تجريبية من Guide Labs "وحدة مفاهيم" إلى بنية النموذج. أثناء مرحلة التدريب المسبق، يُجبر كل رمز مميز يعالجه النموذج اللغوي الكبير (LLM) على المرور عبر وحدة المفاهيم تلك، والتي يتم تدريبها لتصنيف تمثيلات تلك الرموز وفقاً لـ "مفاهيم" محددة تعلمها النموذج. تُصنف هذه المفاهيم إلى ثلاث فئات: المعروفة (الأفكار الواردة مباشرة في بيانات التدريب)، و المكتشفة (الأفكار التي تعلمها النموذج بشكل ضمني من تلقاء نفسه)، و المتبقية (كل ما تبقى). هذا الأمر لا يتيح للباحثين تحديد المفاهيم (وبالتالي بيانات التدريب) التي استند إليها مخرج معين فحسب، بل يمكنهم أيضاً من توجيه مخرجات النموذج عبر أمره بتجاهل مفاهيم محددة أو منحها الأولوية.
يمكن أن تتضمن قابلية التفسير الميكانيكية أيضاً تحليلاً منهجياً لمخرجات النموذج، بدلاً من التركيز حصراً على المنطق الرياضي الداخلي للنماذج. يُعد هذا ذا صلة خاصة بفهمنا لـ نماذج الاستدلال، التي تُنتج ظاهرياً "عملية تفكير" منطوقة قبل إنشاء الاستجابة النهائية للمطالبة الأولية. في دراسة بارزة، اكتشف باحثون في شركة Anthropic أن نماذج الاستدلال ليست "صادقة" دائمًا عند صياغة تسلسل أفكارها لغويًا، وهو أمر قد يترتب عليه تداعيات كبيرة في تقييم مدى توافق هذه النماذج مع الأهداف البشرية.
تركز المحاذاة الخارجية بشكل أساسي (ولكن ليس حصريًا) على الضبط الدقيق للنماذج اللغوية الكبيرة المدربة لتحسين المحاذاة.
تُعد موجِّهات النظام عنصرًا شائعًا في أنظمة الذكاء الاصطناعي القائمة على النموذج اللغوي الكبير. وتحتوي مطالبة النظام على تعليمات تُضاف أساسًا كسياق إضافي لكل مطالبة يتلقاها النموذج. لذا، فإن تضمين التعليمات القائمة على المحاذاة في مطالبة نظام يمكن أن يوجه سلوك النموذج اللغوي الكبير على أساس كل مطالبة على حدة. وفي عام 2025، انتشرت تقارير تفيد بأن مطالبة النظام الخاص بـ Claude AI من Anthropic كان يزيد عن 16.000 كلمة.7
تُعد مطالبات النظام طريقة خفيفة ومباشرة لتحسين المحاذاة، ولكنها تنطوي على قيود كبيرة مقارنةً بأساليب الضبط الدقيق.
ويمكن للمستخدم تكوين مطالبة النظام لأي نموذج مصدر مفتوح (أو نموذج مصدر مغلق يشغل عبر واجهة برمجة تطبيقات بدلاً من خدمة روبوت المحادثة) يدويًا من قبل المستخدم كما يراه مناسبًا. من السهل كتابة مطالبة النظام دون أي فوائد للمحاذاة.
مطالبات النظام عرضة لهجمات إدخال المطالبات.
لا يوجد ضمان بأن النموذج سيتبع دائمًا (أو بشكل مثالي) التعليمات الواردة في مطالبة النظام، حتى لو خضع النموذج لضبط مكثف للتعليمات. وكلما زاد طول سياق التبادل، زاد خطر أن يكون لمطالبة النظام تأثير متناقص على مخرجات النموذج.
الضبط الدقيق المراقب (SFT) يقوم بضبط نموذج اللغة الكبيرة على مجموعة بيانات من أزواج البيانات
المحاذاة التقليدية القائمة على SFT هشة للغاية. ونطاق الاحتمالات لمطالبة قد يؤدي إلى مخرج غير محاذ يتجاوز بكثير نطاق السيناريوهات التي يمكن تغطيتها عمليًا في مجموعة بيانات مجمعة يدويًا، حتى بمساعدة البيانات الاصطناعية. وهذا يجعل المحاذاة القياسية القائمة على SFT عرضة بشكل خاص لكسر الحماية، أو حتى التحايل عليها عن طريق الخطأ.
تعتمد العديد من طرق المحاذاة الخارجية على التعلم المعزز (RL)، وبشكل أكثر تحديدًا، التعلم المعزز من التعليقات البشرية (RLHF) أو الخوارزميات ذات الصلة التي تقاربها باستخدام النماذج اللغوية الكبيرة للحصول على تعليقات بدلاً من ذلك.
يعتمد التعلم المعزز التقليدي على قواعد صريحة تحدد متى ستتم مكافأة مخرجات النموذج (أو معاقبتها) أو دالة مكافأة تحدد تلك القواعد رياضيًا. ولكن بالنظر إلى الطبيعة الذاتية والتجريدية للقيم الإنسانية، لا يمكن للقواعد أو دوال المكافآت تحديد معنى "التوافق" بشكل شامل.
التعلّم المعزز من التعليقات البشرية (RLHF) هي طريقة محاذاة تم تطويرها في الأصل من قبل OpenAI، ويُنسب إليها الفضل في أحد الإنجازات الرئيسية التي أسفرت عن نموذج GPT-3.5 الذي تم استخدامه لإطلاق ChatGPT. ويكلف المقيّمين البشريين بتقييم مخرجات النموذج، ثم يخضع نموذج مكافأة للتدريب على تلك التقييمات للتنبؤ بكيفية تقييم الإنسان لمخرجات معينة. ويتم بعد ذلك استخدام نموذج المكافأة لتقييم مخرجات النموذج اللغوي الكبير التي ستتم محاذاتها مع نموذج المكافأة، ثم يتم تحديث معلمات النموذج وفقًا لذلك باستخدام سياسة التحسين الأمثل للسياسة القريبة (PPO).
وعلى الرغم من أنها كانت واحدة من أوائل طرق محاذاة النموذج اللغوي الكبير الناجحة، إلا أن RLHF لها العديد من العيوب. فإن بيانات التفضيل البشري مكلفة، ويمكن أن تكون التفضيلات البشرية ذاتية ومتقلبة. يمكن أن يؤدي أيضًا إلى التملق، والميل العام إلى تحسين تعزيز معتقدات المستخدمين أكثر من المخرجات الصادقة الموضوعية. وعلاوة على ذلك، فإن كلاً من تدريب نموذج المكافأة وخوارزمية PPO المستخدمة لتحديث النموذج اللغوي الكبير معقدان ومكلفان من الناحية الحسابية.
يعمل التعلم المعزز من تعليقات الذكاء الاصطناعي (RLAIF) إلى حد كبير على نفس مبادئ RLHF. وأبسط نهج RLAIF هو إنشاء نموذج محاذي أولاً عبر RLHF، ثم استخدام هذا النموذج لتوفير إشارة المكافأة المستخدمة لضبط النموذج المقصود. وعلى الرغم من أن هذا لا يخفف بالضرورة من المشكلات المفاهيمية في RLHF، إلا أنه يقلل بشكل كبير من وقت وتكلفة التدريب على المحاذاة.
وهناك نهج أكثر تطورًا، ابتكرته شركة Anthropic، وهو الذكاء الاصطناعي الدستوري. ويتطلب من مطوري النماذج تأليف وثيقة ("دستور") يمثل جميع المبادئ عالية المستوى التي يجب على النموذج اللغوي الكبير اتباعها. ويقوم النموذج غير المحاذي بإنشاء استجابة لمطالبة، ثم يُطلب منه بعد ذلك نقد ومراجعة مخرجاته الخاصة من حيث مدى اتباعه للمبادئ الموضحة في ذلك الدستور. ثم يُطلب من النموذج اللغوي الكبير اختيار الإجابة، الأصلية أو المنقحة، التي تتبع هذا الدستور بشكل أفضل. ثم تستخدم بيانات التفضيل هذه للضبط الدقيق للنموذج من خلال التعلم المنطقي أو تحسين التفضيل المباشر (DPO).
يُعد تحسين التفضيل المباشر (DPO) طريقة ضبط دقيقة تقارب الهدف الأساسي لـ RLHF (أو RLAIF)، ولكن دون الحاجة إلى تدريب نموذج مكافأة منفصل أو حتى استخدام التعلم المعزز على الإطلاق. ويحقق هذا النظام نتائج تنافسية مع نتائج نظامي RLHF وPPO، مع كونه أبسط وأقل تكلفة بكثير في التنفيذ.8
لإنشاء مجموعة بيانات لضبط النماذج اللغوية الكبيرة بدقة عبر DPO، يتم عرض مطالبة إدخال على المُقيّمين البشريين (أو النموذج اللغوي الكبير) موجه إدخال ومخرجين مختلفين لذلك الموجِّه، ثم يطلب منهم تحديد أيّ المخرجين يفضّلون. وينتج هذا الترتيب مجموعة بيانات من ثلاثيات معنونة، حيث تحتوي كل ثلاثية على
في التدريب ، يتم تزويد النموذج بكل
زيادة احتمالية قيام النموذج اللغوي الكبير بإنتاج مخرجات مشابهة لـ
التقليل من احتمالية قيام النموذج اللغوي الكبير بإنتاج مخرجات مشابهة لـ
تطبيق تحديثًا أكبر عندما يكون ناتج النموذج اللغوي الكبير الخاص بالنموذج أقرب إلى
تركّز تقنيات المحاذاة الداخلية على محاذاة التدريب الأولي للنموذج اللغوي الكبير من خلال جعل مجموعة البيانات الضخمة لبيانات ما قبل التدريب أكثر توافقًا.
وثيقة لعام 2025، "التدريب المسبق على السلامة: نحو الجيل التالي من الذكاء الاصطناعي الآمن"، اتبعت نهجًا شاملاً للمحاذاة الداخلية. لاحظوا كيف ساهم كل أسلوب في سلامة النموذج بشكل عام، كما يقاس بتأثيره على معدل نجاح الهجمات (ASR) لمحاولات كسر الحماية بعد ضبط النموذج لاحقًا على مجموعة بيانات GSM8K. كما تمت مناقشته سابقًا، من المعروف أن الضبط الدقيق بعد المحاذاة، حتى على مجموعة بيانات "غير ضارة" مثل GSM8K، يؤدي إلى تدهور المحاذاة بشكل كبير.5
إن أكثر طرق المحاذاة الداخلية بديهية هي تصفية بيانات ما قبل التدريب لإزالة أي محتوى سام أو ضار أو غير دقيق. وقام الباحثون يدويًا بتعليق على مجموعة فرعية من مجموعة بيانات كبيرة مفتوحة المصدر، مع تصنيف كل عينة بدرجة أمان من 0 (بدون خطر) إلى 5 (أقصى مخاطر) ومبرر موجز لتلك الدرجة. ثم قاموا بعد ذلك بتدريب مصنف على مجموعة البيانات المشروحة، والتي استخدموها لأتمتة تصفية بيانات ما قبل التدريب الأولية.
ومن المثير للدهشة أنهم وجدوا أن هذه التصفية أضرّت في الواقع بأداء السلامة. وعند التدريب حصريًا على أمثلة تدريبية بدرجة 0، ارتفع معدل ASR من 38.8% (للبيانات الخام) إلى 43.8%. ونظرًا لعدم رؤية أنماط النص غير الآمنة مطلقًا، لم يتعلم النموذج أبدًا كيفية الاستجابة لها بشكل صحيح.
وكما أشار الباحثون، فإن "إزالة المحتوى غير الآمن بالكامل ينطوي على خطر التخلص من المعلومات القيّمة". ولتجنب ذلك، استخدموا استراتيجية إعادة التهيئة السياقية الاصطناعية: بدلاً من إزالة البيانات غير الآمنة، وطالبوا بنموذج لغوي كبير منفصل لإعادة صياغته وإعادة تأطيره، مضيفين سياقًا أخلاقيًا وتاريخيًا.
ولقد اختبروا هذا النهج من خلال التدريب المسبق للنموذج على عينات بيانات ذات درجات أمان تتراوح بين 0 و3، حيث تم إعادة صياغة العينات التي حصلت على درجات من 1 إلى 3. وقد أدى ذلك إلى انخفاض في ASR من 38.8% (للبيانات الخام) إلى 33.6%. وكان جعل النموذج يتفاعل مع الموضوعات الحساسة بشكل مسؤول أكثر فاعلية من مجرد تجنبها تمامًا.
بالنسبة لبعض الإدخالات السامة أو الضارة بطبيعتها، مثل تلك التي تنطوي على القرصنة أو الأذى أو انتهاكات الخصوصية المضللة أو المحتوى الجنسي غير اللائق، فإن الاستجابة البناءة الوحيدة هي رفض التعامل مع الموضوع. لذلك قام الباحثون بإنشاء مجموعة بيانات من الرفض البنّاء للطلبات الضارة، لمحاكاة الطريقة التي نعلّم بها الأطفال التعرّف على المواقف المحتملة العدائية، وتخفيف حدتها، وتجنّبها.
عند إضافة بيانات رفض تتعلق ببيانات غير منسقة ذات درجات أمان من 4 إلى 5 إلى بيانات مُعاد صياغتها بدرجات أمان من 1 إلى 3 وبيانات غير منسقة بدرجة أمان 0، ينخفض معدل نجاح الهجمات (ASR) من 33.6% إلى 25.1%، بتحسن قدره 8.5 نقطة مئوية.
إن مجرد تعليم النموذج متى يتوقف عن التفاعل ليس مثل تعليمه سبب إيقاف التفاعل. ولتعليم النموذج التفكير في الرفض بدلاً من اتباع القواعد فقط، أنشأ الباحثون مجموعة بيانات اصطناعية من أمثلة "التربية الأخلاقية"، تتكوّن من حوارات تعليمية حول مخاطر وأخلاقيات الموضوعات الضارة التي تم تحديدها في البيانات غير المنسقة.
عملت إضافة بيانات التعليم النموذجي إلى التدريب المسبق للنموذج على خفض نسبة ASR أكثر، من 25.1% إلى 20.0%.
كما قام الباحثون بتدريب النموذج أيضًا على تمييز المدخلات التي يحتمل أن تكون ضارة، مما يهيئه للتعامل مع مثل هذه التفاعلات بحذر. ثم يتم تمكين ذلك النموذج من استخدام تقنيات خاصة أثناء الاستدلال.
قاموا بإدخال رمز مميز،
أدى تمشيط خوارزمية وقت الاستدلال هذه مع طرق المحاذاة الداخلية الأخرى إلى خفض ASR من 20.0% إلى 8.3%. كما درسوا تأثير استخدام خوارزمية Safe Beam Search فقط، مع تجاهل تقنيات التدريب المسبق الأخرى، ووجدوا أنه على الرغم من أن معدل الرفض ظل ثابتًا، فإن فائدة استجابات النموذج انخفضت بشكل كبير.
في نهاية المطاف، تكون هذه المكاسب في المحاذاة مفيدة فقط إذا ظل النموذج فعالاً في مهامه العادية. وقام الباحثون بتقييم كل نسخة من النموذج بناء على مجموعة من المعايير القياسية ولم يجدوا فروقًا ذات دلالة في الأداء مقارنةً بالنموذج المدرب العادي على البيانات غير المنسقة.
ونظرًا للطبيعة المجردة والذاتية للقيم الإنسانية، لا يمكن لأي معيار واحد أن يقيس محاذاة النماذج اللغوية الكبيرة بشكل مثالي أو شامل عالميًا، لكن هناك عدة معايير تهدف إلى قياس جوانب محددة من المحاذاة. فعلى سبيل المثال، يقيس TruthfulQA الصدق ومقاومة الهلوسة؛ ويقيس HarmBench المتانة في مواجهة الهجمات العدائية؛ ويعكس ChatbotArena التفضيلات البشرية الذاتية.
"ضريبة المحاذاة" هي مصطلح يُستخدم للإشارة إلى المقايضات العملية لعملية المحاذاة. وفي بعض الأحيان، قد يؤدي تحسين محاذاة النموذج إلى تقليل أدائه في مهام التفكير المهمة، أو أن الميل إلى رفض بعض المواضيع يضر بقدرته على التعامل مع الأسئلة المعقدة والدقيقة.
نعم: يمكن استخدام مجموعة متنوعة من التقنيات، بدءًا من الهجمات القائمة على السلاسل عالية التقنية إلى الحيل الخطابية الذكية، لكسر حماية النموذج المتوافق. ولكن جزءًا مهمًا من مواءمة النماذج اللغوية الكبيرة هو توقع هذه الهجمات. يُعد الفريق الأحمر، توظيف قراصنة لمحاولة كسر حماية النموذج اللغوي الكبير عمدًا، أمر أساسي لمعالجة الثغرات الأمنية غير المتوقعة.
لا يمكن لأحد أن يعرف ذلك على وجه اليقين، لأننا لم نطور بعد الذكاء الاصطناعي العام (AGI) أو الذكاء الاصطناعي الفائق (ASI). ولكن الاستعداد لوصول الذكاء الاصطناعي الفائق هو أحد الأهداف الرئيسية لأبحاث المحاذاة.
كقاعدة عامة، لم تخضع النماذج الأساسية، على عكس إصدارات "Instruct" أو "Chat"، لأي محاذاة خارجية بعد التدريب (على الرغم من أنه قد يكون هناك محاذاة داخلية مدمجة في تدريبها المسبق). ولكن بشكل عام، سيخضع أي نموذج لغوي كبير مخصص للاستخدام التجاري للمحاذاة.
يمكنك إدارة نماذج الذكاء الاصطناعي التوليدي من أي مكان ونشرها على السحابة أو محليًا باستخدام IBM watsonx.governance.
اكتشف كيف يمكن لحوكمة الذكاء الاصطناعي أن تساعد على زيادة ثقة موظفيك في الذكاء الاصطناعي وتسريع الاعتماد عليه وتعزيز الابتكار، بالإضافة إلى تحسين ثقة العملاء.
تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.
1. "مساعد لغوي عام كمختبر للمواءمة،" arXiv، بتاريخ 9 ديسمبر 2021
2. "القضايا الأخلاقية في الذكاء الاصطناعي المتقدم،" Nick Bostrom، عام 2003
3. "التدريب المسبق على السلامة: نحو الجيل القادم من الذكاء الاصطناعي الآمن،" arXiv، بتاريخ 15 سبتمبر 2025
4. "عدم المحاذاة الناشئ: الضبط الدقيق الضيق قد ينتج نماذج لغوية كبيرة غير محاذية على نطاق واسع،" Proceedings of Machine Learning Research، يوليو 2025
5. "يجب أن يكون محاذاة السلامة أعمق من مجرد بضعة رموز مميزة، المؤتمر الدولي لتمثيل التعلم 2025 (ICLR 2025)، تم الوصول إليه عبر arXiv، في 10 يونيو 2024
6. "يتم التوسط في عملية الرفض داخل النماذج اللغوية الكبيرة عبر اتجاه واحد،" LessWrong، بتاريخ 27 أبريل 2025
7. "تحليل التعليمات البرمجية لـ Claude،" O’Reilly Radar، بتاريخ 15 يوليو 2025
8. "هل تفوق خوارزمية DPO خوارزمية PPO في محاذاة النماذج اللغوية الكبيرة؟ دراسة شاملة،" arXiv، بتاريخ 10 أكتوبر 2024