ما التعلم المعزز من التعليقات البشرية (RLHF)؟

10 نوفمبر 2023

المؤلفين

Dave Bergmann

Senior Writer, AI Models, IBM

ما هو RLHF؟

التعلم المعزز من التعليقات البشرية (RLHF) هو أسلوب تعلم آلي يتم فيه تدريب «نموذج المكافأة» من خلال التعليقات البشرية المباشرة، ثم استخدامه لتحسين أداء وكيل الذكاء الاصطناعي من خلال التعلم المعزز.

يُطلق عليه أيضًا التعلم المعزز من التفضيلات البشرية، وهو مناسب بشكل فريد للمهام ذات الأهداف المعقدة أو غير المحددة أو التي يصعب تحديدها. على سبيل المثال، سيكون من غير العملي (أو حتى من المستحيل) أن يقوم حل خوارزمي بتعريف كلمة "مضحك" من الناحية الرياضية—ولكن من السهل على البشر تقييم النكات التي تم إنشاؤها بواسطة نموذج لغوي كبير (LLM). يمكن بعد ذلك استخدام هذه التعليقات البشرية، التي تم تقطيرها في دالة المكافأة، لتحسين قدرات كتابة النكات للنموذج اللغوي الكبير.

في ورقة بحثية نشرت عام 2017، قام Paul F. Christiano من OpenAI، جنبًا إلى جنب مع باحثين آخرين من OpenAI و DeepMind، بتفصيل نجاح التعليم المعزز من التعليقات البشرية (RLHF) في تدريب نماذج الذكاء الاصطناعي على أداء مهام معقدة مثل ألعاب Atari ومحاكاة الحركة الروبوتية.بالتوسع في هذا الاختراق، استمرت ألعاب الفيديو في كونها أرضية اختبار مهمة لـ RLHF: بحلول عام 2019، هزمت أنظمة الذكاء الاصطناعي المدربة من RLHF مثل OpenAI Five و AlphaStar من DeepMind أفضل اللاعبين المحترفين في Dota2 و StarCraft3 الأكثر تعقيدًا، على التوالي.

ولعل الأهم من ذلك هو أن ورقة OpenAI لعام 2017 أشارت إلى أن منهجيتها—لا سيما إدخال خوارزمية تحسين السياسة القريبة (PPO) لتحديث عوامل ترجيح النموذج—قللت بشكل كبير من تكلفة جمع واستخلاص التعليقات اللازمة. وقد مهّد ذلك الطريق أمام التكامل النهائي بين التعلم المعزز من التعليقات البشرية (RLHF) ومعالجة اللغة الطبيعية (NLP)، حيث ساعدت التطورات الناتجة عن ذلك في إدخال كل من LLLMs و RLHF في طليعة أبحاث الذكاء الاصطناعي.

جاء الإصدار الأول من التعليمات البرمجية التي توضح بالتفصيل استخدام RLHF على نماذج اللغة في عام 2019 من OpenAI4، الذي أصدر InstructGPT المدرب من RLHF في أوائل عام 2022.5 كانت هذه خطوة حاسمة في سد الفجوة بين GPT-3 و GPT-3.5-turbo وهي النماذج التي دعمت إطلاق ChatGPT.

منذ ذلك الحين، تم استخدام RLHF في تدريب أحدث النماذج اللغوية الكبيرة من OpenAI و DeepMind و Google6 و Anthropic.7

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف يعمل التعلم المعزز

من الناحية النظرية، يهدف التعلم المعزز (RL) إلى محاكاة الطريقة التي يتعلم بها البشر: يتعلم وكلاء الذكاء الاصطناعي بشكل كلي من خلال التجربة والخطأ، مدفوعين بحوافز قوية للنجاح.

ولوضع هذه الإستراتيجية موضع التنفيذ، يتألف إطار عمل التعلم المعزز من العناصر التالية:

مساحة الحالة

مساحة الحالة هي جميع المعلومات المتاحة حول المهمة المطروحة ذات الصلة بالقرارات التي قد يتخذها وكيل الذكاء الاصطناعي، بما في ذلك المتغيرات المعروفة وغير المعروفة. عادة ما تتغير مساحة الحالة مع كل قرار يتخذه الوكيل.

مساحة العمل

تحتوي مساحة العمل على جميع القرارات التي قد يتخذها وكيل الذكاء الاصطناعي. في سياق لعبة لوحية، على سبيل المثال، تكون مساحة الحركة منفصلة ومحددة جيدًا: تتكون من جميع الحركات القانونية المتاحة للاعب الذكاء الاصطناعي في لحظة معينة. في سياق توليد النصوص، تكون مساحة الحركة هائلة، حيث تضم "مفردات" الرموز المميزة المتاحة للنموذج اللغوي الكبير بالكامل.

دالة المكافأة

المكافأة هي مقياس النجاح أو التقدم الذي يحفز وكيل الذكاء الاصطناعي. في بعض الحالات، مثل ألعاب الطاولة، يكون تحديد النجاح—في هذه الحالة، الفوز باللعبة—موضوعيًا ومباشرًا. ولكن عندما يكون تعريف "النجاح" غامضًا، فإن تصميم دالة مكافأة فعالة يمكن أن يمثل تحديًا كبيرًا. في إطار عمل الرياضيات، يجب ترجمة هذه التعليقات إلى إشارة مكافأة: تقدير كمي قياسي للتعليقات الإيجابية (أو السلبية).

القيود

يمكن أن تُستكمل وظيفة المكافأة بعقوبات—مكافآت سلبية—للأفعال التي تعتبر ذات نتائج عكسية للمهمة المطروحة. على سبيل المثال، قد ترغب إحدى المؤسسات في منع روبوت المحادثة من استخدام الألفاظ النابية أو غيرها من الألفاظ البذيئة؛ وقد يعاقب نموذج السيارة ذاتية القيادة على التصادم أو الخروج عن المسار.

السياسة

السياسة هي، في الأساس، الاستراتيجية أو "عملية التفكير" التي توجه سلوك وكيل الذكاء الاصطناعي. بعبارات رياضية بسيطة، السياسة (") هي دالة تأخذ الحالة ("s") كإدخال وتعيد إجراء (“a”): π(s)→a.

الهدف من خوارزمية التعلم المعزز هو تحسين السياسة لتحقيق أقصى قدر من المكافأة. في التعلم المعزز العميق، يتم تمثيل السياسة كشبكة عصبية يتم تحديثها باستمرار، وفقًا لدالة المكافأة، أثناء عملية التدريب. فوكيل الذكاء الاصطناعي يتعلم من التجربة، تمامًا كما يتعلم البشر.

في حين أن تقنية التعلم المعزز التقليدية حققت نتائج مبهرة على أرض الواقع في العديد من المجالات، إلا أنها قد تواجه صعوبة في إنشاء دالة مكافأة فعالة للمهام المعقدة التي يصعب فيها وضع تعريف واضح للنجاح. وتتمثل الميزة الأساسية للتعلم المعزز من التعليقات البشرية في قدرته على التقاط الفوارق الدقيقة والذاتية باستخدام التعليقات الإيجابية بدلاً من الأهداف المحددة رسمياً.

التعلم المعزز من التعليقات البشرية للنماذج اللغوية الكبيرة

كان أحد أبرز تطبيقات التعلم المعزز من التعليقات البشرية هو تعزيز ملاءمة ودقة وأخلاقيات النماذج اللغوية الكبيرة—خاصةً لاستخدامها كروبوتات محادثة.

تهدف النماذج اللغوية الكبيرة، مثل جميع نماذج الذكاء الاصطناعي التوليدي، إلى تكرار التوزيع الاحتمالي لبيانات التدريب. على الرغم من أن التطورات الأخيرة قد عززت استخدام النماذج اللغوية الكبيرة كمحركات لروبوتات المحادثة، أو حتى كمحركات استدلال للذكاء الاصطناعي للأغراض العامة، فإن نماذج اللغة هذه تستخدم ببساطة الأنماط المكتسبة من بيانات التدريب الخاصة بها للتنبؤ بالكلمة (الكلمات) التالية في تسلسل معين يتم البدء به من خلال موجِّه. على المستوى الأساسي، هذه النماذج لا تجيب فعليا على موجِّه ما: بل تقوم بإضافة نص إليها.

بدون تعليمات محددة للغاية، فإن نماذج اللغة لديها قدرة قليلة على فهم نية المستخدم. على الرغم من أن هندسة التلقين يمكن أن تساعد في توفير السياق اللازم للنموذج اللغوي الكبير لتلبية احتياجات المستخدم، فمن غير العملي أن نطلب هندسة التلقين لكل تبادل فردي مع روبوت المحادثة.

علاوة على ذلك، في حين تم تدريب النماذج اللغوية الكبيرة الجاهزة للاستخدام بالطرق التقليدية لإنتاج مخرجات متماسكة نحويًا، فإن تدريب النماذج اللغوية الكبيرة على إنتاج مخرجات "جيدة" يمثل مشكلة غامضة. فمفاهيم مثل الحقيقة أو الفائدة أو الإبداع أو حتى ما يجعل مقتطفًا برمجيًا قابلاً للتنفيذ تعتمد على السياق أكثر بكثير من معاني الكلمات والبنية اللغوية.

لجعل النماذج اللغوية أفضل عند التفاعل البشري، لجأ علماء البيانات إلى التعلم المعزز باستخدام التعليقات البشرية. لقد تفوقت نماذج InstructGPT المعززة بالتعلم المعزز باستخدام التعليقات البشرية بشكل ملحوظ على نماذج GPT-3 السابقة، وخاصة فيما يتعلق باتباع التعليمات والحفاظ على دقة الحقائق وتجنب الهلوسة.5 وبالمثل، أظهر البحث الذي أصدرته OpenAI عند إطلاق GPT-4 أن دقة التعلم المعزز باستخدام التعليقات البشرية تضاعفت في الأسئلة العدائية.8

يمكن أن تحل فوائد التعلم المعزز باستخدام التعليقات البشرية محل قيمة مجموعات البيانات الأكبر حجمًا، مما يسمح بتطوير نموذج أكثر كفاءة في استخدام البيانات: لاحظت OpenAI أن مصمميها يفضلون مخرجات الإصدار 1.3 مليار معلمة من InstructGPT على مخرجات الإصدار 175 مليار معلمة من GPT-3.5

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

كيف يعمل التعلم المعزز من التعليقات البشرية؟

عادة ما يتم تدريب النموذج اللغوي الكبير باستخدام التعلم المعزز من التعليقات البشرية في أربع مراحل:

النماذج المدربة مسبقاً

يتم استخدام التعلم المعزز من التعليقات البشرية عمومًا للضبط الدقيق وتحسين نموذج مُدرَّب مسبقًا، وليس كطريقة تدريب شاملة. على سبيل المثال، استخدم برنامج InstructGPT التعلم المعزز من التعليقات البشرية لتحسين نموذج GPT الموجود مسبقًا المُدرَّب مسبقًا—أي نموذج—المحول التوليدي المُدرَّب مسبقًا. ذكرت OpenAI في إعلان إصدارها لـ InstructGPT، أن "إحدى طرق التفكير في هذه العملية هي أنها "تطلق العنان" للقدرات التي كانت تمتلكها GPT-3 بالفعل، ولكن كان من الصعب استخلاصها من خلال هندسة التلقين السريعة وحدها."5

تظل مرحلة ما قبل التدريب إلى حد بعيد المرحلة الأكثر استهلاكًا للموارد في التعلم المعزز من التعليقات البشرية (RLHF). لاحظت OpenAI أن عملية تدريب RLHF لـ InstructGPT استلزمت أقل من 2 في المائة من الحساب والبيانات اللازمة للتدريب المسبق لـ GPT-3.

الضبط الدقيق الخاضع للإشراف

قبل بدء التعلم المعزز الصريح، يتم استخدام الضبط الدقيق تحت الإشراف (SFT) لتهيئة النموذج لتوليد استجاباته بالشكل الذي يتوقعه المستخدمون.

كما أشرنا سابقًا، تعمل عملية التدريب المسبق للنموذج اللغوي الكبير على تحسين النماذج من أجل الإكمال: التنبؤ بالكلمات التالية في تسلسل بدأ بموجِّه المستخدم من خلال تكرار الأنماط اللغوية المكتسبة أثناء التدريب المسبق للنموذج. في بعض الأحيان، لا تكمل النماذج اللغوية الكبيرة تسلسلًا بالطريقة التي يريدها المستخدم: على سبيل المثال، إذا كانت موجِّه المستخدم هو، "علمني كيفية إنشاء سيرة ذاتية" ، فقد يستجيب النموذج اللغوي الكبير بـ "باستخدام Microsoft Word". إنها طريقة صحيحة لإكمال الجملة، ولكنها لا تتماشى مع هدف المستخدم.

لهذا السبب يستخدم SFT التعلم الخاضع للإشراف لتدريب النماذج على الاستجابة بشكل مناسب لموجِّهات مختلفة. ينشئ الخبراء أمثلة مصنفة حسب التسمية، باتباع التنسيق(موجِّه، استجابة)، لتوضيح كيفية الاستجابة للمطالبات لحالة الاستخدام المختلفة، مثل الإجابة عن الأسئلة أو التلخيص أو الترجمة.

وعلى الرغم من قوة هذه البيانات الإيضاحية إلا أن توليدها يستغرق وقتاً طويلاً ومكلفاً. بدلاً من إنشاء أمثلة جديدة مخصصة، قدمت DeepMind نهج "تطبيق استدلال التصفية بناء على تنسيق حوار مكتوب مشترك (نمط "نص المقابلة" )" لعزل أزواج الأمثلة المناسبة للمطالبة/الاستجابة من داخل مجموعة بيانات MassiveWeb الخاصة بها.9

تدريب نموذج المكافأة

لكي تعمل التعليقات البشرية على تشغيل دالة المكافأة في التعلّم المعزز، يلزم وجود نموذج مكافأة لترجمة التفضيل البشري إلى إشارة مكافأة رقمية. يعد تصميم نموذج مكافأة فعال خطوة حاسمة في RLHF، حيث لا توجد صيغة رياضية أو منطقية مباشرة لتحديد القيم الإنسانية الذاتية بشكل عملي.

يتمثل الغرض الرئيسي من هذه المرحلة في تزويد نموذج المكافأة ببيانات تدريب كافية، تتألف من التعليقات المباشرة من المقيّمين البشريين، لمساعدة النموذج على تعلم محاكاة الطريقة التي تخصص بها التفضيلات البشرية المكافآت لأنواع مختلفة من استجابات النموذج. وهذا يسمح للتدريب بالاستمرار في وضع عدم الاتصال دون وجود إنسان في العملية.

يجب أن يتناول نموذج المكافأة تسلسلًا من النص ويخرج قيمة مكافأة قياسية تتنبأ، عدديًا، بمقدار ما سيكافئ (أو يعاقب) المستخدم البشري هذا النص. يُعد هذا الناتج الذي يمثل قيمة قياسية أمرًا ضروريًا لدمج مخرجات نموذج المكافأة مع العناصر الأخرى لخوارزمية التعلم المعزز.

في حين أنه قد يبدو من البديهي أن يقوم المقيّمون البشريون ببساطة بالتعبير عن رأيهم في كل استجابة نموذجية في شكل مقياس—مثل تقييم الاستجابة على مقياس من واحد (الأسوأ) إلى عشرة (الأفضل)—إلا أنه من الصعب للغاية جعل جميع المقيّمين البشريين متوافقين على القيمة النسبية لدرجات معينة، ناهيك عن جعل المقيّمين البشريين متوافقين على ما يشكل استجابة "جيدة" أو "سيئة" في الفراغ. يمكن أن يؤدي ذلك إلى جعل التصنيف القياسي المباشر صاخبًا ويصعب معايرته.

بدلاً من ذلك، عادةً ما يتم إنشاء نظام تصنيف من خلال مقارنة التعليقات البشرية لمخرجات النماذج المختلفة. تتمثل إحدى الطرق الشائعة في جعل المستخدمين يقارنون بين تسلسلين نصيين متماثلين—مثل مخرجات نموذجين لغويين مختلفين يستجيبان لنفس الموجِّه—في مباريات وجهاً لوجه، ثم استخدام نظام تصنيف Elo لإنشاء تصنيف مجمع لكل جزء من النص المُنشأ بالنسبة إلى الآخر. قد يسمح النظام البسيط للمستخدمين بـ "الإعجاب" أو "عدم الإعجاب" بكل إخراج، مع ترتيب المخرجات بعد ذلك حسب تفضيلها النسبي. قد تطلب الأنظمة الأكثر تعقيدًا من واضعي العلامات تقديم تقييم عام والإجابة عن أسئلة فئوية حول عيوب كل استجابة، ثم تجميع هذه التعليقات خوارزميًا في درجة جودة مرجحة.

يتم تطبيع نتائج أي من أنظمة التصنيف في نهاية المطاف في إشارة مكافأة قياسية لتوجيه تدريب نموذج المكافأة.

تحسين السياسة

تتمثل العقبة الأخيرة في RLHF في تحديد كيفية—ومقدار—استخدام نموذج المكافأة لتحديث سياسة وكيل الذكاء الاصطناعي. واحدة من أنجح الخوارزميات المستخدمة لدالة المكافأة التي تقوم بتحديث نماذج التعلم المعزز هي تحسين السياسة القريبة (PPO).

على عكس معظم هياكل نماذج التعلم الآلي والشبكات العصبية، والتي تستخدم الانحدار التدريجي لتقليل دالة الخسارة الخاصة بها وإنتاج أصغر خطأ ممكن، فإن خوارزميات التعلم المعزز غالبًا ما تستخدم النزول التدريجي لتحقيق أقصى قدر من المكافأة.

ومع ذلك، إذا استُخدمت دالة المكافأة لتدريب نموذج المكافأة دون أي حواجز، فقد يغير نموذج اللغة عوامل ترجيحه بشكل كبير إلى حد إخراج كلام غير مفهوم في محاولة "للتلاعب" بنموذج المكافأة. يوفر PPO وسيلة أكثر استقرارًا لتحديث سياسة وكيل الذكاء الاصطناعي من خلال الحد من مقدار السياسة التي يمكن تحديثها في كل تكرار تدريبي.

أولًا، يتم إنشاء نسخة من النموذج الأولي وتجميد عوامل ترجيحه القابلة للتدريب. تحسب خوارزمية PPO نطاقًا من [1-ε, 1+ε]، حيث ε عبارة عن معلمة فائقة تحدد تقريبًا إلى أي مدى يسمح للنهج الجديد (المحدّث) بالابتعاد عن السياسة القديمة (المجمدة). تحسب نسبة الاحتمالية: نسبة احتمال اتخاذ إجراء معين بواسطة السياسة القديمة مقابل احتمال اتخاذ هذا الإجراء بواسطة السياسة الجديدة. إذا كانت نسبة الاحتمالية أكبر من 1+ε (أو أقل من1-ε)، فقد يتم تقليص حجم تحديث السياسة لمنع أي تغييرات حادة قد تؤدي إلى زعزعة استقرار النموذج بأكمله.

قدّم إدخال خوارزمية PPO بديلاً جذابًا لسابقته، وهي خوارزمية تحسين سياسة منطقة الثقة (TRPO)، التي توفر فوائد مماثلة ولكنها أكثر تعقيدًا وتكلفةً حوسبيةً من PPO. وعلى الرغم من أن أطر العمل الأخرى مثل أطر ميزة الفاعل الناقد (A2C) قابلة للتطبيق أيضًا، إلا أنه غالبًا ما يتم تفضيل منهجية تحسين السياسات باعتبارها منهجية بسيطة وفعالة من حيث التكلفة.

حدود التعلم المعزز من التعليقات البشرية (RLHF)

على الرغم من أن نماذج RLHF قد أظهرت نتائج مبهرة في تدريب وكلاء الذكاء الاصطناعي على المهام المعقدة من التشغيل الآلي وألعاب الفيديو إلى معالجة اللغة الطبيعية، إلا أن استخدام RLHF لا يخلو من القيود.

  • بيانات التفضيل البشري باهظة الثمن. يمكن أن تؤدي الحاجة إلى جمع المدخلات البشرية المباشرة إلى خلق عائق مكلف يحد من قابلية التوسع في عملية التدرج في عملية التحويل إلى مصادر الطاقة المتجددة. لقد اقترح كل من Anthropic10 و Google 11 أساليب التعلم المعزز من تعليقات الذكاء الاصطناعي (RLAIF)، واستبدال بعض أو كل التعليقات البشرية من خلال قيام نموذج لغوي كبير آخر بتقييم استجابات النموذج، والتي أسفرت عن نتائج مماثلة لتلك التي توصل إليها RLHF.
  • الإدخال البشري أمر ذاتي للغاية. من الصعب، إن لم يكن من المستحيل، التوصل إلى إجماع راسخ على ما يشكل مخرجات "عالية الجودة"، حيث أن المعلقون البشريين غالبًا ما يختلفون ليس فقط على الحقائق المزعومة، ولكن أيضًا على ما يجب أن يعنيه السلوك "المناسب" للنموذج. وبالتالي فإن الخلاف البشري يحول دون تحقيق "حقيقة أساسية" حقيقية يمكن الحكم على أداء النموذج على أساسها.
  • يمكن أن يكون المقيمون البشريون غير معصومين من الخطأ، أو حتى عدائيين وخبيثين عن قصد. سواء كان يعكس آراء معارضة حقيقية أم كان يهدف إلى تخريب عملية التعلم عمدًا ، فإن التوجيه البشري للنموذج لا يتم تقديمه دائمًا بحسن نية. في ورقة بحثية عام 2016، افترض Wolf وآخرون أن السلوك السام يجب أن يكون توقعًا أساسيًا للتفاعلات بين الإنسان والروبوت، واقترحوا الحاجة إلى طريقة لتقييم مصداقية المدخلات البشرية.12 في عام 2022، أصدرت Meta AI ورقة بحثية حول المدخلات البشرية المعادية تدرس الطرق الآلية "للحصول على أقصى قدر من كفاءة التعلم من البيانات عالية الجودة، مع الحفاظ في الوقت نفسه على أقصى قدر من المرونة تجاه البيانات منخفضة الجودة والمعادية. تحدد الورقة العديد من نماذج "المتصيدين" والطرق المختلفة التي يشوهون بها بيانات الملاحظات.
  • مخاطر الإفراط في التجهيز والتحيز. إذا تم جمع التعليقات البشرية من مجموعة سكانية ضيقة للغاية، فقد يُظهر النموذج مشاكل في الأداء عند استخدامه من قِبل مجموعات مختلفة أو عند طلبه في مواضيع يحمل المقيّمون البشريون تحيزات معينة بشأنها.
حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا