التعلم المعزز من التعليقات البشرية (RLHF) هو أسلوب تعلم آلي يتم فيه تدريب «نموذج المكافأة» من خلال التعليقات البشرية المباشرة، ثم استخدامه لتحسين أداء وكيل الذكاء الاصطناعي من خلال التعلم المعزز.
يُطلق عليه أيضًا التعلم المعزز من التفضيلات البشرية، وهو مناسب بشكل فريد للمهام ذات الأهداف المعقدة أو غير المحددة أو التي يصعب تحديدها. على سبيل المثال، سيكون من غير العملي (أو حتى من المستحيل) أن يقوم حل خوارزمي بتعريف كلمة "مضحك" من الناحية الرياضية—ولكن من السهل على البشر تقييم النكات التي تم إنشاؤها بواسطة نموذج لغوي كبير (LLM). يمكن بعد ذلك استخدام هذه التعليقات البشرية، التي تم تقطيرها في دالة المكافأة، لتحسين قدرات كتابة النكات للنموذج اللغوي الكبير.
في ورقة بحثية نشرت عام 2017، قام Paul F. Christiano من OpenAI، جنبًا إلى جنب مع باحثين آخرين من OpenAI و DeepMind، بتفصيل نجاح التعليم المعزز من التعليقات البشرية (RLHF) في تدريب نماذج الذكاء الاصطناعي على أداء مهام معقدة مثل ألعاب Atari ومحاكاة الحركة الروبوتية.1 بالتوسع في هذا الاختراق، استمرت ألعاب الفيديو في كونها أرضية اختبار مهمة لـ RLHF: بحلول عام 2019، هزمت أنظمة الذكاء الاصطناعي المدربة من RLHF مثل OpenAI Five و AlphaStar من DeepMind أفضل اللاعبين المحترفين في Dota2 و StarCraft3 الأكثر تعقيدًا، على التوالي.
ولعل الأهم من ذلك هو أن ورقة OpenAI لعام 2017 أشارت إلى أن منهجيتها—لا سيما إدخال خوارزمية تحسين السياسة القريبة (PPO) لتحديث عوامل ترجيح النموذج—قللت بشكل كبير من تكلفة جمع واستخلاص التعليقات اللازمة. وقد مهّد ذلك الطريق أمام التكامل النهائي بين التعلم المعزز من التعليقات البشرية (RLHF) ومعالجة اللغة الطبيعية (NLP)، حيث ساعدت التطورات الناتجة عن ذلك في إدخال كل من LLLMs و RLHF في طليعة أبحاث الذكاء الاصطناعي.
جاء الإصدار الأول من التعليمات البرمجية التي توضح بالتفصيل استخدام RLHF على نماذج اللغة في عام 2019 من OpenAI4، الذي أصدر InstructGPT المدرب من RLHF في أوائل عام 2022.5 كانت هذه خطوة حاسمة في سد الفجوة بين GPT-3 و GPT-3.5-turbo وهي النماذج التي دعمت إطلاق ChatGPT.
منذ ذلك الحين، تم استخدام RLHF في تدريب أحدث النماذج اللغوية الكبيرة من OpenAI و DeepMind و Google6 و Anthropic.7
من الناحية النظرية، يهدف التعلم المعزز (RL) إلى محاكاة الطريقة التي يتعلم بها البشر: يتعلم وكلاء الذكاء الاصطناعي بشكل كلي من خلال التجربة والخطأ، مدفوعين بحوافز قوية للنجاح.
ولوضع هذه الإستراتيجية موضع التنفيذ، يتألف إطار عمل التعلم المعزز من العناصر التالية:
مساحة الحالة هي جميع المعلومات المتاحة حول المهمة المطروحة ذات الصلة بالقرارات التي قد يتخذها وكيل الذكاء الاصطناعي، بما في ذلك المتغيرات المعروفة وغير المعروفة. عادة ما تتغير مساحة الحالة مع كل قرار يتخذه الوكيل.
تحتوي مساحة العمل على جميع القرارات التي قد يتخذها وكيل الذكاء الاصطناعي. في سياق لعبة لوحية، على سبيل المثال، تكون مساحة الحركة منفصلة ومحددة جيدًا: تتكون من جميع الحركات القانونية المتاحة للاعب الذكاء الاصطناعي في لحظة معينة. في سياق توليد النصوص، تكون مساحة الحركة هائلة، حيث تضم "مفردات" الرموز المميزة المتاحة للنموذج اللغوي الكبير بالكامل.
المكافأة هي مقياس النجاح أو التقدم الذي يحفز وكيل الذكاء الاصطناعي. في بعض الحالات، مثل ألعاب الطاولة، يكون تحديد النجاح—في هذه الحالة، الفوز باللعبة—موضوعيًا ومباشرًا. ولكن عندما يكون تعريف "النجاح" غامضًا، فإن تصميم دالة مكافأة فعالة يمكن أن يمثل تحديًا كبيرًا. في إطار عمل الرياضيات، يجب ترجمة هذه التعليقات إلى إشارة مكافأة: تقدير كمي قياسي للتعليقات الإيجابية (أو السلبية).
يمكن أن تُستكمل وظيفة المكافأة بعقوبات—مكافآت سلبية—للأفعال التي تعتبر ذات نتائج عكسية للمهمة المطروحة. على سبيل المثال، قد ترغب إحدى المؤسسات في منع روبوت المحادثة من استخدام الألفاظ النابية أو غيرها من الألفاظ البذيئة؛ وقد يعاقب نموذج السيارة ذاتية القيادة على التصادم أو الخروج عن المسار.
السياسة هي، في الأساس، الاستراتيجية أو "عملية التفكير" التي توجه سلوك وكيل الذكاء الاصطناعي. بعبارات رياضية بسيطة، السياسة ("π") هي دالة تأخذ الحالة ("s") كإدخال وتعيد إجراء (“a”): π(s)→a.
الهدف من خوارزمية التعلم المعزز هو تحسين السياسة لتحقيق أقصى قدر من المكافأة. في التعلم المعزز العميق، يتم تمثيل السياسة كشبكة عصبية يتم تحديثها باستمرار، وفقًا لدالة المكافأة، أثناء عملية التدريب. فوكيل الذكاء الاصطناعي يتعلم من التجربة، تمامًا كما يتعلم البشر.
في حين أن تقنية التعلم المعزز التقليدية حققت نتائج مبهرة على أرض الواقع في العديد من المجالات، إلا أنها قد تواجه صعوبة في إنشاء دالة مكافأة فعالة للمهام المعقدة التي يصعب فيها وضع تعريف واضح للنجاح. وتتمثل الميزة الأساسية للتعلم المعزز من التعليقات البشرية في قدرته على التقاط الفوارق الدقيقة والذاتية باستخدام التعليقات الإيجابية بدلاً من الأهداف المحددة رسمياً.
كان أحد أبرز تطبيقات التعلم المعزز من التعليقات البشرية هو تعزيز ملاءمة ودقة وأخلاقيات النماذج اللغوية الكبيرة—خاصةً لاستخدامها كروبوتات محادثة.
تهدف النماذج اللغوية الكبيرة، مثل جميع نماذج الذكاء الاصطناعي التوليدي، إلى تكرار التوزيع الاحتمالي لبيانات التدريب. على الرغم من أن التطورات الأخيرة قد عززت استخدام النماذج اللغوية الكبيرة كمحركات لروبوتات المحادثة، أو حتى كمحركات استدلال للذكاء الاصطناعي للأغراض العامة، فإن نماذج اللغة هذه تستخدم ببساطة الأنماط المكتسبة من بيانات التدريب الخاصة بها للتنبؤ بالكلمة (الكلمات) التالية في تسلسل معين يتم البدء به من خلال موجِّه. على المستوى الأساسي، هذه النماذج لا تجيب فعليا على موجِّه ما: بل تقوم بإضافة نص إليها.
بدون تعليمات محددة للغاية، فإن نماذج اللغة لديها قدرة قليلة على فهم نية المستخدم. على الرغم من أن هندسة التلقين يمكن أن تساعد في توفير السياق اللازم للنموذج اللغوي الكبير لتلبية احتياجات المستخدم، فمن غير العملي أن نطلب هندسة التلقين لكل تبادل فردي مع روبوت المحادثة.
علاوة على ذلك، في حين تم تدريب النماذج اللغوية الكبيرة الجاهزة للاستخدام بالطرق التقليدية لإنتاج مخرجات متماسكة نحويًا، فإن تدريب النماذج اللغوية الكبيرة على إنتاج مخرجات "جيدة" يمثل مشكلة غامضة. فمفاهيم مثل الحقيقة أو الفائدة أو الإبداع أو حتى ما يجعل مقتطفًا برمجيًا قابلاً للتنفيذ تعتمد على السياق أكثر بكثير من معاني الكلمات والبنية اللغوية.
لجعل النماذج اللغوية أفضل عند التفاعل البشري، لجأ علماء البيانات إلى التعلم المعزز باستخدام التعليقات البشرية. لقد تفوقت نماذج InstructGPT المعززة بالتعلم المعزز باستخدام التعليقات البشرية بشكل ملحوظ على نماذج GPT-3 السابقة، وخاصة فيما يتعلق باتباع التعليمات والحفاظ على دقة الحقائق وتجنب الهلوسة.5 وبالمثل، أظهر البحث الذي أصدرته OpenAI عند إطلاق GPT-4 أن دقة التعلم المعزز باستخدام التعليقات البشرية تضاعفت في الأسئلة العدائية.8
يمكن أن تحل فوائد التعلم المعزز باستخدام التعليقات البشرية محل قيمة مجموعات البيانات الأكبر حجمًا، مما يسمح بتطوير نموذج أكثر كفاءة في استخدام البيانات: لاحظت OpenAI أن مصمميها يفضلون مخرجات الإصدار 1.3 مليار معلمة من InstructGPT على مخرجات الإصدار 175 مليار معلمة من GPT-3.5
عادة ما يتم تدريب النموذج اللغوي الكبير باستخدام التعلم المعزز من التعليقات البشرية في أربع مراحل:
يتم استخدام التعلم المعزز من التعليقات البشرية عمومًا للضبط الدقيق وتحسين نموذج مُدرَّب مسبقًا، وليس كطريقة تدريب شاملة. على سبيل المثال، استخدم برنامج InstructGPT التعلم المعزز من التعليقات البشرية لتحسين نموذج GPT الموجود مسبقًا المُدرَّب مسبقًا—أي نموذج—المحول التوليدي المُدرَّب مسبقًا. ذكرت OpenAI في إعلان إصدارها لـ InstructGPT، أن "إحدى طرق التفكير في هذه العملية هي أنها "تطلق العنان" للقدرات التي كانت تمتلكها GPT-3 بالفعل، ولكن كان من الصعب استخلاصها من خلال هندسة التلقين السريعة وحدها."5
تظل مرحلة ما قبل التدريب إلى حد بعيد المرحلة الأكثر استهلاكًا للموارد في التعلم المعزز من التعليقات البشرية (RLHF). لاحظت OpenAI أن عملية تدريب RLHF لـ InstructGPT استلزمت أقل من 2 في المائة من الحساب والبيانات اللازمة للتدريب المسبق لـ GPT-3.
قبل بدء التعلم المعزز الصريح، يتم استخدام الضبط الدقيق تحت الإشراف (SFT) لتهيئة النموذج لتوليد استجاباته بالشكل الذي يتوقعه المستخدمون.
كما أشرنا سابقًا، تعمل عملية التدريب المسبق للنموذج اللغوي الكبير على تحسين النماذج من أجل الإكمال: التنبؤ بالكلمات التالية في تسلسل بدأ بموجِّه المستخدم من خلال تكرار الأنماط اللغوية المكتسبة أثناء التدريب المسبق للنموذج. في بعض الأحيان، لا تكمل النماذج اللغوية الكبيرة تسلسلًا بالطريقة التي يريدها المستخدم: على سبيل المثال، إذا كانت موجِّه المستخدم هو، "علمني كيفية إنشاء سيرة ذاتية" ، فقد يستجيب النموذج اللغوي الكبير بـ "باستخدام Microsoft Word". إنها طريقة صحيحة لإكمال الجملة، ولكنها لا تتماشى مع هدف المستخدم.
لهذا السبب يستخدم SFT التعلم الخاضع للإشراف لتدريب النماذج على الاستجابة بشكل مناسب لموجِّهات مختلفة. ينشئ الخبراء أمثلة مصنفة حسب التسمية، باتباع التنسيق(موجِّه، استجابة)، لتوضيح كيفية الاستجابة للمطالبات لحالة الاستخدام المختلفة، مثل الإجابة عن الأسئلة أو التلخيص أو الترجمة.
وعلى الرغم من قوة هذه البيانات الإيضاحية إلا أن توليدها يستغرق وقتاً طويلاً ومكلفاً. بدلاً من إنشاء أمثلة جديدة مخصصة، قدمت DeepMind نهج "تطبيق استدلال التصفية بناء على تنسيق حوار مكتوب مشترك (نمط "نص المقابلة" )" لعزل أزواج الأمثلة المناسبة للمطالبة/الاستجابة من داخل مجموعة بيانات MassiveWeb الخاصة بها.9
لكي تعمل التعليقات البشرية على تشغيل دالة المكافأة في التعلّم المعزز، يلزم وجود نموذج مكافأة لترجمة التفضيل البشري إلى إشارة مكافأة رقمية. يعد تصميم نموذج مكافأة فعال خطوة حاسمة في RLHF، حيث لا توجد صيغة رياضية أو منطقية مباشرة لتحديد القيم الإنسانية الذاتية بشكل عملي.
يتمثل الغرض الرئيسي من هذه المرحلة في تزويد نموذج المكافأة ببيانات تدريب كافية، تتألف من التعليقات المباشرة من المقيّمين البشريين، لمساعدة النموذج على تعلم محاكاة الطريقة التي تخصص بها التفضيلات البشرية المكافآت لأنواع مختلفة من استجابات النموذج. وهذا يسمح للتدريب بالاستمرار في وضع عدم الاتصال دون وجود إنسان في العملية.
يجب أن يتناول نموذج المكافأة تسلسلًا من النص ويخرج قيمة مكافأة قياسية تتنبأ، عدديًا، بمقدار ما سيكافئ (أو يعاقب) المستخدم البشري هذا النص. يُعد هذا الناتج الذي يمثل قيمة قياسية أمرًا ضروريًا لدمج مخرجات نموذج المكافأة مع العناصر الأخرى لخوارزمية التعلم المعزز.
في حين أنه قد يبدو من البديهي أن يقوم المقيّمون البشريون ببساطة بالتعبير عن رأيهم في كل استجابة نموذجية في شكل مقياس—مثل تقييم الاستجابة على مقياس من واحد (الأسوأ) إلى عشرة (الأفضل)—إلا أنه من الصعب للغاية جعل جميع المقيّمين البشريين متوافقين على القيمة النسبية لدرجات معينة، ناهيك عن جعل المقيّمين البشريين متوافقين على ما يشكل استجابة "جيدة" أو "سيئة" في الفراغ. يمكن أن يؤدي ذلك إلى جعل التصنيف القياسي المباشر صاخبًا ويصعب معايرته.
بدلاً من ذلك، عادةً ما يتم إنشاء نظام تصنيف من خلال مقارنة التعليقات البشرية لمخرجات النماذج المختلفة. تتمثل إحدى الطرق الشائعة في جعل المستخدمين يقارنون بين تسلسلين نصيين متماثلين—مثل مخرجات نموذجين لغويين مختلفين يستجيبان لنفس الموجِّه—في مباريات وجهاً لوجه، ثم استخدام نظام تصنيف Elo لإنشاء تصنيف مجمع لكل جزء من النص المُنشأ بالنسبة إلى الآخر. قد يسمح النظام البسيط للمستخدمين بـ "الإعجاب" أو "عدم الإعجاب" بكل إخراج، مع ترتيب المخرجات بعد ذلك حسب تفضيلها النسبي. قد تطلب الأنظمة الأكثر تعقيدًا من واضعي العلامات تقديم تقييم عام والإجابة عن أسئلة فئوية حول عيوب كل استجابة، ثم تجميع هذه التعليقات خوارزميًا في درجة جودة مرجحة.
يتم تطبيع نتائج أي من أنظمة التصنيف في نهاية المطاف في إشارة مكافأة قياسية لتوجيه تدريب نموذج المكافأة.
تتمثل العقبة الأخيرة في RLHF في تحديد كيفية—ومقدار—استخدام نموذج المكافأة لتحديث سياسة وكيل الذكاء الاصطناعي. واحدة من أنجح الخوارزميات المستخدمة لدالة المكافأة التي تقوم بتحديث نماذج التعلم المعزز هي تحسين السياسة القريبة (PPO).
على عكس معظم هياكل نماذج التعلم الآلي والشبكات العصبية، والتي تستخدم الانحدار التدريجي لتقليل دالة الخسارة الخاصة بها وإنتاج أصغر خطأ ممكن، فإن خوارزميات التعلم المعزز غالبًا ما تستخدم النزول التدريجي لتحقيق أقصى قدر من المكافأة.
ومع ذلك، إذا استُخدمت دالة المكافأة لتدريب نموذج المكافأة دون أي حواجز، فقد يغير نموذج اللغة عوامل ترجيحه بشكل كبير إلى حد إخراج كلام غير مفهوم في محاولة "للتلاعب" بنموذج المكافأة. يوفر PPO وسيلة أكثر استقرارًا لتحديث سياسة وكيل الذكاء الاصطناعي من خلال الحد من مقدار السياسة التي يمكن تحديثها في كل تكرار تدريبي.
أولًا، يتم إنشاء نسخة من النموذج الأولي وتجميد عوامل ترجيحه القابلة للتدريب. تحسب خوارزمية PPO نطاقًا من [1-ε, 1+ε]، حيث ε عبارة عن معلمة فائقة تحدد تقريبًا إلى أي مدى يسمح للنهج الجديد (المحدّث) بالابتعاد عن السياسة القديمة (المجمدة). تحسب نسبة الاحتمالية: نسبة احتمال اتخاذ إجراء معين بواسطة السياسة القديمة مقابل احتمال اتخاذ هذا الإجراء بواسطة السياسة الجديدة. إذا كانت نسبة الاحتمالية أكبر من 1+ε (أو أقل من1-ε)، فقد يتم تقليص حجم تحديث السياسة لمنع أي تغييرات حادة قد تؤدي إلى زعزعة استقرار النموذج بأكمله.
قدّم إدخال خوارزمية PPO بديلاً جذابًا لسابقته، وهي خوارزمية تحسين سياسة منطقة الثقة (TRPO)، التي توفر فوائد مماثلة ولكنها أكثر تعقيدًا وتكلفةً حوسبيةً من PPO. وعلى الرغم من أن أطر العمل الأخرى مثل أطر ميزة الفاعل الناقد (A2C) قابلة للتطبيق أيضًا، إلا أنه غالبًا ما يتم تفضيل منهجية تحسين السياسات باعتبارها منهجية بسيطة وفعالة من حيث التكلفة.
على الرغم من أن نماذج RLHF قد أظهرت نتائج مبهرة في تدريب وكلاء الذكاء الاصطناعي على المهام المعقدة من التشغيل الآلي وألعاب الفيديو إلى معالجة اللغة الطبيعية، إلا أن استخدام RLHF لا يخلو من القيود.
لقد استطلعنا آراء 2000 مجموعة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.
اطّلع على كتالوجنا الشامل الذي يضم أكثر من 100 دورة تدريبية عبر الإنترنت من خلال شراء اشتراك فردي أو متعدد المستخدمين اليوم، سيتيح لك هذا توسيع نطاق مهاراتك عبر مجموعة من منتجاتنا، وكل ذلك بسعر واحد مُغرٍ.
وقد صُمم المنهج، الذي يقوده كبار قادة الفكر لدى IBM، لمساعدة قادة الأعمال على اكتساب المعرفة اللازمة لتحديد أولويات استثمارات الذكاء الاصطناعي التي يمكن أن تدفع عجلة النمو.
هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.
تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك
تعمّق في العناصر الثلاثة ذات الأهمية البالغة لإستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.
1 "Deep reinforcement learning from human preferences," arXiv, last revised 17 Feb 2023
2 "OpenAI Five defeats Dota 2 world champions,"OpenAI, 15 Apr 2019.
3 "AlphaStar: Mastering the real-time strategy game StarCraft II," Google DeepMind, 24 Jan 2019
4 "lm-human-preferences," OpenAI (on GitHub), 2019
5 "Aligning language models to follow instructions," OpenAI, 27 Jan 2022
6 "An overview of Bard: an early experiment with generative AI," Google AI, last updated 19 Oct 2023
7 "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback," arXiv, 12 Apr 2022
8 "Research: GPT-4," OpenAI, 14 Mar 2023
9 "Scaling Language Models: Methods, Analysis & Insights from Training Gopher," arXiv, last revised 21 Jan 2022
10 "Constitutional AI: Harmlessness from AI Feedback," Anthropic, 15 Dec 2022
11 "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback," arXiv, 1 Sep 2023
12 "Why We Should Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications," The ORBIT Journal, 2017