لكي تعمل التعليقات البشرية على تشغيل دالة المكافأة في التعلّم المعزز، يلزم وجود نموذج مكافأة لترجمة التفضيل البشري إلى إشارة مكافأة رقمية. يعد تصميم نموذج مكافأة فعال خطوة حاسمة في RLHF، حيث لا توجد صيغة رياضية أو منطقية مباشرة لتحديد القيم الإنسانية الذاتية بشكل عملي.
يتمثل الغرض الرئيسي من هذه المرحلة في تزويد نموذج المكافأة ببيانات تدريب كافية، تتألف من التعليقات المباشرة من المقيّمين البشريين، لمساعدة النموذج على تعلم محاكاة الطريقة التي تخصص بها التفضيلات البشرية المكافآت لأنواع مختلفة من استجابات النموذج. وهذا يسمح للتدريب بالاستمرار في وضع عدم الاتصال دون وجود إنسان في العملية.
يجب أن يتناول نموذج المكافأة تسلسلًا من النص ويخرج قيمة مكافأة قياسية تتنبأ، عدديًا، بمقدار ما سيكافئ (أو يعاقب) المستخدم البشري هذا النص. يُعد هذا الناتج الذي يمثل قيمة قياسية أمرًا ضروريًا لدمج مخرجات نموذج المكافأة مع العناصر الأخرى لخوارزمية التعلم المعزز.
في حين أنه قد يبدو من البديهي أن يقوم المقيّمون البشريون ببساطة بالتعبير عن رأيهم في كل استجابة نموذجية في شكل مقياس—مثل تقييم الاستجابة على مقياس من واحد (الأسوأ) إلى عشرة (الأفضل)—إلا أنه من الصعب للغاية جعل جميع المقيّمين البشريين متوافقين على القيمة النسبية لدرجات معينة، ناهيك عن جعل المقيّمين البشريين متوافقين على ما يشكل استجابة "جيدة" أو "سيئة" في الفراغ. يمكن أن يؤدي ذلك إلى جعل التصنيف القياسي المباشر صاخبًا ويصعب معايرته.
بدلاً من ذلك، عادةً ما يتم إنشاء نظام تصنيف من خلال مقارنة التعليقات البشرية لمخرجات النماذج المختلفة. تتمثل إحدى الطرق الشائعة في جعل المستخدمين يقارنون بين تسلسلين نصيين متماثلين—مثل مخرجات نموذجين لغويين مختلفين يستجيبان لنفس الموجِّه—في مباريات وجهاً لوجه، ثم استخدام نظام تصنيف Elo لإنشاء تصنيف مجمع لكل جزء من النص المُنشأ بالنسبة إلى الآخر. قد يسمح النظام البسيط للمستخدمين بـ "الإعجاب" أو "عدم الإعجاب" بكل إخراج، مع ترتيب المخرجات بعد ذلك حسب تفضيلها النسبي. قد تطلب الأنظمة الأكثر تعقيدًا من واضعي العلامات تقديم تقييم عام والإجابة عن أسئلة فئوية حول عيوب كل استجابة، ثم تجميع هذه التعليقات خوارزميًا في درجة جودة مرجحة.
يتم تطبيع نتائج أي من أنظمة التصنيف في نهاية المطاف في إشارة مكافأة قياسية لتوجيه تدريب نموذج المكافأة.