يستخدم التعلم المعزز مع التعليقات البشرية (RLHF) نموذج مكافأة مشتركًا لضبط نموذج مدرَّب مسبقًا على مهام معقدة وذاتية. لا يستطيع نموذج التعلم الآلي الحكم على إذا ما كانت قطعة الكتابة معبِّرة أم لا، ولكن البشر قادرون على ذلك، ويمكن لهؤلاء البشر تعليم النموذج كيفية تقليد تفضيلاتهم.
باستخدام RLHF، يقوم البشر بتدريب نموذج المكافأة للمهمة الجديدة. تتمثل مهمة نموذج المكافأة في التنبؤ بنجاح بكيفية رد فعل الإنسان تجاه مدخلات معينة. في حين أن التدريب النموذجي القياسي يعاقب على الأخطاء، فإن التدريب بالمكافأة يحفِّز الأداء الجيد.
بعد ذلك، يقوم نموذج المكافأة بدوره بتعليم نموذج الأساس كيفية التصرُّف، بناءً على تفضيلات المدرِّبين البشر. بمجرد تدريب نموذج المكافأة، يمكنه تدريب نموذج الأساس دون الحاجة إلى تدخل الإنسان في الحلقة (HITL).
كما هو الحال مع جميع أنواع التعلم الآلي، فإن النموذج لا يفكر بشكل نقدي، ولا يفكر على الإطلاق. بل إنه يختار رياضيًا النتيجة التي من المرجح أن تتوافق مع تفضيلات مدربيه البشر.