Pembelajaran penguatan dengan masukan manusia (RLHF) menggunakan model penghargaan bermitra untuk menyempurnakan model terlatih untuk tugas-tugas subjektif yang kompleks. Model ML tidak dapat menilai apakah sebuah tulisan bersifat memikat, tetapi manusia dapat melakukannya, dan manusia tersebut dapat mengajarkan model tersebut untuk meniru preferensi mereka.
Dengan RLHF, manusia melatih model hadiah untuk tugas baru. Tugas model hadiah adalah berhasil memprediksi bagaimana manusia akan bereaksi terhadap input yang diberikan. Sedangkan pelatihan model standar menghukum kesalahan, pelatihan hadiah memberi insentif kepada kinerja yang baik.
Kemudian, model insentif tersebut mengajarkan model dasar cara berperilaku, berdasarkan preferensi para pelatih manusia. Setelah dilatih, model hadiah dapat melatih model dasar tanpa manusia dalam siklusnya (HITL).
Seperti semua jenis machine learning, model tidak berpikir kritis, atau bahkan berpikir sama sekali. Sebaliknya, model secara matematis memilih hasil yang paling mungkin cocok dengan preferensi pelatih manusianya.