El aprendizaje por refuerzo con feedback humano (RLHF) utiliza un modelo de recompensa asociado para afinar un modelo preentrenado para tareas complejas y subjetivas. Un modelo de ML no puede juzgar si un escrito es evocativo, pero los humanos sí pueden, y esos humanos pueden enseñar a un modelo a imitar sus preferencias.
Con el RLHF, los humanos entrenan un modelo de recompensa para la nueva tarea. El trabajo del modelo de recompensa es predecir con éxito cómo reaccionaría un humano ante una entrada determinada. Mientras que el entrenamiento con modelos estándar penaliza los errores, el entrenamiento con recompensas incentiva el buen rendimiento.
Entonces, el modelo de recompensa enseña a su vez al modelo fundacional cómo comportarse, basándose en las preferencias de los formadores humanos. Una vez entrenado el modelo de recompensa, puede entrenar el modelo fundacional sin un humano en el bucle (HITL).
Como ocurre con todos los tipos de machine learning, el modelo no piensa de forma crítica, ni siquiera piensa en absoluto. Más bien, está eligiendo matemáticamente el resultado que tiene más probabilidades de coincidir con las preferencias de sus entrenadores humanos.