El aprendizaje por refuerzo con retroalimentación humana (RLHF) utiliza un modelo de recompensa asociado para ajustar un modelo previamente entrenado para tareas complejas y subjetivas. Un modelo de machine learning (ML) no puede juzgar si una pieza de escritura es evocativa, pero los humanos pueden, y esos humanos pueden enseñar a un modelo a imitar sus preferencias.
Con RLHF, los humanos capacitan un modelo de recompensa para la nueva tarea. El trabajo del modelo de recompensa es predecir con éxito cómo reaccionaría un humano a una entrada determinada. Mientras que el entrenamiento del modelo estándar penaliza los errores, el entrenamiento de recompensa incentiva el buen rendimiento.
Luego, el modelo de recompensa, a su vez, enseña al modelo fundacional cómo comportarse, en función de las preferencias de los entrenadores humanos. Una vez que se entrena el modelo de recompensa, puede entrenar el modelo fundacional sin un humano en el bucle (HITL).
Al igual que con todos los tipos de machine learning, el modelo no piensa críticamente, ni siquiera piensa en absoluto. Más bien, se trata de elegir matemáticamente el resultado que tiene más probabilidades de coincidir con las preferencias de sus entrenadores humanos.