L'apprendimento per rinforzo con feedback umano (RLHF) utilizza un modello di ricompensa collaborativo per mettere a punto un modello pre-addestrato per attività complesse e soggettive. Un modello di ML non può giudicare se un testo è evocativo, ma gli esseri umani lo possono fare, e questi esseri umani possono insegnare a un modello a imitare le loro preferenze.
Con l'RLHF, gli esseri umani addestrano un modello di ricompensa per la nuova attività. Il compito del modello di ricompensa è quello di prevedere con successo come un essere umano reagirebbe a un dato input. Mentre l'addestramento del modello standard penalizza gli errori, l'addestramento con ricompensa incentiva le buone prestazioni.
Il modello di ricompensa insegna quindi a sua volta al foundation model come comportarsi, in base alle preferenze degli addestratori umani. Una volta addestrato il modello di ricompensa, è possibile addestrare il foundation model senza la partecipazione di un essere umano (HITL).
Come avviene in tutti i tipi di machine learning, il modello non pensa in modo critico, o addirittura non pensa affatto. Piuttosto, sceglie matematicamente il risultato che ha più probabilità di corrispondere alle preferenze dei suoi addestratori umani.