Affinché il feedback umano possa alimentare una funzione di ricompensa nell'apprendimento per rinforzo, è necessario un modello di ricompensa che traduca la preferenza umana in un segnale numerico di ricompensa. Progettare un modello di ricompensa efficace è un passo cruciale nell'RLHF, poiché non esiste una formula matematica o logica semplice per definire in modo fattibile i valori umani soggettivi.
Lo scopo principale di questa fase è fornire al modello di ricompensa dati di addestramento sufficienti, composti da feedback diretti da parte di valutatori umani, per aiutare il modello a imparare a imitare il modo in cui le preferenze umane assegnano le ricompense ai diversi tipi di risposte del modello. In questo modo l'addestramento può continuare offline senza il coinvolgimento di un essere umano.
Un modello di ricompensa deve accettare una sequenza di testo e produrre un valore di ricompensa scalare in grado di predire, numericamente, quanto un utente umano ricompenserebbe (o penalizzerebbe) quel testo. Questo output, essendo un valore scalare, è essenziale affinché l'output del modello di ricompensa sia integrato con altri componenti dell'algoritmo RL.
Sebbene possa sembrare più intuitivo chiedere semplicemente a valutatori umani di esprimere la loro opinione su ciascuna risposta del modello in forma scalare, ad esempio valutando la risposta su una scala da uno (peggiore) a dieci (migliore), è difficilissimo allineare tutti i valutatori umani sul valore relativo di un dato punteggio, tanto meno allinearli su ciò che costituisce una risposta “buona” o “cattiva” nel vuoto. Questi aspetti possono rendere la valutazione scalare diretta rumorosa e difficile da calibrare.
Invece, un sistema di valutazione viene solitamente costruito confrontando il feedback umano per diversi risultati del modello. Un metodo comune è quello di far confrontare agli utenti due sequenze di testo analoghe, come l'output di due diversi modelli linguistici che rispondono allo stesso prompt, in un testa a testa, quindi utilizzare un sistema di punteggio Elo per generare una classifica aggregata di ciascun testo generato rispetto a un altro. Un sistema semplice potrebbe consentire agli utenti di "alzare il pollice" o "abbassare il pollice" per ogni risultato, che verrebbe poi classificato in base alla relativa preferenza. Sistemi più complessi potrebbero chiedere agli etichettatori di fornire una valutazione complessiva e rispondere a domande categoriche sui difetti di ciascuna risposta, quindi aggregare tramite algoritmi questo feedback in un punteggio di qualità ponderato.
I risultati di qualsiasi sistema di classificazione vengono infine normalizzati in un segnale di ricompensa scalare per informare l'addestramento del modello di ricompensa.