Il fulcro dell'ascesa degli LLM di ragionamento è stato il progresso della messa a punto basata sull'apprendimento per rinforzo, che comprende sia l'RL basato su regole che l'RL basato sul deep learning (deep RL) in contesti LLM. Mentre l'apprendimento supervisionato e autosupervisionato richiede compiti di addestramento statici ben definiti, l'RL è adatto al tipo di compiti dinamici, aperti e complessi per i quali il ragionamento in più fasi è più utile.
L'uso dell'RL per mettere a punto gli LLM in modo da conferire qualità astratte non è esclusivo dei modelli di ragionamento. Ad esempio, la pipeline di addestramento standard per un LLM da utilizzare nelle impostazioni del chatbot è la seguente:
- Pre-addestramento autosupervisionato, in cui il modello apprende i modelli linguistici e le conoscenze di base da applicare alle attività a valle.
- Messa a punto supervisionata (SFT), in cui il modello apprende come formattare correttamente le risposte agli input dell'utente.
- Messa a punto delle istruzioni, in cui il modello impara a seguire le istruzioni e a svolgere compiti specifici.
- Apprendimento per rinforzo dal feedback umano (RLHF), in cui il modello viene ottimizzato sui dati delle preferenze umane per conferire qualità soggettive come disponibilità, inoffensività, veridicità e tono ideale.
Gli LLM di ragionamento in genere sono sottoposti alle stesse fasi di addestramento, con l'aggiunta (a un certo punto) di una fase di apprendimento per rinforzo che instilla un processo di ragionamento produttivo basato sulla CoT. Ciò si ottiene definendo gli obiettivi di questo processo di ragionamento, ovvero i comportamenti specifici del modello da "premiare", come la generazione di tracce di ragionamento CoT prima di un output finale, e quindi ottimizzando i parametri del modello in modo da massimizzare la ricompensa.
Poiché è difficile o addirittura impossibile progettare una funzione di ricompensa esplicita per un compito astratto e complesso come un processo di ragionamento che sarà efficace per tutta la risoluzione di problemi complessi, questo segnale di ricompensa proviene spesso da un modello di ricompensa separato utilizzato durante l'addestramento. Nell'RLHF, questo modello di ricompensa è esso stesso addestrato sul feedback umano e impara a prevedere un punteggio numerico di quanto un umano preferirebbe una determinata risposta.
Nel contesto dell'RL per i modelli di ragionamento, i segnali di ricompensa possono essere suddivisi in 3 ampie categorie: modelli di ricompensa dei risultati (ORM), modelli di ricompensa dei processi (PRM) e sistemi di ricompensa basati su regole.