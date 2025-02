L'RLHF, chiamato anche apprendimento per rinforzo dalle preferenze umane, è particolarmente adatto per compiti con obiettivi complessi, mal definiti o difficili da specificare. Per esempio, sarebbe poco pratico (o addirittura impossibile) per una soluzione algoritmica definire "divertente" in termini matematici, ma facile per gli esseri umani valutare le battute generate da un modello linguistico di grandi dimensioni (LLM). Il feedback umano, filtrato in una funzione di ricompensa, potrebbe essere utilizzato per migliorare le capacità di scrittura delle battute di un LLM.

In un articolo del 2017, Paul F. Christiano di OpenAI, insieme ad altri ricercatori di OpenAI e DeepMind, ha descritto nel dettaglio il successo dell'RLHF nell'addestramento di modelli AI per l'esecuzione di compiti complessi come i giochi Atari e la locomozione robotica simulata.1 Andando oltre questa scoperta, i videogiochi hanno continuato a essere un importante banco di prova per l'RLHF: nel 2019, i sistemi di AI addestrati tramite l'RLHF come OpenAI Five e AlphaStar di DeepMind avevano sconfitto i migliori giocatori professionisti umani rispettivamente nei ben più complessi Dota 22 e StarCraft3.

Forse l'aspetto più importante è che il documento di OpenAI del 2017 ha osservato che la sua metodologia, in particolare l’introduzione dell’algoritmo di ottimizzazione delle politiche prossimali (PPO) per l’aggiornamento dei pesi dei modelli, ha ridotto notevolmente il costo di raccolta e filtrazione del feedback umano necessario. Questo aspetto ha spianato la strada all'integrazione dell'RLHF con il campo dell'elaborazione del linguaggio naturale (NLP), con i conseguenti progressi che hanno contribuito a portare sia gli LLM che l'RLHF all'avanguardia della ricerca sull'AI.

La prima versione del codice che descrive in dettaglio l'uso dell'RLHF sui modelli linguistici è arrivata nel 2019 da OpenAI4, che ha poi rilasciato InstructGPT addestrato con RLHF all'inizio del 2022.5 Questo è stato un passo cruciale per colmare il divario tra GPT-3 e GPT-3.5, i turbo modelli su cui si è basato il lancio di ChatGPT.

L'RLHF è da allora utilizzato nella formazione degli LLM all'avanguardia di OpenAI, DeepMind, Google6 e Anthropic.7