Barto evidenzia le applicazioni mediche in cui l'apprendimento per rinforzo ottimizza i protocolli di trattamento per periodi prolungati, proprio il tipo di problemi decisionali sequenziali in cui la tecnologia eccelle.

"Una delle caratteristiche dell'apprendimento per rinforzo è che può affrontare problemi decisionali sequenziali in cui vengono prese diverse decisioni nel tempo e, in ogni caso, lo stato del sistema dipende dalla decisione precedente", afferma. Questa capacità di gestire ricompense ritardate, ovvero conseguenze che si materializzano solo dopo una sequenza di azioni, rappresenta una sfida fondamentale che gli algoritmi di apprendimento per rinforzo devono affrontare.

Matt Riemer, un ingegnere di ricerca sul Deep Learning presso l'IBM AI Foundations Lab, indica applicazioni ancora più recenti.

"I ricercatori hanno applicato con successo approcci basati sull'apprendimento per rinforzo al problema della scoperta di farmaci, dove stanno iniziando a vedere risultati molto promettenti", ha detto a Think in un'intervista. "Recentemente ha avuto successo anche per problemi importanti come l'ottimizzazione e l'automazione del processo di trattamento dell'acqua".

Dietro le impressionanti capacità dei chatbot odierni si cela l'apprendimento per rinforzo. Riemer spiega: "Grazie al recente successo degli LLM, abbiamo assistito a casi d'uso di alto profilo di RL che ne hanno migliorato le funzionalità". La prima importante applicazione è stata chiamata RLHF (apprendimento per rinforzo dal feedback umano) che aiuta questi sistemi a produrre risposte che corrispondono meglio a ciò che le persone desiderano.

Sebbene i grandi modelli linguistici abbiano catturato l'attenzione del pubblico grazie alla loro capacità di generare testi simili a quelli umani, il loro sviluppo deve molto all'apprendimento per rinforzo. Come spiega Riemer, "Più recentemente, abbiamo visto l'RL emergere come l'approccio più importante per addestrare i cosiddetti modelli di 'pensiero' che apprendono una catena di pensiero che migliora le funzionalità degli LLM."

I problemi matematici sono un terreno di allenamento ideale per questi sistemi. "Per problemi come il ragionamento matematico, è facile costruire ricompense verificabili, vale a dire, 'l'agente ha risposto correttamente al problema o no?'", spiega Riemer. Queste risposte chiare, giuste o sbagliate, creano quello che lui chiama un "ambiente di pseudo-simulazione" in cui l'AI può imparare attraverso la pratica ripetuta.

L'impatto dell'apprendimento per rinforzo va oltre la ricerca accademica o le applicazioni specializzate. La sua influenza si fa sentire sempre più nelle tecnologie che interagiscono con gli utenti comuni. "Ancora una volta, questo è probabilmente solo l'inizio, perché è probabile che vedremo l'RL giocare un ruolo ancora più importante quando il settore inizierà a sviluppare 'agenti AI' che interagiscono con i browser web e altri strumenti per assistere meglio gli utenti", prevede Riemer.

Barto mantiene il cauto ottimismo di uno scienziato che ha assistito a numerosi cicli di entusiasmo tecnologico. Riconosce la sfida quando gli si chiede della sicurezza e dell'allineamento dell'AI: garantire che i sistemi di AI agiscano secondo i valori umani.

"Il problema dell'allineamento non è un problema banale," dice. "Ci si aspetterebbe che un sistema RL possa indirizzare un'AI a incorporare i valori degli esseri umani che utilizzano il sistema. Quindi, speriamo, che possa succedere. Non ho la ricetta per questo."

Alla ricerca di ispirazione per le ricompense dell'AI, Barto si rivolge ai nostri cervelli. "Le nostre funzioni di ricompensa derivano da meccanismi che si sono evoluti nel corso di milioni di anni", spiega. A differenza delle semplici ricompense informatiche, la motivazione umana deriva da complesse pressioni evolutive che hanno mantenuto in vita e in riproduzione i nostri antenati.

Questa prospettiva evolutiva informa il suo pensiero sull'apprendimento per rinforzo multi-criterio, dove i sistemi rispondono a diversi segnali di ricompensa anziché a uno solo, rispecchiando potenzialmente come diverse parti del cervello umano elaborano varie forme di feedback.

"Penso che l'apprendimento per rinforzo multi-criterio sia qualcosa di davvero importante," osserva Barto. “Invece di avere una sola funzione di ricompensa, possono essercene diverse e… diverse parti del cervello, ad esempio, probabilmente hanno ricevuto segnali diversi.”