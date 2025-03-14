Man mano che l'intelligenza artificiale modella sempre più il nostro mondo, uno dei suoi padri fondatori mette in guardia contro l'hype e la paura.
Andrew Barto, recentemente insignito del Turing Award, il più alto riconoscimento nel campo dell'informatica, ha trascorso decenni a sviluppare l'apprendimento per rinforzo, la tecnologia che oggi alimenta tutto, dai campioni di intelligenza artificiale nei videogiochi ai sistemi di scoperta di farmaci, fino alle capacità di ragionamento alla base degli attuali modelli linguistici di grandi dimensioni. In un'intervista con IBM Think, Barto offre una valutazione misurata del progresso, del potenziale e dei limiti dell'AI, che va oltre il tecno-ottimismo e gli scenari apocalittici.
L'apprendimento per rinforzo, l'approccio computazionale all'apprendimento dall'interazione che Barto ha contribuito a sviluppare, è diventato onnipresente nel landscape dell'AI. Mentre molti lo associano a successi che hanno fatto notizia come la sconfitta di campioni del mondo in giochi complessi, Barto ne vede le applicazioni più significative in ambiti più pratici.
"Viene già utilizzato in diversi ambiti, soprattutto nella robotica", spiega. "Ci sono grandi possibilità per consentire ai robot che utilizzano l'apprendimento per rinforzo di eseguire movimenti molto dettagliati e utili, che potrebbero assistere le persone a casa o le persone con disabilità".
Barto evidenzia le applicazioni mediche in cui l'apprendimento per rinforzo ottimizza i protocolli di trattamento per periodi prolungati, proprio il tipo di problemi decisionali sequenziali in cui la tecnologia eccelle.
"Una delle caratteristiche dell'apprendimento per rinforzo è che può affrontare problemi decisionali sequenziali in cui vengono prese diverse decisioni nel tempo e, in ogni caso, lo stato del sistema dipende dalla decisione precedente", afferma. Questa capacità di gestire ricompense ritardate, ovvero conseguenze che si materializzano solo dopo una sequenza di azioni, rappresenta una sfida fondamentale che gli algoritmi di apprendimento per rinforzo devono affrontare.
Matt Riemer, un ingegnere di ricerca sul Deep Learning presso l'IBM AI Foundations Lab, indica applicazioni ancora più recenti.
"I ricercatori hanno applicato con successo approcci basati sull'apprendimento per rinforzo al problema della scoperta di farmaci, dove stanno iniziando a vedere risultati molto promettenti", ha detto a Think in un'intervista. "Recentemente ha avuto successo anche per problemi importanti come l'ottimizzazione e l'automazione del processo di trattamento dell'acqua".
Dietro le impressionanti capacità dei chatbot odierni si cela l'apprendimento per rinforzo. Riemer spiega: "Grazie al recente successo degli LLM, abbiamo assistito a casi d'uso di alto profilo di RL che ne hanno migliorato le funzionalità". La prima importante applicazione è stata chiamata RLHF (apprendimento per rinforzo dal feedback umano) che aiuta questi sistemi a produrre risposte che corrispondono meglio a ciò che le persone desiderano.
Sebbene i grandi modelli linguistici abbiano catturato l'attenzione del pubblico grazie alla loro capacità di generare testi simili a quelli umani, il loro sviluppo deve molto all'apprendimento per rinforzo. Come spiega Riemer, "Più recentemente, abbiamo visto l'RL emergere come l'approccio più importante per addestrare i cosiddetti modelli di 'pensiero' che apprendono una catena di pensiero che migliora le funzionalità degli LLM."
I problemi matematici sono un terreno di allenamento ideale per questi sistemi. "Per problemi come il ragionamento matematico, è facile costruire ricompense verificabili, vale a dire, 'l'agente ha risposto correttamente al problema o no?'", spiega Riemer. Queste risposte chiare, giuste o sbagliate, creano quello che lui chiama un "ambiente di pseudo-simulazione" in cui l'AI può imparare attraverso la pratica ripetuta.
L'impatto dell'apprendimento per rinforzo va oltre la ricerca accademica o le applicazioni specializzate. La sua influenza si fa sentire sempre più nelle tecnologie che interagiscono con gli utenti comuni. "Ancora una volta, questo è probabilmente solo l'inizio, perché è probabile che vedremo l'RL giocare un ruolo ancora più importante quando il settore inizierà a sviluppare 'agenti AI' che interagiscono con i browser web e altri strumenti per assistere meglio gli utenti", prevede Riemer.
Barto mantiene il cauto ottimismo di uno scienziato che ha assistito a numerosi cicli di entusiasmo tecnologico. Riconosce la sfida quando gli si chiede della sicurezza e dell'allineamento dell'AI: garantire che i sistemi di AI agiscano secondo i valori umani.
"Il problema dell'allineamento non è un problema banale," dice. "Ci si aspetterebbe che un sistema RL possa indirizzare un'AI a incorporare i valori degli esseri umani che utilizzano il sistema. Quindi, speriamo, che possa succedere. Non ho la ricetta per questo."
Alla ricerca di ispirazione per le ricompense dell'AI, Barto si rivolge ai nostri cervelli. "Le nostre funzioni di ricompensa derivano da meccanismi che si sono evoluti nel corso di milioni di anni", spiega. A differenza delle semplici ricompense informatiche, la motivazione umana deriva da complesse pressioni evolutive che hanno mantenuto in vita e in riproduzione i nostri antenati.
Questa prospettiva evolutiva informa il suo pensiero sull'apprendimento per rinforzo multi-criterio, dove i sistemi rispondono a diversi segnali di ricompensa anziché a uno solo, rispecchiando potenzialmente come diverse parti del cervello umano elaborano varie forme di feedback.
"Penso che l'apprendimento per rinforzo multi-criterio sia qualcosa di davvero importante," osserva Barto. “Invece di avere una sola funzione di ricompensa, possono essercene diverse e… diverse parti del cervello, ad esempio, probabilmente hanno ricevuto segnali diversi.”
L'apprendimento per rinforzo eccelle nei videogiochi e nelle simulazioni, ma fatica nel mondo reale. Il problema? Questi sistemi imparano esplorando diverse azioni: un punto di forza negli ambienti virtuali, ma un grande rischio nella realtà. "L'esplorazione è sia il più grande punto di forza dell'RL sia il suo più grande fattore limitante per l'uso nel mondo reale," spiega Riemer, sottolineando perché entrambi i ricercatori vedono questa transizione come una sfida critica.
"Nel mondo reale, al di fuori della simulazione, l'esplorazione può portare l'agente a compiere azioni imprevedibili, che rappresentano una preoccupazione importante per la sicurezza dell'AI," spiega Riemer. "Inoltre, anche per i casi d'uso in cui possiamo tollerare l'esplorazione, c'è un problema di efficienza del campione di RL. Spesso sembra che si debba esplorare molto di più di quanto farebbe un essere umano nella stessa situazione."
Barto rileva sfide simili: "Ci vorrà molto più tempo perché le simulazioni possono essere molto, molto più veloci dell'esperienza fisica nel mondo". Aggiunge: "Se si tratta di un robot, impara attraverso tentativi ed errori, e se un errore provoca una caduta o qualcosa che danneggia la macchina, allora è quello il problema".
Questo approccio cauto all'implementazione nel mondo reale deriva da considerazioni pratiche e di sicurezza. Barto sottolinea la necessità di specificare attentamente le funzioni di ricompensa "affinché il sistema non si presenti con qualcosa di realmente inaspettato e potenzialmente problematico".
La sfida va oltre la semplice implementazione. Come sottolinea Riemer, anche i sistemi di apprendimento per rinforzo devono adattarsi ad ambienti in evoluzione: "L'RL continuo studia la questione di come gli agenti RL possano adattarsi alla natura mutevole degli ambienti reali, cioè quando il mondo è diverso da quello che era prima durante il pre-addestramento o durante l'addestramento in simulatore."
Questa adattabilità presenta quello che Riemer chiama "il classico problema del 'dilemma della stabilità-plasticità', in cui l'agente deve decidere come dare priorità alle prestazioni sulle nuove esperienze e alle prestazioni sulle vecchie esperienze". Questo equilibrio tra il mantenimento delle conoscenze pregresse e l'adattamento alle nuove condizioni rappresenta una sfida continua nel settore.
Nonostante questi ostacoli, i ricercatori stanno trovando soluzioni promettenti combinando l'apprendimento per rinforzo con altri approcci AI. Riemer vede un potenziale particolare nell'integrazione con grandi modelli linguistici: "Ciò che mancava davvero all'RL era la capacità di comprendere il mondo abbastanza da poter strutturare la propria esplorazione in modo più logico. Stiamo iniziando a vedere prove che gli LLM possono essere utilizzati come una solida base di conoscenza del mondo su cui costruire la formazione RL, il che è molto entusiasmante dal punto di vista dell'abilitazione di casi d'uso nel mondo reale per l'RL."
L'Integrazione tra l'apprendimento per rinforzo e altre tecniche AI si sta evolvendo rapidamente. "La tendenza principale che stiamo osservando è il modo in cui altri metodi possono aiutare l'RL a costruire una rappresentazione del mondo che può utilizzare per esplorare in modo più efficiente", afferma Riemer. “Ad esempio, nei domini linguistici, l'RL è diventato uno strumento molto efficace utilizzato in aggiunta ai LLM pre-addestrati.”
Questa relazione complementare funziona in entrambi i sensi: l'apprendimento per rinforzo migliora i modelli linguistici, mentre i modelli linguistici forniscono ai sistemi di apprendimento per rinforzo rappresentazioni migliori del mondo. «"Stiamo iniziando a vedere cose simili per casi d'uso come la robotica o la creazione di agenti AI, in cui l'RL sta diventando più efficace se combinato con le conoscenze incorporate nei VLM che hanno anche capacità di visione", spiega Riemer.
Quando la conversazione si sposta sull'intelligenza artificiale generale (AGI), ovvero sistemi con capacità cognitive simili a quelle umane in tutti i settori, Barto esprime scetticismo sia sulla sua probabilità che sulla sua desiderabilità come obiettivo di ricerca.
"Non vedo l'utilità di fare dell'intelligenza a livello umano un obiettivo," afferma francamente. “L'obiettivo di cercare di capire come funziona l'intelligenza umana è diverso dal cercare di creare macchine che siano a livello umano.”
Una frontiera particolarmente intrigante individuata da Barto è l'apprendimento per rinforzo multi-agente, ovvero sistemi in cui più agenti di apprendimento interagiscono, potenzialmente con obiettivi diversi. Questo approccio non solo ha implicazioni per lo sviluppo dell'AI, ma potrebbe anche illuminare il funzionamento del nostro cervello.
"L'ipotesi che i neuroni siano agenti di apprendimento per rinforzo e che il cervello sia una società di agenti interagenti che potrebbero avere obiettivi diversi tra loro" rimane un'"ipotesi insolita", riconosce, ma con implicazioni potenziali per le neuroscienze.
Per Barto, i contributi più preziosi dell'apprendimento per rinforzo potrebbero non essere la creazione di un'intelligenza simile a quella umana, ma la soluzione di problemi specifici che migliorano le vite umane: una legacy forse più significativa del Premio Turing stesso.
