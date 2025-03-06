Richard Sutton, uno dei pionieri dell'AI moderna, non è convinto che impiegare più potenza di calcolo nell'AI porterà a macchine che pensano come gli umani. Anzi, sostiene che l'ossessione odierna per il potenziamento del deep learning potrebbe frenare l'AI dal suo pieno potenziale.
Sutton, insieme al suo collaboratore di lunga data Andrew Barto, ha vinto quest'anno il Premio Turing, spesso chiamato il "Premio Nobel dell'Informatica", per il suo lavoro nell'apprendimento per rinforzo. Crede che la vera svolta arriverà quando l'AI smetterà di affidarsi a set di dati resi accurati e inizierà a imparare dall'esperienza, proprio come fa un bambino.
"Se vogliamo raggiungere una vera intelligenza, l'AI deve imparare facendo, per tentativi ed errori", ha detto Sutton in un'intervista. "Il computing non è una panacea. Più computing aiuta, ma non è l'ingrediente centrale dell'intelligenza."
È un'affermazione audace in un momento in cui giganti dell'AI come OpenAI, Google DeepMind e Anthropic stanno correndo per scalare i loro modelli, fornendo quantità sempre crescenti di dati e computing nella ricerca di un ragionamento a livello umano. Sutton, tuttavia, ritiene che questo approccio sia errato, sostenendo che il vero progresso deriverà dal perfezionare gli algoritmi che governano il modo in cui le macchine imparano, non solo dal renderle più grandi.
I contributi di Sutton all'AI risalgono a decenni fa. Tuttavia, il suo impatto più significativo è stato nell'apprendimento per rinforzo, un metodo che consente all'AI di imparare interagendo con l'ambiente, proprio come gli esseri umani e gli animali imparano attraverso prove ed errori.
L'apprendimento per rinforzo funziona premiando un sistema AI per le azioni corrette e penalizzandolo per gli errori, simile a come un bambino impara che toccare una stufa calda è una cattiva idea, ma prendere un giocattolo è positivo. Col tempo, il sistema di AI affina il suo processo decisionale massimizzando le ricompense e minimizzando gli errori.
Questa tecnica è stata usata in modo famoso in AlphaGo, il sistema AI sviluppato da Google DeepMind che nel 2016 ha scioccato il mondo sconfiggendo il campione del mondo di Go Lee Sedol. L'AI ha imparato non memorizzando strategie umane, ma giocando milioni di partite contro se stessa, perfezionando la propria strategia attraverso il reinforcement learning.
Da allora, il reinforcement learning si è esteso oltre i giochi in ambiti come la robotica, il trading finanziario e la sanità. Aiuta a ottimizzare le auto a guida autonoma, a migliorare algoritmi di trading automatizzato e persino a mettere a punto ai chatbot come ChatGPT tramite apprendimento per rinforzo dal feedback (RLHF). RLHF consente modelli AI di perfezionare le proprie risposte in base alle interazioni degli utenti, rendendole più conversazionali e allineate con le aspettative umane.
Nonostante questi progressi, Sutton ritiene che l'apprendimento per rinforzo non sia ancora stato del tutto sfruttato. "È ancora presto", ha detto. "I sistemi di AI di oggi si basano principalmente su dati pre-elaborati, non su interazioni reali. Questo deve cambiare se vogliamo un'AI che comprenda e si adatti davvero."
L'idea dell'intelligenza artificiale generale (AGI), un'AI in grado di pensare, ragionare e apprendere attraverso una vasta gamma di compiti al pari di un essere umano, è da tempo un argomento controverso. Alcuni esperti sostengono che l'AGI sia ancora lontana molti anni, mentre altri credono addirittura che potrebbe non essere mai possibile. In un altro campo, alcuni esperti affermano che l'AGI non è l'obiettivo giusto a cui dare priorità. "Non dobbiamo dimenticare il potere di questi modelli in altri domini non linguistici", ha detto Marina Danilevsky, una Senior Research Scientist presso IBM, in un episodio del podcast Mixture of Experts . "Se ampliassimo effettivamente i campi di applicazione di questa tecnologia... potremmo avvicinarci ad ambiti molto più interessanti, molto più pragmatici, molto più pratici... [invece di] inseguire l'AGI."
Sutton assume una posizione misurata. Egli stima che ci sia una probabilità su quattro che AI possa raggiungere il livello umano entro cinque anni e una probabilità del 50% entro 15 anni. Si tratta di una previsione straordinariamente ottimistica rispetto a quella di molti suoi colleghi, che spesso prevedono che l'AGI sia ancora lontana parecchi decenni.
"Ci sono ancora molti progressi da fare", ha riconosciuto. "Ma ci stiamo avvicinando. Il più grande pezzo mancante è far sì che i sistemi AI imparino dall'esperienza in modo più naturale, anziché essere alimentati con set di dati etichettati".
Come descrive Sutton, una delle sfide più grandi è insegnare all'AI a dare senso alla pianificazione e all'astrazione a lungo termine, la capacità di scomporre problemi complessi in pezzi più piccoli e gestibili, come fanno gli esseri umani.
"Se ti dico di attraversare la strada, non pensi a ogni singolo movimento muscolare. Semplicemente, pensi all'obiettivo: attraversare la strada. L'AI deve imparare così, a un livello di astrazione più alto", ha spiegato Sutton.
Uno dei suoi contributi chiave all'apprendimento per rinforzo è il concetto di astrazione temporale, che permette all'AI di imparare per passaggi invece di impantanarsi nella micromanagement. Questo potrebbe essere fondamentale per i sistemi di AI che devono ragionare su orizzonti temporali lunghi, una cosa con cui i modelli odierni faticano.
Ad esempio, un assistente AI potrebbe essere in grado di generare una risposta a una singola domanda ma avere difficoltà a mantenere una conversazione logica su più interazioni o a pianificare un compito complesso che si sviluppa nel tempo, come prenotare una vacanza che prevede il coordinamento di voli, hotel e attività. Sutton ritiene che l'apprendimento per rinforzo e migliori algoritmi di ragionamento a lungo termine saranno la chiave per superare questa limitazione.
Sutton crede che il modo migliore di pensare al futuro dell'AI non sia concepirla come uno strumento o uno schiavo, ma come un bambino che impara, si evolve e infine raggiunge l'indipendenza.
"Non trattiamo i nostri figli come macchine che devono essere controllate", ha affermato. "Li guidiamo, li istruiamo, ma alla fine sono loro a crescere e a diventare esseri autonomi. L'AI non sarà diversa."
Sutton avverte che trattare l'AI come qualcosa da dominare o schiavizzare potrebbe portare a rapporti conflittuali piuttosto che di cooperazione. Al contrario, sostiene che, proprio come i bambini imparano i valori della società umana attraverso l'osservazione e l'interazione, l'AI deve essere educata, e non programmata, ad allinearsi ai valori umani.
"Non si tratta di controllo, ma di comprensione", ha spiegato. "Quando cresci un figlio, non ti limiti a imporre regole rigide e ad aspettarti obbedienza. Dimostri gentilezza, equità e collaborazione, e il bambino interiorizza quei valori. L'AI può imparare allo stesso modo."
L'analogia solleva domande profonde. Se AI diventasse più autonoma, in che modo la società integrerà questi esseri digitali? Avranno dei diritti? Saranno indipendenti? Sutton suggerisce che il modo in cui affrontiamo ora lo sviluppo dell'AI definirà il modo in cui si svilupperanno queste relazioni future.
"Se cresciamo l'AI in un ambiente di fiducia e cooperazione, imparerà a esistere al nostro fianco. Se la trattiamo come un avversario, rischiamo di creare sistemi che avranno delle ottime ragioni per resisterci", ha affermato.
La prospettiva di Sutton sfida le narrazioni convenzionali sull'allineamento dell'AI basate sulla paura, che spesso presuppongono che l'AI avanzata debba essere incatenata per evitare che danneggi l'umanità. Propone invece un approccio basato sul beneficio reciproco, in cui l'AI impara attraverso l'esperienza piuttosto che attraverso vincoli rigidi.
La visione di Sutton per l'AI, in buona sostanza, è quella di costruire macchine che imparino come fanno gli umani, attraverso l'esplorazione, l'esperienza e l'adattamento. Per lui, il futuro dell'AI non riguarda modelli più grandi o più regole, ma la creazione di sistemi AI che possano capire le cose da soli.
Il premio in denaro che gli è stato conferito, il Turing Award (500.000 del milione di dollari condiviso con Barto), è già stato utilizzato per realizzare questa visione. Ha fondato l'Openmind Research Institute, con l'obiettivo di dare ai giovani ricercatori di AI la libertà di esplorare le domande fondamentali sull'apprendimento, senza le pressioni della commercializzazione.
"Quando Andy Barto e io abbiamo iniziato, avevamo il tempo e lo spazio per esplorare liberamente le idee", ha affermato. "Questo è ciò che ha portato l'apprendimento per rinforzo a diventare quello che è oggi. Voglio dare alla nuova generazione la stessa opportunità."
Quindi, l'AI a livello umano è inevitabile? Sutton rimane cautamente ottimista. "Non è una questione di se, ma di quando", ha affermato. "E quando ciò accadrà, non sarà perché abbiamo costruito un modello più grande. Sarà perché abbiamo creato uno studente più intelligente."
