Nell'apprendimento per rinforzo, un agente impara a prendere decisioni interagendo con un ambiente. Viene utilizzato nella robotica e in altri contesti decisionali.
L'apprendimento per rinforzo (RL) è un tipo di processo di machine learning che si concentra sul processo decisionale da parte di agenti autonomi. Un agente autonomo è qualsiasi sistema in grado di prendere decisioni e agire in risposta al suo ambiente indipendentemente dall'istruzione diretta da parte di un utente umano. I robot e le auto a guida autonoma sono esempi di agenti autonomi. Nell'apprendimento per rinforzo, un agente autonomo impara a eseguire un compito per tentativi ed errori in assenza di qualsiasi guida da parte di un utente umano.1 Affronta in particolare i problemi decisionali sequenziali in ambienti incerti e si dimostra promettente nello sviluppo dell'intelligenza artificiale.
La letteratura spesso contrappone l'apprendimento per rinforzo all'apprendimento supervisionato e non supervisionato. L'apprendimento supervisionato utilizza dati etichettati manualmente per produrre previsioni o classificazioni. L'apprendimento non supervisionato mira a scoprire e apprendere modelli nascosti da dati senza etichetta. A differenza dell'apprendimento supervisionato, l'apprendimento per rinforzo non utilizza esempi etichettati di comportamento corretto o scorretto. Ma l'apprendimento per rinforzo differisce anche dall'apprendimento non supervisionato in quanto l'apprendimento per rinforzo impara attraverso tentativi ed errori e funzioni di ricompensa, anziché estrarre informazioni da schemi nascosti.2
I metodi di apprendimento supervisionato e non supervisionato presuppongono che ogni record di dati di input sia indipendente dagli altri record nel set di dati, ma che ogni record realizzi un modello di distribuzione dei dati sottostante comune. Questi metodi imparano a fare previsioni con le prestazioni del modello misurate in base alla massimizzazione dell'accuratezza delle previsioni.
Al contrario, l'apprendimento per rinforzo impara ad agire. Suppone che i dati di input siano tuple interdipendenti, ovvero una sequenza ordinata di dati, organizzati come stato-azione-ricompensa. Molte applicazioni degli algoritmi di apprendimento per rinforzo mirano a imitare i metodi di apprendimento biologico del mondo reale attraverso il rinforzo positivo.
Si noti che, sebbene i due non vengano spesso confrontati in letteratura, l'apprendimento per rinforzo è distinto anche dall'apprendimento auto-supervisionato. Quest'ultimo è una forma di apprendimento non supervisionato che utilizza pseudo etichette derivate da dati di addestramento non etichettati come verità di base per misurare l'accuratezza del modello. L'apprendimento per rinforzo, tuttavia, non produce pseudo etichette o misure rispetto a una verità fondamentale: non è un metodo di classificazione ma un apprendimento dell'azione. I due sono stati combinati, tuttavia, con risultati promettenti.3
L'apprendimento per rinforzo consiste essenzialmente nella relazione tra un agente, un ambiente e un obiettivo. La letteratura formula ampiamente questa relazione in termini di processo decisionale di Markov (MDP).
L'agente di apprendimento per rinforzo apprende un problema interagendo con il suo ambiente. L'ambiente fornisce informazioni sullo stato corrente. L'agente utilizza quindi tali informazioni per determinare quali azioni intraprendere. Se quell'azione ottiene un segnale di ricompensa dall'ambiente circostante, l'agente è incoraggiato a riprendere quell'azione quando si trova in uno stato futuro simile. Questo processo si ripete per ogni nuovo stato successivo. Nel corso del tempo, l'agente impara dalle ricompense e dalle punizioni per intraprendere azioni all'interno dell'ambiente che soddisfano un obiettivo specifico.4
Nei processi decisionali di Markov, lo spazio degli stati si riferisce a tutte le informazioni fornite dallo stato di un ambiente. Lo spazio d'azione indica tutte le possibili azioni che l'agente può eseguire all'interno di uno stato.5
Poiché un agente RL non ha dati di input etichettati manualmente che guidino il suo comportamento, deve esplorare il suo ambiente, tentando nuove azioni per scoprire quelle che ricevono ricompense. Da questi segnali di ricompensa, l'agente impara a preferire le azioni per le quali è stato ricompensato per massimizzare il suo guadagno. Ma l'agente deve anche continuare a esplorare nuovi stati e azioni. In questo modo, potrà utilizzare tale esperienza per migliorare il proprio processo decisionale.
Gli algoritmi RL richiedono quindi che un agente sfrutti la conoscenza delle azioni di stato precedentemente ricompensate ed esplori altre azioni di stato. L'agente non può perseguire esclusivamente l'esplorazione o lo sfruttamento. Deve provare continuamente nuove azioni, preferendo anche singole (o catene di) azioni che producono la più grande ricompensa cumulativa.6
Oltre al triumvirato agente-ambiente-obiettivo, quattro sottoelementi principali caratterizzano i problemi di apprendimento per rinforzo.
- Politica. Questo sottoelemento definisce il comportamento dell'agente RL mappando gli stati ambientali percepiti in base alle azioni specifiche che l'agente deve intraprendere in quegli stati. Può assumere la forma di una funzione rudimentale o di un processo computazionale più complesso. Ad esempio, una politica che guida un veicolo autonomo può mappare il rilevamento dei pedoni su un'azione di arresto.
- Segnale di ricompensa. Questo sottoelemento designa l'obiettivo del problema RL. Ciascuna azione dell'agente RL riceve una ricompensa dall'ambiente o meno. L'unico obiettivo dell'agente è massimizzare le ricompense cumulative ottenute dall'ambiente. Per i veicoli a guida autonoma, il segnale di ricompensa può essere la riduzione del tempo di viaggio, la riduzione delle collisioni, la permanenza sulla strada e nella corsia corretta, l'evitare derive o accelerazioni estreme e così via. Questo esempio mostra che l'RL può incorporare più segnali di ricompensa per guidare un agente.
- Funzione di valore. Il segnale di ricompensa differisce dalla funzione di valore in quanto il primo denota un beneficio immediato, mentre la seconda specifica un beneficio a lungo termine. Il valore si riferisce alla desiderabilità di uno stato per tutti gli stati (con le relative ricompense spettanti) che probabilmente seguiranno. Un veicolo autonomo può essere in grado di ridurre i tempi di viaggio uscendo dalla sua corsia, guidando sul marciapiede e accelerando rapidamente, ma queste ultime tre azioni possono ridurre la sua funzione di valore complessiva. Pertanto, il veicolo in qualità di agente RL può scambiare tempi di viaggio leggermente più lunghi per aumentare la ricompensa nelle ultime tre aree.
- Modello. Questo è un sottoelemento opzionale dei sistemi di apprendimento per rinforzo. I modelli consentono agli agenti di prevedere il comportamento dell'ambiente per possibili azioni. Gli agenti utilizzano quindi le previsioni del modello per determinare le possibili linee d'azione in base ai potenziali risultati. Questo può essere il modello che guida il veicolo autonomo e che lo aiuta a prevedere i percorsi migliori, cosa aspettarsi dai veicoli circostanti data la loro posizione e velocità, e così via.7 Alcuni approcci basati su modelli utilizzano il feedback umano diretto nell'apprendimento iniziale e poi passano all'apprendimento autonomo.
Esistono due metodi generali con cui un agente raccoglie i dati per le politiche di apprendimento:
- Online. In questo caso, un agente raccoglie i dati direttamente dall'interazione con l'ambiente circostante. Questi dati vengono elaborati e raccolti in modo iterativo man mano che l'agente continua a interagire con tale ambiente.
- Offline. Quando un agente non ha accesso diretto a un ambiente, può imparare attraverso i dati registrati di quell'ambiente. Questo è l'apprendimento offline. Un ampio sottoinsieme di ricerche si è rivolto all'apprendimento offline, viste le difficoltà pratiche nell'addestramento dei modelli attraverso l'interazione diretta con gli ambienti.8
L'apprendimento per rinforzo è un'area di ricerca vivace e continua e, come tale, gli sviluppatori hanno prodotto una miriade di approcci all'apprendimento per rinforzo. Tuttavia, tre metodi di apprendimento per rinforzo ampiamente discussi e fondamentali sono la programmazione dinamica, il metodo Monte Carlo e l'apprendimento tramite differenza temporale.
La programmazione dinamica suddivide le attività più grandi in attività più piccole. Quindi, modella i problemi come workflow di decisioni sequenziali prese in fasi temporali discrete. Ogni decisione viene presa in base al possibile stato successivo risultante. La ricompensa di un agente (r) per una data azione è definita come una funzione di quell'azione (a), dello stato ambientale attuale (s) e del potenziale stato successivo (s'):
Questa funzione di ricompensa può essere utilizzata come (parte della) politica che disciplina le azioni di un agente. Determinare la politica ottimale per il comportamento degli agenti è una componente principale dei metodi di programmazione dinamica per l'apprendimento per rinforzo. Entra in gioco l'equazione di Bellman.
L'equazione di Bellman è:
In breve, questa equazione definisce vt(s) come la ricompensa totale prevista a partire dal momento t fino alla fine di un workflow decisionale. Si assume che l'agente inizi occupando lo stato s al tempo t. L'equazione alla fine divide la ricompensa al tempo t nella ricompensa immediata rt(s,a) (cioè la formula della ricompensa) e la ricompensa totale prevista dell'agente. Un agente massimizza quindi la sua funzione di valore, ovvero il valore totale dell'equazione di Bellman, scegliendo costantemente quell'azione che riceve un segnale di ricompensa in ogni stato.9
La programmazione dinamica è basata su modelli, il che significa che costruisce un modello del suo ambiente per percepire le ricompense, identificare i modelli e navigare nell'ambiente. Il metodo Monte Carlo, tuttavia, presuppone un ambiente black box, il che lo rende privo di modelli.
Mentre la programmazione dinamica prevede potenziali stati futuri e segnali di ricompensa nel prendere decisioni, i metodi Monte Carlo sono esclusivamente basati sull'esperienza, nel senso che campionano sequenze di stati, azioni e ricompense esclusivamente attraverso l'interazione con l'ambiente. I metodi Monte Carlo apprendono quindi attraverso tentativi ed errori piuttosto che tramite distribuzioni probabilistiche.
Il metodo Monte Carlo differisce ulteriormente dalla programmazione dinamica nella determinazione della funzione di valore. La programmazione dinamica cerca la massima ricompensa cumulativa selezionando costantemente le azioni ricompensate negli stati successivi. Il metodo Monte Carlo, al contrario, calcola la media dei rendimenti per ciascuna coppia stato-azione. Questo, a sua volta, significa che il metodo Monte Carlo deve attendere il completamento di tutte le azioni in un dato episodio (o orizzonte di pianificazione) prima di calcolare la sua funzione di valore e quindi aggiornare la sua politica.10
La letteratura descrive ampiamente l'apprendimento tramite differenza temporale (TD) come una combinazione di programmazione dinamica e metodo Monte Carlo. Come nella programmazione dinamica, TD aggiorna la sua politica, e quindi le stime per gli stati futuri, dopo ogni passaggio senza attendere il valore finale. Come nel metodo Monte Carlo, tuttavia, TD impara attraverso l'interazione grezza con il suo ambiente piuttosto che utilizzare un modello di esso.11
Come dice il suo nome, l'agente di apprendimento TD rivede la sua politica in base alla differenza tra le ricompense previste e quelle effettivamente ricevute in ogni stato. Ovvero, mentre la programmazione dinamica e il metodo Monte Carlo considerano solo la ricompensa ricevuta, TD valuta ulteriormente la differenza tra le sue aspettative e la ricompensa ricevuta. Utilizzando questa differenza, l'agente aggiorna le sue stime per il passaggio successivo senza attendere l'orizzonte di pianificazione dell'evento, contrariamente al metodo Monte Carlo.12
TD ha molte varianti. Due varianti importanti sono State–action–reward–state–action (SARSA) e Q-learning. SARSA è un metodo TD on-policy, il che significa che valuta e tenta di migliorare la propria politica decisionale. Q-learning è off-policy. I metodi off-policy sono quelli che utilizzano due politiche: una per lo sfruttamento (politica di destinazione) e una per l'esplorazione al fine di generare comportamenti (politica di comportamento).13
Esistono innumerevoli altri metodi di apprendimento per rinforzo. La programmazione dinamica è un metodo basato sul valore, il che significa che seleziona le azioni in base ai loro valori stimati secondo una politica che mira a massimizzare la sua funzione di valore. Al contrario, i metodi del gradiente politico apprendono una politica parametrizzata in grado di selezionare le azioni senza consultare una funzione di valore. Questi sono chiamati metodi basati sulle politiche e sono considerati più efficaci in ambienti ad alta dimensione.14
I metodi actor-critic utilizzano sia i metodi basati sui valori che quelli basati sulle politiche. Il cosiddetto "actor" (attore) è un gradiente di politica che determina quali azioni intraprendere, mentre il "critic" (critico) è una funzione di valore per valutare le azioni. I metodi actor-critic sono, essenzialmente, una forma di TD. Più precisamente, il metodo actor-critic valuta il valore di una determinata azione in base non solo alla sua ricompensa, ma anche al possibile valore dello stato successivo, che aggiunge alla ricompensa dell'azione. Il vantaggio di questo metodo è che, grazie all'implementazione di una funzione di valore e di una politica nel processo decisionale, richiede effettivamente una minore interazione con l'ambiente.15
Dato che l'apprendimento per rinforzo riguarda principalmente il processo decisionale in ambienti imprevedibili, è stata un'area di interesse fondamentale per la robotica. Per svolgere attività semplici e ripetitive, il processo decisionale può essere semplice. Ma attività più complicate, come i tentativi di simulare il comportamento umano o automatizzare la guida, implicano l'interazione con ambienti del mondo reale altamente variabili e mutevoli. La ricerca dimostra che l'apprendimento per rinforzo profondo con reti neurali profonde aiuta tali attività, soprattutto per quanto riguarda la generalizzazione e la mappatura degli input sensoriali ad alta dimensione agli output dei sistemi controllati.16 Gli studi suggeriscono che l'apprendimento per rinforzo profondo con robot si basa in larga misura sui set di dati raccolti, quindi lavori recenti esplorano le strade per raccogliere dati del mondo reale17 e riutilizzare i dati precedenti18 per migliorare i sistemi di apprendimento per rinforzo.
Ricerche recenti suggeriscono di sfruttare tecniche e strumenti di elaborazione del linguaggio naturale, come modelli linguistici di grandi dimensioni (LLM): possono migliorare la generalizzazione nei sistemi di apprendimento per rinforzo attraverso la rappresentazione testuale degli ambienti del mondo reale.19 Molti studi dimostrano come gli ambienti testuali interattivi forniscano alternative economiche agli ambienti tridimensionali quando istruiscono gli agenti di apprendimento in compiti decisionali successivi.20 L'apprendimento per rinforzo profondo è anche alla base del processo decisionale testuale nei chatbot. Di fatto, l'apprendimento per rinforzo supera altri metodi per migliorare la risposta al dialogo dei chatbot.21
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Accedi al nostro catalogo completo di oltre 100 corsi online acquistando oggi stesso un abbonamento individuale o multiutente che ti consentirà di ampliare le tue competenze su una gamma di prodotti a un prezzo contenuto.
Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.
Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.
Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.
Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.
1 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016.
2 Peter Stone, “Reinforcement Learning,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
3 Xiang Li, Jinghuan Shang, Srijan Das, Michael Ryoo, "Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels?" Advances in Neural Information Processing Systems, Vol. 35, 2022, pagg. 30865-30881, https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html.
4 Richard Sutton e Andrew Barto, Introduction to Reinforcement Learning, 2a edizione, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.
5 Brandon Brown and Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.
6 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.
Brandon Brown e Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.
7 Richard Sutton e Andrew Barto, Introduction to Reinforcement Learning, 2a edizione, MIT Press, 2018. B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Yogamani e Patrick Pérez, "Deep Reinforcement Learning for Autonomous Driving: A Survey", IEEE Transactions on Intelligent Transportation Systems, Vol. 23, n. 6, 2022, pagg. 4909-4926, https://ieeexplore.ieee.org/document/9351818.
8 Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu, "Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems," 2020, https://arxiv.org/abs/2005.01643. Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou e David Silver, "Online and Offline Reinforcement Learning by Planning with a Learned Model", Advances in Neural Information Processing Systems, Vol. 34, 2021, pagg. 27580-27591, https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html.
9 Martin Puterman e Jonathan Patrick, "Dynamic Programming", Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
10 Richard Sutton e Andrew Barto, Introduction to Reinforcement Learning, 2a edizione, MIT Press, 2018. Phil Winder, Reinforcement Learning: Industrial Applications of Intelligent Agents, O'Reilly, 2020.
11 Richard Sutton e Andrew Barto, Introduction to Reinforcement Learning, 2a edizione, MIT Press, 2018.
12 Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.
13 Richard Sutton e Andrew Barto, Introduction to Reinforcement Learning, 2a edizione, MIT Press, 2018.
14 Richard Sutton e Andrew Barto, Introduction to Reinforcement Learning, 2a edizione, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.
15 Richard Sutton e Andrew Barto, Introduction to Reinforcement Learning, 2a edizione, MIT Press, 2018.
16 Julian Ibarz, Jie Tan, Chelsea Finn, Mrinal Kalakrishnan, Peter Pastor e Sergey Levine, "How to train your robot with deep reinforcement learning: lessons we have learned", The International Journal of Robotics Research, Vol. 40, 2021, pagg. 969-721, https://journals.sagepub.com/doi/full/10.1177/0278364920987859.
17 Saminda Wishwajith Abeyruwan, Laura Graesser, David B D’Ambrosio, Avi Singh, Anish Shankar, Alex Bewley, Deepali Jain, Krzysztof Marcin Choromanski e Pannag R Sanketi, "i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops", Proceedings of The 6th Conference on Robot Learning, PMLR, n. 205, 2023, pagg. 212-224, https://proceedings.mlr.press/v205/abeyruwan23a.html.
18 Homer Rich Walke, Jonathan Heewon Yang, Albert Yu, Aviral Kumar, Jędrzej Orbik, Avi Singh e Sergey Levine, "Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning", Proceedings of The 6th Conference on Robot Learning, PMLR, n. 205, 2023, 1652-1662, https://proceedings.mlr.press/v205/walke23a.html.
19 Nikolaj Goodger, Peter Vamplew, Cameron Foale e Richard Dazeley, "Language Representations for Generalization in Reinforcement Learning," Proceedings of The 13th Asian Conference on Machine Learning, PMLR, n. 157, 2021, pagg. 390-405, https://proceedings.mlr.press/v157/goodger21a.html. Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta e Jacob Andreas, "Guiding Pretraining in Reinforcement Learning with Large Language Models," Proceedings of the 40th International Conference on Machine Learning, PMLR, N. 202, 2023, pagg. 8657-8677, https://proceedings.mlr.press/v202/du23f.html. Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh e Roy Fox, "Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling", Proceedings of the 40th International Conference on Machine Learning, PMLR, 202, 2023, pagg. 26311-26325, https://proceedings.mlr.press/v202/nottingham23a.html.
20 Ruoyao Wang e Peter Jansen e Marc-Alexandre Côté e Prithviraj Ammanabrolu, "ScienceWorld: Is your Agent Smarter than a 5th Grader?" Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, pagg. 11279-11298, https://aclanthology.org/2022.emnlp-main.775/. Peter Jansen, "A Systematic Survey of Text Worlds as Embodied Natural Language Environments", Proceedings of the 3rd Wordplay: When Language Meets Games Workshop, 2022, pagg. 1-15, https://aclanthology.org/2022.wordplay-1.1.
21 Paloma Sodhi, Felix Wu, Ethan R. Elenberg, Kilian Q Weinberger e Ryan Mcdonald, "On the Effectiveness of Offline RL for Dialogue Response Generation", Proceedings of the 40th International Conference on Machine Learning, PMLR, n. 202, 2023, pagg. 32088-32104, https://proceedings.mlr.press/v202/sodhi23a.html. Siddharth Verma, Justin Fu, Sherry Yang e Sergey Levine, "CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning", Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, pagg. 4471-4491, https://aclanthology.org/2022.naacl-main.332/.