Oltre al triumvirato agente-ambiente-obiettivo, quattro sottoelementi principali caratterizzano i problemi di apprendimento per rinforzo.
- Politica. Questo sottoelemento definisce il comportamento dell'agente RL mappando gli stati ambientali percepiti in base alle azioni specifiche che l'agente deve intraprendere in quegli stati. Può assumere la forma di una funzione rudimentale o di un processo computazionale più complesso. Ad esempio, una politica che guida un veicolo autonomo può mappare il rilevamento dei pedoni su un'azione di arresto.
- Segnale di ricompensa. Questo sottoelemento designa l'obiettivo del problema RL. Ciascuna azione dell'agente RL riceve una ricompensa dall'ambiente o meno. L'unico obiettivo dell'agente è massimizzare le ricompense cumulative ottenute dall'ambiente. Per i veicoli a guida autonoma, il segnale di ricompensa può essere la riduzione del tempo di viaggio, la riduzione delle collisioni, la permanenza sulla strada e nella corsia corretta, l'evitare derive o accelerazioni estreme e così via. Questo esempio mostra che l'RL può incorporare più segnali di ricompensa per guidare un agente.
- Funzione di valore. Il segnale di ricompensa differisce dalla funzione di valore in quanto il primo denota un beneficio immediato, mentre la seconda specifica un beneficio a lungo termine. Il valore si riferisce alla desiderabilità di uno stato per tutti gli stati (con le relative ricompense spettanti) che probabilmente seguiranno. Un veicolo autonomo può essere in grado di ridurre i tempi di viaggio uscendo dalla sua corsia, guidando sul marciapiede e accelerando rapidamente, ma queste ultime tre azioni possono ridurre la sua funzione di valore complessiva. Pertanto, il veicolo in qualità di agente RL può scambiare tempi di viaggio leggermente più lunghi per aumentare la ricompensa nelle ultime tre aree.
- Modello. Questo è un sottoelemento opzionale dei sistemi di apprendimento per rinforzo. I modelli consentono agli agenti di prevedere il comportamento dell'ambiente per possibili azioni. Gli agenti utilizzano quindi le previsioni del modello per determinare le possibili linee d'azione in base ai potenziali risultati. Questo può essere il modello che guida il veicolo autonomo e che lo aiuta a prevedere i percorsi migliori, cosa aspettarsi dai veicoli circostanti data la loro posizione e velocità, e così via.7 Alcuni approcci basati su modelli utilizzano il feedback umano diretto nell'apprendimento iniziale e poi passano all'apprendimento autonomo.