Além do trio agente-ambiente-objetivo, quatro subelementos principais caracterizam os problemas de aprendizado por reforço:
- Política. Define o comportamento do agente de RL mapeando estados ambientais percebidos para ações específicas que o agente deve tomar nesses estados. Pode assumir a forma de uma função rudimentar ou de um processo computacional mais complexo. Por exemplo, uma política que orienta um veículo autônomo pode mapear a detecção de pedestres para uma ação de parar.
- Sinal de recompensa. Designa o objetivo do problema de RL. Cada ação do agente de RL recebe ou não uma recompensa do ambiente. O único objetivo do agente é maximizar suas recompensas acumuladas do ambiente. Para veículos autônomos, o sinal de recompensa pode ser a redução do tempo de viagem, diminuição de colisões, permanência na estrada e na faixa correta, evitando desacelerações ou acelerações extremas, entre outros. Esse exemplo mostra que o RL pode incorporar múltiplos sinais de recompensa para guiar um agente.
- Função de valor. O sinal de recompensa difere da função de valor na medida em que o primeiro denota benefício imediato, enquanto o segundo especifica benefício a longo prazo. Valor refere-se à desejabilidade de um estado em relação a todos os estados (com suas recompensas incumbentes) que provavelmente o seguirão. Um veículo autônomo pode reduzir o tempo de viagem saindo de sua faixa, dirigindo na calçada e acelerando rapidamente, mas essas três ações podem reduzir sua função de valor geral. Assim, o veículo como agente de RL pode trocar um tempo de viagem marginalmente maior para aumentar sua recompensa nessas três áreas.
- Modelo. Esse é um subelemento opcional dos sistemas de aprendizado por reforço. Os modelos permitem que agentes prevejam o comportamento do ambiente para possíveis ações. Então, os agentes usam as previsões do modelo para determinar possíveis cursos de ação com base nos resultados potenciais. Esse modelo pode guiar o veículo autônomo, auxiliando na previsão das melhores rotas e na previsão dos comportamentos dos veículos ao redor, considerando sua posição e velocidade, entre outros aspectos.7 Algumas abordagens baseadas em modelo usam feedback humano direto no aprendizado inicial e, depois, mudam para o aprendizado autônomo.