Más allá del triunvirato agente-entorno-objetivo, cuatro subelementos principales caracterizan los problemas de aprendizaje por refuerzo.
- Política. Esto define el comportamiento del agente de RL mapeando los estados ambientales percibidos a acciones específicas que el agente debe tomar cuando se encuentra en esos estados. Puede adoptar la forma de una función rudimentaria o de un proceso computacional más complejo. Por ejemplo, una política que guíe un vehículo autónomo puede asignar la detección de peatones a una acción de parada.
- Señal de recompensa. Designa el objetivo del problema de RL. Cada una de las acciones del agente RL recibe o no una recompensa del entorno. El único objetivo del agente es maximizar sus recompensas acumulativas del entorno. Para los vehículos autónomos, la señal de recompensa puede ser reducir el tiempo de viaje, disminuir las colisiones, permanecer en la carretera y en el carril adecuado, evitar aceleraciones extremas, etc. Este ejemplo muestra que RL puede incorporar múltiples señales de recompensa para guiar a un agente.
- Función de valor. La señal de recompensa difiere de la función de valor en que la primera denota un beneficio inmediato, mientras que la segunda especifica un beneficio a largo plazo. El valor se refiere a la conveniencia de un estado por todos los estados (con sus recompensas) que probablemente le sigan. Un vehículo autónomo puede reducir el tiempo de viaje si se sale de su carril, circula por el arcén y acelera rápidamente, pero estas tres últimas acciones pueden reducir su función de valor global. Por lo tanto, el vehículo como agente de RL puede intercambiar un tiempo de viaje marginalmente más largo para aumentar su recompensa en las últimas tres áreas.
- Modelo. Este es un subelemento opcional de los sistemas de aprendizaje por refuerzo. Los modelos permiten a los agentes predecir el comportamiento del entorno para posibles acciones. A continuación, los agentes utilizan las predicciones del modelo para determinar posibles líneas de actuación en función de los resultados potenciales. Este puede ser el modelo que guíe al vehículo autónomo y le ayude a predecir las mejores rutas, qué esperar de los vehículos circundantes dada su posición y velocidad, etc.7 Algunos enfoques basados en modelos utilizan el feedback humano directo en el aprendizaje inicial y luego pasan al aprendizaje autónomo.