Más allá del triunvirato agente-entorno-objetivo, cuatro subelementos principales caracterizan los problemas de aprendizaje por refuerzo.
-Política. Esto define el comportamiento del agente de RL mediante la asignación de estados ambientales percibidos a acciones específicas que el agente debe realizar cuando se encuentra en esos estados. Puede tomar la forma de una función rudimentaria o un proceso computacional más complicado. Por ejemplo, una política que guíe a un vehículo autónomo puede asignar la detección de peatones a una acción de pausa.
- Señal de recompensa. Esto designa el objetivo del problema de RL. Cada una de las acciones del agente RL recibe una recompensa del entorno o no. El único objetivo del agente es maximizar sus recompensas acumulativas del entorno. Para los vehículos autónomos, la señal de recompensa puede ser reducir el tiempo de viaje, disminuir las colisiones, permanecer en la carretera y en el carril adecuado, evitar aceleramientos extremos, etc. Este ejemplo muestra que RL puede incorporar múltiples señales de recompensa para guiar a un agente.
- Función de valor. La señal de recompensa difiere de la función de valor en que la primera denota un beneficio inmediato, mientras que la segunda especifica un beneficio a largo plazo. El valor se refiere a la conveniencia de un estado por todos los estados (con sus recompensas correspondientes) que es probable que sigan. Un vehículo autónomo puede reducir el tiempo de viaje saliendo de su carril, manejando por la acera y acelerando rápidamente, pero estas tres últimas acciones pueden reducir su función de valor general. Por lo tanto, el vehículo como agente de RL puede intercambiar un tiempo de viaje marginalmente más largo para aumentar su recompensa en las últimas tres áreas.
- Modelo. Este es un subelemento opcional de los sistemas de aprendizaje por refuerzo. Los modelos permiten a los agentes predecir el comportamiento del entorno para posibles acciones. Luego, los agentes utilizan predicciones de modelos para determinar posibles cursos de acción basados en los resultados potenciales. Este puede ser el modelo que guía al vehículo autónomo y que le ayuda a predecir las mejores rutas, qué esperar de los vehículos circundantes dada su posición y velocidad, y así sucesivamente.7 Algunos enfoques basados en modelos utilizan retroalimentación humana directa en el aprendizaje inicial y luego cambian al aprendizaje autónomo.