Di luar tiga serangkai agen-lingkungan-tujuan, ada empat sub-elemen utama yang menjadi ciri masalah pembelajaran penguatan.
-Kebijakan. Hal ini mendefinisikan perilaku agen RL dengan memetakan kondisi lingkungan yang dirasakan menjadi tindakan spesifik yang harus diambil agen ketika berada dalam kondisi tersebut. Ini dapat berupa fungsi yang belum sempurna atau proses komputasi yang lebih rumit. Misalnya, kebijakan yang memandu kendaraan otonom dapat memetakan deteksi pejalan kaki ke tindakan berhenti.
- Sinyal hadiah. Ini menunjuk tujuan masalah RL. Setiap tindakan agen RL akan menerima hadiah dari lingkungan atau tidak. Satu-satunya tujuan agen adalah untuk memaksimalkan imbalan kumulatif dari lingkungan. Untuk kendaraan swakemudi, sinyal hadiah dapat berupa pengurangan waktu tempuh, pengurangan tabrakan, tetap berada di jalan dan di jalur yang tepat, menghindari perlambatan atau akselerasi yang ekstrem, dan sebagainya. Contoh ini menunjukkan bahwa RL dapat menggabungkan beberapa sinyal hadiah untuk memandu agen.
- Fungsi nilai. Sinyal hadiah berbeda dengan fungsi nilai, karena yang pertama menunjukkan manfaat langsung, sedangkan yang kedua menentukan manfaat jangka panjang. Nilai mengacu pada keinginan sebuah keadaan per semua keadaan (dengan imbalan yang berlaku) yang kemungkinan besar akan mengikuti. Kendaraan otonom mungkin dapat mengurangi waktu tempuh dengan keluar dari jalurnya, mengemudi di trotoar, dan berakselerasi dengan cepat, tetapi tiga tindakan terakhir ini dapat mengurangi fungsi nilai keseluruhan. Dengan demikian, kendaraan sebagai agen RL dapat menukar waktu tempuh yang sedikit lebih lama untuk meningkatkan hadiahnya di tiga area terakhir.
- Model. Ini adalah subelemen opsional dari sistem pembelajaran penguatan. Model memungkinkan agen untuk memprediksi perilaku lingkungan untuk tindakan yang mungkin dilakukan. Agen kemudian menggunakan prediksi model untuk menentukan kemungkinan tindakan berdasarkan hasil yang potensial. Ini bisa menjadi model yang memandu kendaraan otonom dan membantunya memprediksi rute terbaik, apa yang diharapkan dari kendaraan di sekitarnya mengingat posisi dan kecepatan mereka, dan sebagainya.7 Beberapa pendekatan berbasis model menggunakan masukan langsung dari manusia dalam pembelajaran awal dan kemudian beralih ke pembelajaran otonom.