إلى جانب الثالوث المكون من الوكيل والبيئة والهدف، توجد أربعة عناصر فرعية رئيسة تميز مشاكل التعلم المعزز.
- السياسة. تحدد السياسة سلوك وكيل التعلم المعزز من خلال ربط حالات البيئة المتصورة بالإجراءات المحددة التي يجب على الوكيل اتخاذها عندما يكون في تلك الحالات. ويمكن أن تأخذ شكل دالة بسيطة (بدائية) أو عملية حسابية أكثر تعقيدًا. فعلى سبيل المثال، قد ترسم سياسة توجيه مركبة ذاتية القيادة خريطة لاكتشاف المشاة من أجل اتخاذ إجراء التوقف.
- إشارة المكافأة. تُحدد إشارة المكافأة هدف مشكلة التعلم المعزز. وكل إجراء يتخذه وكيل التعلم المعزز إما يحصل على مكافأة من البيئة أو لا. والهدف الوحيد للوكيل هو زيادة مجموع المكافآت التي يحصل عليها من البيئة. وفيما يتعلق بالمركبات ذاتية القيادة، يمكن أن تكون إشارة المكافأة تقليل زمن الرحلة، أو تقليل التصادمات، أو البقاء على الطريق وفي المسار الصحيح، أو تجنب التباطؤ أو التسارع الشديد، وما إلى ذلك. ويُظهر هذا المثال أن التعلم المعزز قد يدمج إشارات مكافأة متعددة لتوجيه وكيل.
- دالة القيمة. تختلف إشارة المكافأة عن دالة القيمة في أن الأولى تشير إلى الميزة الفورية، بينما تشير الثانية إلى الميزة على المدى الطويل. وتشير القيمة إلى ستحسان حالة ما بناءً على جميع الحالات (مع المكافآت المترتبة عليها) التي من المرجح أن تتبعها. فعلى سبيل المثال، قد تتمكن مركبة ذاتية القيادة من تقليل زمن الرحلة عن طريق الخروج عن المسار، أو القيادة على الرصيف، أو التسارع باطراد، ولكن هذه الإجراءات الثلاثة قد تقلل من دالة القيمة الإجمالية. لذا، قد تختار المركبة بوصفها وكيل تعلم معزز قضاء وقت أطول قليلًا في الرحلة لزيادة مكافأتها في الجوانب الثلاثة السابقة.
- نموذج. يُعد النموذج عنصرًا فرعيًّا اختياريًّا في أنظمة التعلم المعزز. وتسمح النماذج للوكلاء بالتنبؤ بسلوك البيئة لاتخاذ الإجراءات الممكنة. ثم يستخدم الوكيل تنبؤات النموذج لتحديد مسارات العمل الممكنة بناءً على النتائج المحتملة. وقد يكون هذا النموذج هو الذي يوجه السيارة ذاتية القيادة ويساعدها على التنبؤ بأفضل المسارات وتوقع سلوكيات السيارات المحيطة بناءً على موقعها وسرعتها، وما إلى ذلك.7 وتستخدم بعض الطرق القائمة على النماذج التعليقات البشرية المباشرة في مراحل التعلم الأولى ثم تنتقل إلى التعلم الذاتي.