في التعلم المعزز، تتعلم الآلة اتخاذ القرارات من خلال التفاعل مع البيئة، حيث يُستخدم التعلم المعزز في التشغيل الآلي وغيره من إعدادات اتخاذ القرار.
التعلم المعزز (RL) هو نوع من عمليات التعلم الآلي يهدف إلى اتخاذ وكلاء مستقلين للقرارات. والوكيل المستقل هو أي نظام يمكنه اتخاذ القرارات والتفاعل مع بيئته من دون الحاجة إلى توجيه مباشر من المستخدم البشري. ومن الأمثلة على الوكلاء المستقلين الروبوتات والسيارات ذاتية القيادة. في التعلم المعزز، يتعلم الوكيل المستقل أداء المهام عن طريق التجربة والخطأ من دون أي توجيه من المستخدم البشري.1 حيث يعالج بشكل خاص مشاكل اتخاذ القرارات المتسلسلة في بيئات غير مستقرة، وينذر بمستقبل واعد في مجال تطوير الذكاء الاصطناعي.
غالبًا ما تقارن الأدبيات بين التعلم المعزز والتعلم الموجّه وغير الموجّه. يستخدم التعلم الموجّه بيانات مصنفة يدويًا لإجراء تنبؤات أو تصنيفات. ويهدف التعلم غير الموجّه إلى اكتشاف الأنماط الخفية من البيانات غير المصنفة وتعلمها. وعلى عكس التعلم الموجّه، لا يستخدم التعلم المعزز أمثلة مصنفة للسلوك الصحيح أو الخاطئ. لكن التعلم المعزز يختلف كذلك عن التعلم غير الموجّه، إذ إن التعلم المعزز يتعلم من خلال التجربة والخطأ ودالة المكافأة وليس من خلال استخراج معلومات الأنماط الخفية.2
تفترض أساليب التعلم الخاضع للإشراف وغير الخاضع للإشراف أن كل سجل من بيانات الإدخال مستقلًا عن السجلات الأخرى في مجموعة البيانات، إلا أن كل سجل يحقق نموذج توزيع بيانات أساسي مشترك. وتتعلم هذه الأساليب التنبؤ مع قياس أداء النموذج وفقًا لتعظيم دقة التنبؤ.
على النقيض من ذلك، يتعلم التعلم المعزز التصرف. فهو يفترض أن بيانات الإدخال عبارة عن مجموعات مترابطة-أي تسلسل مرتب من البيانات-منظمة على هيئة الحالة-الإجراء-المكافأة. ويهدف كثير من تطبيقات خوارزميات التعلم المعزز إلى محاكاة أساليب التعلم البيولوجي في الواقع من خلال التعزيز الإيجابي.
لاحظ أنه على الرغم من عدم المقارنة بينهما كثيرًا في الأدبيات، إلا إن التعلم المعزز يختلف عن التعلم ذاتي التوجيه أيضًا. التعلم ذاتي التوجيه هو شكل من أشكال التعلم غير الموجّه يستخدم تسميات زائفة مستمدة من بيانات التدريب غير المصنفة بوصفها البيانات الصحيحة لقياس مدى دقة النماذج. ولكن التعلم المعزز لا ينتج تسميات زائفة أو يقيس بناءً على البيانات الصحيحة - فهو ليس أسلوب تصنيف، بل هو نموذج من نماذج التعلم يهتم باتخاذ الإجراءات. ومع ذلك، اشترك كلاهما في تحقيق نتائج واعدة.3
يتألف التعلم المعزز أساسًا من العلاقة بين وكيل وبيئة وهدف. وتتطرق الأدبيات إلى صياغة هذه العلاقة على نطاق واسع باستخدام عملية قرار Markov (MDP).
يتعرف الوكلاء في نظام التعلم المعزز على المشاكل من خلال التفاعل مع بيئتهم. وتوفر البيئة معلومات عن حالتها الحالية. ثم يستخدم الوكيل هذه المعلومات لتحديد الإجراءات التي ينبغي اتخاذها. فإذا حصل ذلك الإجراء على إشارة مكافأة من البيئة المحيطة، يحصل الوكيل على تأكيد لاتخاذ هذا الإجراء مرة أخرى عند حدوث حالة مماثلة في المستقبل. وتتكرر هذه العملية مع كل حالة جديدة بعد ذلك. وبمرور الوقت، يتعلم الوكيل من المكافآت والعقوبات اتخاذ إجراءات داخل البيئة تُلبي هدفًا محددًا.4
في عمليات قرارات Markov، يشير فضاء الحالات إلى جميع المعلومات التي توفرها حالة البيئة. يشير فضاء الإجراءات إلى جميع الإجراءات الممكنة التي قد يتخذها الوكيل في مختلف الحالات.5
نظرًا لأن وكيل التعلم المعزز لا يمتلك بيانات إدخال مصنفة يدويًا توجه سلوكه، فإنه يجب عليه استكشاف بيئته وتجربة إجراءات جديدة لاكتشاف تلك التي تتلقى إشارات مكافأة. ومن خلال إشارات المكافأة هذه، يتعلم الوكيل تفضيل الإجراءات التي تمت مكافأته عليها بهدف تعظيم مكاسبه. ولكن يجب على الوكيل مواصلة استكشاف حالات وإجراءات جديدة أيضًا. وبذلك يمكنه استخدام تجربته السابقة في تحسين عملية اتخاذه للقرارات.
تطلب خوارزميات التعلم المعزز من الوكيل أن يستغل معرفته بالحالات والإجراءات التي حصلت على إشارة مكافأة سابقًا، بينما يستمر في استكشاف حالات وإجراءات أخرى. ولا يجوز أن يقتصر عمل الوكيل على الاستكشاف أو الاستغلال. بل لابد أن يواصل تجربة إجراءات جديدة وتفضيل إجراء واحد (أو سلاسل من الإجراءات) يحقق أكبر مكافأة تراكمية.6
إلى جانب الثالوث المكون من الوكيل والبيئة والهدف، توجد أربعة عناصر فرعية رئيسة تميز مشاكل التعلم المعزز.
- السياسة. تحدد السياسة سلوك وكيل التعلم المعزز من خلال ربط حالات البيئة المتصورة بالإجراءات المحددة التي يجب على الوكيل اتخاذها عندما يكون في تلك الحالات. ويمكن أن تأخذ شكل دالة بسيطة (بدائية) أو عملية حسابية أكثر تعقيدًا. فعلى سبيل المثال، قد ترسم سياسة توجيه مركبة ذاتية القيادة خريطة لاكتشاف المشاة من أجل اتخاذ إجراء التوقف.
- إشارة المكافأة. تُحدد إشارة المكافأة هدف مشكلة التعلم المعزز. وكل إجراء يتخذه وكيل التعلم المعزز إما يحصل على مكافأة من البيئة أو لا. والهدف الوحيد للوكيل هو زيادة مجموع المكافآت التي يحصل عليها من البيئة. وفيما يتعلق بالمركبات ذاتية القيادة، يمكن أن تكون إشارة المكافأة تقليل زمن الرحلة، أو تقليل التصادمات، أو البقاء على الطريق وفي المسار الصحيح، أو تجنب التباطؤ أو التسارع الشديد، وما إلى ذلك. ويُظهر هذا المثال أن التعلم المعزز قد يدمج إشارات مكافأة متعددة لتوجيه وكيل.
- دالة القيمة. تختلف إشارة المكافأة عن دالة القيمة في أن الأولى تشير إلى الميزة الفورية، بينما تشير الثانية إلى الميزة على المدى الطويل. وتشير القيمة إلى ستحسان حالة ما بناءً على جميع الحالات (مع المكافآت المترتبة عليها) التي من المرجح أن تتبعها. فعلى سبيل المثال، قد تتمكن مركبة ذاتية القيادة من تقليل زمن الرحلة عن طريق الخروج عن المسار، أو القيادة على الرصيف، أو التسارع باطراد، ولكن هذه الإجراءات الثلاثة قد تقلل من دالة القيمة الإجمالية. لذا، قد تختار المركبة بوصفها وكيل تعلم معزز قضاء وقت أطول قليلًا في الرحلة لزيادة مكافأتها في الجوانب الثلاثة السابقة.
- نموذج. يُعد النموذج عنصرًا فرعيًّا اختياريًّا في أنظمة التعلم المعزز. وتسمح النماذج للوكلاء بالتنبؤ بسلوك البيئة لاتخاذ الإجراءات الممكنة. ثم يستخدم الوكيل تنبؤات النموذج لتحديد مسارات العمل الممكنة بناءً على النتائج المحتملة. وقد يكون هذا النموذج هو الذي يوجه السيارة ذاتية القيادة ويساعدها على التنبؤ بأفضل المسارات وتوقع سلوكيات السيارات المحيطة بناءً على موقعها وسرعتها، وما إلى ذلك.7 وتستخدم بعض الطرق القائمة على النماذج التعليقات البشرية المباشرة في مراحل التعلم الأولى ثم تنتقل إلى التعلم الذاتي.
هناك طريقتان عامتان يمكن للوكيل من خلالهما جمع البيانات لتعلم السياسات:
- التعلم المتصل. في هذه الطريقة يجمع الوكيل البيانات مباشرة من خلال التفاعل مع بيئته المحيطة. تجري معالجة هذه البيانات وجمعها بشكل تكراري بينما يستمر الوكيل في التفاعل مع تلك البيئة.
- غير متصل. عندما لا يُتاح للوكيل إمكانية الوصول المباشر إلى البيئة، يمكنه التعلم من خلال البيانات المسجلة مسبقًا عن تلك البيئة. وهذا يُعرف بالتعلم غير المتصل. لجأت مجموعة كبيرة من الأبحاث إلى التعلم غير المتصل نظرًا إلى الصعوبات العملية في تدريب النماذج من خلال التفاعل المباشر مع البيئات.8
التعلم المعزز هو أحد المجالات البحثية النابضة بالحياة والمتواصلة، ومن هذا المنطلق، أخرج المطورون نُهُجًا لا حصر لها للتعلم المعزز. غير أن هناك ثلاث أساليب مؤسِّسة نوقشت نقاشًا مستفيضًا وهي البرمجة الديناميكية ومونت كارلو والتعلم بالفارق الزمني.
تقسم البرمجة الديناميكية المهام الأكبر إلى مهام أصغر. وهكذا فإنها تجري نمذجة للمشاكل على أنها مهام سير عمل من القرارات المتتابعة المتخذة في خطوات زمنية منفصلة. ويُتخَذ كل قرار بناءً على الحالة التالية المحتملة الناتجة. وتُعرَّف مكافأة الوكيل (r) لإجراء معين بوصفها دالة لذلك الإجراء (a)، وحالة البيئة الحالية (s)، والحالة التالية المحتملة (s’):
يمكن استخدام دالة المكافأة هذه باعتبارها (جزء من) السياسة التي تحكم إجراءات الوكيل. وتُعَد مسألة تحديد السياسة المثلى لسلوك الوكيل عنصرًا رئيسًا لأساليب البرمجة الديناميكية للتعلم المعزز. وهنا تظهر معادلة Bellman في الصورة.
معادلة Bellman هي:
باختصار، تُعرِّف هذه المعادلة vt(s) على أنها إجمالي المكافأة المتوقعة بدءًا من فترة زمنية معينة ورمزها t وحتى نهاية سير عمل اتخاذ القرارات. وتفترض المعادلة أن الوكيل يبدأ في الحالة ورمزها s في فترة زمنية معينة t. وتقسم المعادلة في النهاية المكافأة في فترة زمنية معينة t إلى المكافأة الفورية rt(s,a) (وهي صيغة المكافأة) وإجمالي المكافأة المتوقعة للوكيل. وهكذا يعمل الوكيل على زيادة دالة قيمته - التي تمثل القيمة الإجمالية لمعادلة Bellman - من خلال اختيار الإجراء الذي يحصل على إشارة مكافأة في كل حالة دائمًا.9
تُعَد البرمجة الديناميكية برمجةً قائمة على النموذج، وهو ما يعني أنها تُنشئ نموذجًا للبيئة المحيطة بها لتوقع المكافآت وتحديد الأنماط والتنقل عبر البيئة. أما أسلوب Monte Carlo، فهو يفترض بيئة غير معروفة (صندوق أسود)، ما يجعلها غير معتمدة على نموذج.
في حين تتنبأ البرمجة الديناميكية بالحالات المستقبلية المحتملة وإشارات المكافأة عند اتخاذ القرارات، لا تعتمد أساليب مونت كارلو إلا على التجربة، وهو ما يعني أنها تجرب تسلسلات الحالات، والإجراءات، والمكافآت من خلال التفاعل مع البيئة فقط. وبالتالي تتعلم أساليب مونت كارلو من خلال التجربة والخطأ بدلًا من الاعتماد على التوزيعات الاحتمالية.
يكمن الاختلاف بين أسلوب Monte Carlo والبرمجة الديناميكية في تحديد دالة القيمة. حيث تسعى البرمجة الديناميكية إلى تحقيق أكبر مكافأة تراكمية من خلال اختيار الإجراءات التي تحصل على المكافآت بشكل مستمر في الحالات المتتابعة. وفي المقابل، يعتمد أسلوب Monte Carlo على حساب متوسط العوائد لكل زوج من الحالات والإجراءات. ومن ثَم هذا يعني أن أسلوب Monte Carlo لا بُد أن ينتظر حتى الانتهاء من كافة الإجراءات في حدث معين (أو أفق تخطيط) قبل حساب دالة القيمة الخاصة به، ثم يُحدّث سياسته.10
تصف الأدبيات التعلم بالفارق الزمني (TD) بشكل عام على أنه مزيج من البرمجة الديناميكية وأسلوب Monte Carlo. كما هو الحال فيما ذكرناه سابقًا، يٌحدِّث التعلم بالفارق الزمني سياسته، ومن ثَم تقديرات الحالات المستقبلية، بعد كل خطوة من دون انتظار القيمة النهائية. وكما هو الحال في أسلوب Monte Carlo، يتعلم نظام التعلم بالفارق الزمني من خلال التفاعل المباشر مع بيئته بدلاً من الاعتماد على النماذج.11
كما هو واضح من اسمه، يراجع وكيل التعلم بالفارق الزمني سياسته بناءً على الفارق بين المكافآت المتوقعة والمكافآت الفعلية المستلمة في كل حالة. بمعنى آخر، بينما لا تهتم البرمجة الديناميكية وأسلوب Monte Carlo إلا بالمكافآت المستلمة، يُقدّر التعلم بالفارق الزمني الفارق بين توقعاته والمكافآت المستلمة. وباستخدام هذا الفارق، يُحدِّث الوكيل تقديراته للخطوة التالية من دون الانتظار حتى نهاية أفق التخطيط للحدث، على عكس أسلوب Monte Carlo.12
يتضمن التعلم بالفارق الزمني كثيرًا من المتغيرات. يوجد متغيران بارزان وهما خوارزمية الحالة–الإجراء–المكافأة–الحالة–الإجراء (SARSA) وخوارزمية Q-learning. تُعَد خوارزمية SARSA طريق من طرق التعلم بالفارق الزمني قائمة على السياسة المتبعة، ما يعني أنها تُقيّم السياسة التي تتحكم في قراراتها وتحاول تحسينها. أما خوارزمية Q-learning فهي طريقة غير معتمدة على السياسة المتبعة (Off-policy). الطرق غير المعتمدة على السياسة المتبعة هي تلك التي تستخدم سياستين: واحدة للاستغلال (سياسة الهدف) وأخرى للاستكشاف لإنشاء سلوك (سياسة السلوك).13
توجد طرق إضافية لا حصر لها للتعلم المعزز. البرمجة الديناميكية هي أسلوب مستند إلى القيمة، وهو ما يعني أنها تختار الإجراءات بناءً على قيمها المقدرة وفقًا لسياسة تهدف إلى زيادة دالة القيمة الخاصة بها. في المقابل، تتعلم أساليب الاشتقاق السياسي سياسة مُعلمات يمكنها اختيار الإجراءات من دون الرجوع إلى دالة القيمة. وتُعرف هذه الأساليب بأنها مستندة إلى السياسة ويُعتقد بأنها أكثر فعالية في البيئات مرتفعة الأبعاد.14
تستخدم أساليب الفاعل والناقد كلاً من الأساليب المستندة إلى القيمة وتلك المستندة إلى السياسة. ما يُسمى بأسلوب "الفاعل" هو أسلوب اشتقاق سياسي يحدد الإجراءات التي ينبغي اتخاذها، بينما أسلوب "الناقد" هو أسلوب قائم على دالة القيمة في تقييم الإجراءات. وتُعَد أساليب الفاعل والناقد في جوهرها شكلاً من أشكال التعلم بالفارق الزمني (TD). وبشكل أكثر تحديدًا، يُقيّم أسلوب الفاعل والناقد قيمة إجراء محدد ليس فقط بناءً على مكافأته ولكن أيضًا على القيمة المحتملة للحالة التالية، والتي يُضيفها إلى مكافأة الإجراء. وتتمثل ميزة أسلوب الفاعل والناقد في أنها، نظرًا إلى تطبيقها لدالة القيمة والسياسة في اتخاذ القرارات، فإنها تتطلب تقليل التفاعل مع البيئة بشكل فعال.15
نظرًا إلى أن التعلم المعزز يركز بشكل أساسي على اتخاذ القرارات في بيئات يصعب التنبؤ بأحداثها، فقد أصبح جانبًا رئيسًا من جوانب الاهتمام في مجال الروبوتات. وفيما يخص إنجاز المهام البسيطة والمتكررة، فقد تكون عملية اتخاذ القرارات عملية مباشرة. أما بالنسبة إلى المهام الأكثر تعقيدًا، مثل محاولات محاكاة السلوك البشري أو أتمتة القيادة، فإن ذلك يتطلب التفاعل مع بيئات واقعية متقلبة وسريعة التغير. تُظهر الأبحاث أن التعلم المعزز العميق باستخدام الشبكات العصبية العميقة يساعد في مثل هذه المهام، خاصةً فيما يتعلق بالتعميم وتعيين المدخلات الحسية عالية الأبعاد لمخرجات الأنظمة المتحكم فيها. 16 تشير الدراسات إلى أن التعلم المعزز العميق باستخدام الروبوتات يعتمد بشكل كبير على مجموعات البيانات المجمعة، ولذا فإن أحدث الأبحاث تستكشف طرق جمع البيانات الواقعية17 وإعادة استخدام البيانات السابقة 18 لتحسين أنظمة التعلم المعزز.
تشير الأبحاث الحديثة إلى أن الاستفادة من تقنيات معالجة اللغة الطبيعية وأدواتها-على سبيل المثال: النماذج اللغوية الكبرى (LLMs) - قد تعمل على تحسين التعميم في أنظمة التعلم المعزز من خلال التمثيل النصي للبيئات الواقعية.19 تُظهر العديد من الدراسات مدى توفير البيئات النصية التفاعلية لبدائل ميسورة التكلفة للبيئات ثلاثية الأبعاد عند توجيه وكلاء التعلم في مهام اتخاذ القرارات المتتالية.20 كما يعزز التعلم المعزز العميق عملية اتخاذ القرارات النصية في روبوتات المحادثة. وفي الواقع، يتفوق التعلم المعزز على الأساليب الأخرى في تحسين استجابات محادثات روبوتات الدردشة.21
1 Ian Goodfellow، وYoshua Bengio، وAaron Courville، التعلم العميق، مطبعة MIT Press، عام 2016.
2 Peter Stone، "التعلم المعزز"، موسوعة التعلم الآلي واستخراج البيانات، Springer، عام 2017.
3 Xiang Li، وJinghuan Shang، وSrijan Das، و Michael Ryoo، "هل التعلم ذاتي التوجيه يُحسن حقًا التعلم المعزز من البكسلات؟" مؤتمر أنظمة معالجة المعلومات العصبية المتقدمة، مجلد 35، عام 2022، ص. 30865-30881، https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html.
4 Richard Sutton وAndrew Bart، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT Press، عام 2018. Michael Hu، فن التعلم المعزز: الأساسيات والرياضيات والتطبيقات بلغة Python، مطبعة Apress، عام 2023.
5 Brandon Brown وAlexander Zai، آلية التعلم المعزز العميق، Manning Publications، عام 2020.
6 Richard Sutton وAndrew Bart، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT Press، عام 2018.
Brandon Brown وAlexander Zai، آلية التعلم المعزز العميق، Manning Publications، عام 2020.
7 Richard Sutton وAndrew Barto، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT، عام 2018. B Ravi Kiran، وIbrahim Sobh، وVictor Talpaert، وPatrick Mannion، وAhmad A. Al Sallab، و Senthil Yogamani، وPatrick Pérez، "التعلم المعزز العميق للقيادة الذاتية: دراسة استقصائية"، مجلة IEEE Transactions on Intelligent Transportation Systems، مجلد 23، العدد 6، عام 6، عام 2022، ص. 4909-4926، https://ieeexplore.ieee.org/document/9351818.
8 Sergey Levine، وAviral Kumar، وGeorge Tucker، وJustin Fu، " التعلم المعزز غير المتصل: برنامج تعليمي واستعراض ووجهات نظر حول المشكلات المفتوحة"، عام 2020، https://arxiv.org/abs/2005.01643. Julian Schrittwieser، وThomas Hubert، و Amol Mandhane، وMohammadamin Barekatain، و Ioannis Antonoglou، وDavid Silver، "التعلم المعزز المتصل وغير المتصل من خلال التخطيط باستخدام نموذج مُتعلم"، مؤتمر أنظمة معالجة المعلومات العصبية المتقدمة، المجلد 34، عام 2021، ص. 27580-27591، https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html.
9 Martin Puterman وJonathan Patrick، "البرمجة الديناميكية"، موسوعة التعلم الآلي واستخراج البيانات، Springer، عام 2017.
10 Richard Sutton وAndrew Barto، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT Press، عام 2018. Phil Winder، التعلم المعزز: تطبيقات صناعية لأنظمة الوكلاء الذكية، O’Reilly، عام 2020.
11 Richard Sutton وAndrew Barto، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT Press، عام 2018.
12 Michael Hu، فن التعلم المعزز: الأساسيات والرياضيات والتطبيقات بلغة Python، مطبعة Apress، عام 2023.
13 Richard Sutton وAndrew Barto، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT Press، عام 2018.
14 Richard Sutton وAndrew Barto، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT Press، عام 2018. Michael Hu، فن التعلم المعزز: الأساسيات والرياضيات والتطبيقات بلغة Python، مطبعة Apress، عام 2023.
15 Richard Sutton وAndrew Barto، مقدمة في التعلم المعزز، الطبعة الثانية، مطبعة MIT Press، عام 2018.
16 Julian Ibarz، وJie Tan، وChelsea Finn، و Mrinal Kalakrishnan، وPeter Pastor، وSergey Levine، "كيفية تدريب الروبوت من خلال التعلم المعزز العميق: الدروس المستفادة"، المجلة الدولية لأبحاث الروبوتات، المجلد 40، عام 2021، ص. 969-721، https://journals.sagepub.com/doi/full/10.1177/0278364920987859.
17 Saminda Wishwajith Abeyruwan، وLaura Graesser، وDavid B D’Ambrosio، وAvi Singh، وAnish Shankar، وAlex Bewley، وDeepali Jain، و Krzysztof Marcin Choromanski، وPannag R Sanketi، "i-Sim2Real: التعلم المعزز لسياسات الروبوتات في نطاقات التفاعل الضيقة بين الإنسان والروبوت"، وقائع المؤتمر السادس حول تعلم الروبوت، مجلة PMLR، العدد 205، عام 2023، ص. 212-224، https://proceedings.mlr.press/v205/abeyruwan23a.html.
18 Homer Rich Walke، وJonathan Heewon Yang، و Albert Yu، وAviral Kumar، وJędrzej Orbik، وAvi Singh، وSergey Levine، "لا تبدأ من الصفر: الاستفادة من البيانات السابقة لأتمتة تعلم الروبوتات المعزز"، وقائع المؤتمر السادس حول تعلم الروبوت، مجلة PMLR، العدد 205، عام 2023، 1652-1662، https://proceedings.mlr.press/v205/walke23a.html.
19 Nikolaj Goodger، وPeter Vamplew، وCameron Foale، وRichard Dazeley، "التمثيلات اللغوية للتعميم في التعلم المعزز"، وقائع المؤتمر الآسيوي الثالث عشر للتعلم الآلي، مجلة PMLR، العدد 157، عام 2021، ص. 390-405، https://proceedings.mlr.press/v157/goodger21a.html. Yuqing Du، وOlivia Watkins، وZihan Wang، و Cédric Colas، وTrevor Darrell، وPieter Abbeel، و Abhishek Gupta، وJacob Andreas، "توجيه التدريب المسبق في التعلم المعزز باستخدام النماذج اللغوية الكبرى"، وقائع المؤتمر الدولي الأربعين للتعلم الآلي، مجلة PMLR، العدد 202، عام 2023، ص. 8657-8677، https://proceedings.mlr.press/v202/du23f.html. Kolby Nottingham، وPrithviraj Ammanabrolu، و Alane Suhr، وYejin Choi، وHannaneh Hajishirzi، و Sameer Singh، وRoy Fox، "هل يحلم الوكلاء المجسدون بالأغنام المبكسلة: اتخاذ القرارات المجسدة باستخدام النمذجة العالمية الموجهة باللغة"، وقائع المؤتمر الدولي الأربعين للتعلم الآلي، مجلة PMLR، 202، عام 2023، ص. 26311-26325، https://proceedings.mlr.press/v202/nottingham23a.html.
20 Ruoyao Wang، وPeter Jansen، و Marc-Alexandre Côté، وPrithviraj Ammanabrolu، " ScienceWorl: هل الوكيل لديك أذكى من تلميذ في الصف الخامس؟" وقائع مؤتمر عام 2022 حول الأساليب التجريبية في معالجة اللغة الطبيعية، عام 2022، ص. 11279-11298، https://aclanthology.org/2022.emnlp-main.775/. Peter Jansen، "دراسة استقصائية منهجية حول عوالم النصوص بوصفها بيئات لغوية طبيعية مجسدة"، وقائع ورشة عمل ألعاب الكلمات الثالثة: حين تلتقي اللغة بالألعاب، عام 2022، ص. 1-15، https://aclanthology.org/2022.wordplay-1.1.
21 Paloma Sodhi، وFelix Wu، وEthan R. Elenberg، و Kilian Q Weinberger، وRyan Mcdonald، "حول فعالية التعلم المعزز غير المتصل في إنشاء استجابات المحادثات"، وقائع المؤتمر الدولي الأربعين للتعلم الآلي، مجلة PMLR، العدد 202، عام 2023، ص. 32088-32104، https://proceedings.mlr.press/v202/sodhi23a.html. Siddharth Verma، وJustin Fu، وSherry Yang، و Sergey Levine، "CHAI: روبوت المحادثة المدعوم بالذكاء الاصطناعي للتعامل مع المحادثات الموجهة بالمهام باستخدام التعلم المعزز غير المتصل"، وقائع مؤتمر جمعية اللغويات الحاسوبية الفرع الأمريكي الشمالي لعام 2022: تقنيات اللغة البشرية"، عام 2022، ص. 4471-4491، https://aclanthology.org/2022.naacl-main.332/.