ما التعلّم المعزز؟
استكشف watsonx.ai اشترِك في رسالة Think الإخبارية
رسم توضيحي لمبحث التعلم المعزز

نُشر في: 25 مارس 2024
المشاركون: Jacob Murel Ph.D.، Eda Kavlakoglu

في التعلم المعزز، تتعلم الآلة اتخاذ القرارات من خلال التفاعل مع البيئة، حيث يُستخدم التعلم المعزز في التشغيل الآلي وغيره من إعدادات اتخاذ القرار.

التعلم المعزز (RL) هو نوع من عمليات التعلم الآلي يركز على اتخاذ القرارات بواسطة وكلاء مستقلين. والوكيل المستقل هو أي نظام يمكنه اتخاذ القرارات والتفاعل مع بيئته دون الحاجة إلى توجيه مباشر من المستخدم البشري. ومن الأمثلة على الوكلاء المستقلين الروبوتات والسيارات ذاتية القيادة. وفي التعلم المعزز، يتعلم الوكيل المستقل أداء مهمة عن طريق التجربة والخطأ دون توجيه من مستخدم بشري.1 حيث يتناول بشكل خاص مشاكل اتخاذ القرار المتسلسل في بيئات غير مؤكدة، ويظهر إمكانات واعدة في تطوير الذكاء الاصطناعي.

التعلم الخاضع للإشراف وغير الخاضع للإشراف

في كثير من الأحيان تقارن الأدبيات بين التعلم المعزز والتعلم الخاضع للإشراف وغير الخاضع للإشراف. يستخدم التعلم الخاضع للإشراف بيانات مصنفة يدويًا لتقديم تنبؤات أو تصنيفات. ويهدف التعلم غير الخاضع للإشراف إلى اكتشاف الأنماط الخفية من البيانات غير المصنفة وتعلمها. وعلى عكس التعلم الخاضع للإشراف، لا يستخدم التعلم المعزز أمثلة مصنفة للسلوك الصحيح أو الخاطئ. لكن التعلم المعزز يختلف أيضًا عن التعلم غير الخاضع للإشراف من حيث أن التعلم المعزز يتعلم من خلال التجربة والخطأ ودالة المكافأة بدلًا من استخراج معلومات الأنماط الخفية.2

تفترض أساليب التعلم الخاضع للإشراف وغير الخاضع للإشراف أن كل سجل من بيانات الإدخال مستقلًا عن السجلات الأخرى في مجموعة البيانات، إلا أن كل سجل يحقق نموذج توزيع بيانات أساسي مشترك. وتتعلم هذه الأساليب التنبؤ مع قياس أداء النموذج وفقًا لتعظيم دقة التنبؤ.

على النقيض من ذلك، يتعلم التعلم المعزز التصرف. فهو يفترض أن بيانات الإدخال عبارة عن مجموعات مترابطة-أي تسلسل مرتب من البيانات-منظمة على هيئة الحالة-الإجراء-المكافأة. ويهدف كثير من تطبيقات خوارزميات التعلم المعزز إلى محاكاة أساليب التعلم البيولوجي في الواقع من خلال التعزيز الإيجابي.

لاحظ أنه على الرغم من عدم مقارنة الاثنين كثيرًا في الأدبيات، فإن التعلم المعزز يختلف عن التعلم الخاضع للإشراف الذاتي أيضًا. التعلم الخاضع للإشراف الذاتي هو شكل من أشكال التعلم غير الخاضع للإشراف يستخدم وسوم زائفة مشتقة من بيانات التدريب غير المصنفة كحقيقة أساسية لقياس دقة النموذج. ولكن التعلم المعزز لا ينتج وسوم زائفة أو يقيس بناءً على حقيقة أساسية-فهو ليس أسلوب تصنيف، بل أسلوب للتعلم عن طريق اتخاذ الإجراءات. ومع ذلك، جرى دمج الأسلوبين وحققا نتائج واعدة.3

ألق نظرة على IBM watsonx

استكشف IBM watsonx وتعلّم كيفية إنشاء نماذج التعلم الآلي باستخدام مجموعات البيانات الإحصائية.

عملية التعلم المعزز

يتألف التعلم المعزز أساسًا من العلاقة بين وكيل وبيئة وهدف. وتتطرق الأدبيات إلى صياغة هذه العلاقة على نطاق واسع باستخدام عملية قرار Markov (MDP).

عملية قرار Markov

يعرف الوكيل في نظام التعلم المعزز عن المشكلة من خلال التفاعل مع بيئته. وتوفر البيئة معلومات عن حالتها الحالية. ثم يستخدم الوكيل هذه المعلومات لتحديد الإجراءات التي يجب اتخاذها. فإذا حصل ذلك الإجراء على إشارة مكافأة من البيئة المحيطة، يتم تشجيع الوكيل على اتخاذ هذا الإجراء مرة أخرى عندما يكون في حالة مستقبلية مماثلة. وتتكرر هذه العملية مع كل حالة جديدة بعد ذلك. وبمرور الوقت، يتعلم الوكيل من المكافآت والعقوبات اتخاذ إجراءات داخل البيئة تلبي هدفًا محددًا.4

في عمليات قرار Markov، يشير فضاء الحالة إلى جميع المعلومات التي توفرها حالة البيئة. بينما يشير فضاء الإجراء إلى جميع الإجراءات الممكنة التي يستطيع الوكيل اتخاذها ضمن حالة.5

مقايضة الاستكشاف والاستغلال

نظرًا لأن وكيل التعلم المعزز لا يمتلك بيانات إدخال مصنفة يدويًا توجه سلوكه، فإنه يجب عليه استكشاف بيئته وتجربة إجراءات جديدة لاكتشاف تلك التي تتلقى إشارات مكافأة. ومن خلال إشارات المكافأة هذه، يتعلم الوكيل تفضيل الإجراءات التي تمت مكافأته عليها بهدف تعظيم مكاسبه. ولكن يجب على الوكيل مواصلة استكشاف حالات وإجراءات جديدة أيضًا. وبذلك يمكنه استخدام تجربته السابقة في تحسين عملية اتخاذه للقرارات.

تتطلب خوارزميات التعلم المعزز من الوكيل أن يستغل معرفته بالحالات والإجراءات التي تمت مكافأته عليها سابقًا، بينما يستمر في استكشاف حالات وإجراءات أخرى. ولا يجوز أن يقتصر عمل الوكيل على الاستكشاف أو الاستغلال. بل يجب عليه باستمرار تجربة إجراءات جديدة مع تفضيل الإجراء الذي يحقق (أو سلاسل الإجراءات التي تحقق) أكبر مكافأة تراكمية.6

عناصر التعلم المعزز

إلى جانب الثالوث المكون من الوكيل والبيئة والهدف، توجد أربعة عناصر فرعية رئيسة تميز مشاكل التعلم المعزز.

- السياسة. تحدد السياسة سلوك وكيل التعلم المعزز من خلال ربط حالات البيئة المتصورة بالإجراءات المحددة التي يجب على الوكيل اتخاذها عندما يكون في تلك الحالات. ويمكن أن تأخذ شكل دالة بسيطة (بدائية) أو عملية حسابية أكثر تعقيدًا. فعلى سبيل المثال، قد ترسم سياسة توجيه مركبة ذاتية القيادة خريطة لاكتشاف المشاة من أجل اتخاذ إجراء التوقف.

- إشارة المكافأة. تُحدد إشارة المكافأة هدف مشكلة التعلم المعزز. وكل إجراء يتخذه وكيل التعلم المعزز إما يحصل على مكافأة من البيئة أو لا. والهدف الوحيد للوكيل هو زيادة مجموع المكافآت التي يحصل عليها من البيئة. وفيما يتعلق بالمركبات ذاتية القيادة، يمكن أن تكون إشارة المكافأة تقليل زمن الرحلة، أو تقليل التصادمات، أو البقاء على الطريق وفي المسار الصحيح، أو تجنب التباطؤ أو التسارع الشديد، وما إلى ذلك. ويُظهر هذا المثال أن التعلم المعزز قد يدمج إشارات مكافأة متعددة لتوجيه وكيل.

- دالة القيمة. تختلف إشارة المكافأة عن دالة القيمة في أن الأولى تشير إلى الميزة الفورية، بينما تشير الثانية إلى الميزة على المدى الطويل. وتشير القيمة إلى ستحسان حالة ما بناءً على جميع الحالات (مع المكافآت المترتبة عليها) التي من المرجح أن تتبعها. فعلى سبيل المثال، قد تتمكن مركبة ذاتية القيادة من تقليل زمن الرحلة عن طريق الخروج عن المسار، أو القيادة على الرصيف، أو التسارع باطراد، ولكن هذه الإجراءات الثلاثة قد تقلل من دالة القيمة الإجمالية. لذا، قد تختار المركبة بوصفها وكيل تعلم معزز قضاء وقت أطول قليلًا في الرحلة لزيادة مكافأتها في الجوانب الثلاثة السابقة.

- النموذج. يُعد النموذج عنصرًا فرعيًّا اختياريًّا في أنظمة التعلم المعزز. وتسمح النماذج للوكلاء بالتنبؤ بسلوك البيئة لاتخاذ الإجراءات الممكنة. ثم يستخدم الوكيل تنبؤات النموذج لتحديد مسارات العمل الممكنة بناءً على النتائج المحتملة. وقد يكون هذا النموذج هو الذي يوجه المركبة ذاتية القيادة ويساعدها في التنبؤ بأفضل المسارات وما يمكن توقعه من المركبات المحيطة بناءً على موقعها وسرعتها، وهكذا.7 وتستخدم بعض النُهُج القائمة على النموذج التعليقات البشرية المباشرة في مراحل التعلم الأولى ثم تنتقل إلى التعلم المستقل.

التعلم المتصل مقابل التعلم غير المتصل

هناك طريقتان عامتان يمكن للوكيل من خلالهما جمع البيانات لتعلم السياسات:

- التعلم المتصل. في هذه الطريقة يجمع الوكيل البيانات مباشرة من خلال التفاعل مع بيئته المحيطة. تجري معالجة هذه البيانات وجمعها بشكل تكراري بينما يستمر الوكيل في التفاعل مع تلك البيئة.

- التعلم غير المتصل. عندما لا يتاح للوكيل الوصول المباشر إلى البيئة، يمكنه التعلم من خلال البيانات المسجلة مسبقًا عن تلك البيئة. وهذا يُعرف بالتعلم غير المتصل. واتجهت مجموعة كبيرة من الأبحاث إلى التعلم غير المتصل نظرًا للصعوبات العملية في تدريب النماذج من خلال التفاعل المباشر مع البيئات.8

أنواع التعلم المعزز

التعلم المعزز هو أحد المجالات البحثية النابضة بالحياة والمتواصلة، ومن هذا المنطلق، أخرج المطورون نُهُجًا لا حصر لها للتعلم المعزز. غير أن هناك ثلاث أساليب مؤسِّسة نوقشت نقاشًا مستفيضًا وهي البرمجة الديناميكية ومونت كارلو والتعلم بالفارق الزمني.

البرمجة الديناميكية

تقسم البرمجة الديناميكية المهام الأكبر إلى مهام أصغر. وهكذا فإنها تجري نمذجة للمشاكل على أنها مهام سير عمل من القرارات المتتابعة المتخذة في خطوات زمنية منفصلة. ويُتخَذ كل قرار بناءً على الحالة التالية المحتملة الناتجة. وتُعرَّف مكافأة الوكيل (r) لإجراء معين بوصفها دالة لذلك الإجراء (a)، وحالة البيئة الحالية (s)، والحالة التالية المحتملة (s’):

يمكن استخدام دالة المكافأة هذه باعتبارها (جزء من) السياسة التي تحكم إجراءات الوكيل. وتُعَد مسألة تحديد السياسة المثلى لسلوك الوكيل عنصرًا رئيسًا لأساليب البرمجة الديناميكية للتعلم المعزز. وهنا تظهر معادلة Bellman في الصورة.

معادلة Bellman هي:

باختصار، تعرِّف هذه المعادلة vt(s) على أنها إجمالي المكافأة المتوقعة بدءًا من الزمن t وحتى نهاية سير العمل الخاص باتخاذ القرار. وتفترض المعادلة أن الوكيل يبدأ في حيازة الحالة s عند الزمن t. وتقسم المعادلة في النهاية المكافأة في الزمن t إلى المكافأة الفورية rt(s,a) (أي صيغة المكافأة) وإجمالي المكافأة المتوقعة للوكيل. وهكذا يعظم الوكيل دالة القيمة الخاصة به-كقيمة إجمالية لمعادلة Bellman-من خلال اختيار الإجراء الذي يحصل على إشارة مكافأة في كل حالة باستمرار.9

أسلوب مونت كارلو

تُعَد البرمجة الديناميكية برمجةً قائمة على النموذج، وهو ما يعني أنها تبني نموذجًا للبيئة المحيطة بها لتدرك المكافآت وتتعرف على الأنماط وتتنقل عبر البيئة. أما أسلوب مونت كارلو، فهو يفترض بيئة غير معروفة (صندوق أسود)، ما يجعلها غير معتمدة على نموذج.

في حين تتنبأ البرمجة الديناميكية بالحالات المستقبلية المحتملة وإشارات المكافأة عند اتخاذ القرارات، لا تعتمد أساليب مونت كارلو إلا على التجربة، وهو ما يعني أنها تجرب تسلسلات الحالات، والإجراءات، والمكافآت من خلال التفاعل مع البيئة فقط. وبالتالي تتعلم أساليب مونت كارلو من خلال التجربة والخطأ بدلًا من الاعتماد على التوزيعات الاحتمالية.

يكمن الاختلاف بين أسلوب مونت كارلو والبرمجة الديناميكية في تحديد دالة القيمة، حيث تسعى البرمجة الديناميكية إلى تحقيق أكبر مكافأة تراكمية من خلال اختيار الإجراءات التي تحقق المكافآت بشكل مستمر في الحالات المتتابعة. وفي المقابل، يعتمد أسلوب مونت كارلو على حساب متوسط العوائد لكل زوج من الحالة والإجراء. وهذا بدوره يعني أن أسلوب مونت كارلو يجب أن ينتظر حتى الانتهاء من جميع الإجراءات في حدث معين (أو أفق تخطيط) قبل حساب دالة القيمة الخاصة به، ثم يُحدث سياسته.10

التعلم بالفارق الزمني

تصف الأدبيات العلمية على نطاق واسع التعلم بالفارق الزمني (TD) على أنه مزيج من البرمجة الديناميكية وأسلوب مونت كارلو. كما هو الحال فيما ذكرناه سابقًا، يحدِّث التعلم بالفارق الزمني سياسته، وبالتالي يقدر الحالات المستقبلية، بعد كل خطوة دون انتظار القيمة النهائية. ولكن كما هو الحال في أسلوب مونت كارلو، يتعلم التعلم بالفارق الزمني من خلال التفاعل المباشر مع بيئته بدلًا من استخدام نموذج لها.11

وفقًا لاسمه، يراجع وكيل التعلم بالفارق الزمني سياسته بناءً على الفارق بين المكافآت المتوقعة وتلك الفعلية المستلمة في كل حالة. بمعنى آخر، بينما لا تأخذ البرمجة الديناميكية وأسلوب مونت كارلو في الاعتبار إلا المكافآت المستلمة، يزن التعلم بالفارق الزمني الفارق بين توقعاته والمكافآت المستلمة. وباستخدام هذا الفارق، يحدِّث الوكيل تقديراته للخطوة التالية بدون الانتظار حتى نهاية أفق التخطيط للحدث، خلافًا لأسلوب مونت كارلو.12

يتضمن التعلم بالفارق الزمني كثير من المتغيرات. هناك متغيران بارزان وهما خوارزمية الحالة–الإجراء–المكافأة–الحالة–الإجراء (SARSA) وخوارزمية Q-learning. تُعَد SARSA طريقة تعلم بالفارق الزمني قائمة على السياسة المتبعة، مما يعني أنها تقيم السياسة التي تحكم قراراتها وتحاول تحسينها. أما Q-learning فهي طريقة تعتمد على سياسة غير متبعة (Off-policy). والطرق المعتمدة على سياسة غير متبعة هي تلك التي تستخدم سياستين: واحدة للاستغلال (سياسة الهدف) وأخرى للاستكشاف لتوليد سلوك (سياسة السلوك).13

الأساليب الإضافية

توجد أساليب إضافية لا حصر لها للتعلم المعزز. البرمجة الديناميكية هي أسلوب مستند إلى القيمة، وهو ما يعني أنها تختار الإجراءات بناءً على قيمها المقدرة وفقًا لسياسة تهدف إلى تعظيم دالة القيمة الخاصة بها. في المقابل، تتعلم أساليب التدرج السياسي سياسة مُعلمات يمكنها اختيار الإجراءات دون الرجوع إلى دالة القيمة. وتُعرف هذه الأساليب بأنها مستندة إلى السياسة وتُعتبر أكثر فعالية في البيئات عالية الأبعاد.14

تستخدم أساليب الممثل-الناقد كلًا من المستندة إلى القيمة والمستندة إلى السياسة. ما يُسمى بـ "الممثل" هو تدرج سياسة يحدد الإجراءات التي يجب اتخاذها، بينما "الناقد" هو دالة قيمة لتقييم الإجراءات. وتُعَد أساليب الممثل-الناقد في جوهرها شكلًا من أشكال التعلم بالفارق الزمني (TD). وبشكل أكثر تحديدًا، يقيم أسلوب الممثل-الناقد قيمة إجراء محدد ليس فقط بناءً على مكافأته ولكن أيضًا على القيمة المحتملة للحالة التالية، والتي يُضيفها إلى مكافأة الإجراء. وتتمثل ميزة أسلوب الممثل-الناقد في أنها، نظرًا لتطبيقها لدالة القيمة والسياسة في اتخاذ القرارات، تتطلب تفاعلًا أقل مع البيئة على نحو فعَّال.15

أمثلة على التعلم المعزز
التشغيل الآلي

نظرًا لأن التعلم المعزز يركز بشكل أساسي على اتخاذ القرارات في بيئات يتعذر التنبؤ بأحداثها، فقد أصبح جانبًا رئيسًا من جوانب الاهتمام في مجال التشغيل الآلي. وفيما يخص إنجاز المهام البسيطة والمتكررة، فقد يتم اتخاذ القرار بشكل مباشر. ولكن المهام الأكثر تعقيدًا، مثل محاولة محاكاة السلوك البشري أو أتمتة قيادة، فإن ذلك يتطلب التفاعل مع بيئات واقعية متقلبة وعالية التباين. وأظهرت الأبحاث أن التعلم المعزز العميق باستخدام الشبكات العصبية العميقة يُساعد في مثل هذه المهام، لا سيّما فيما يتعلق بالتعميم وترجمة المدخلات الحسية عالية الأبعاد إلى مخرجات أنظمة محكومة. 16 كما تشير الدراسات إلى أن التعلم المعزز العميق باستخدام الروبوتات يعتمد بشكل كبير على مجموعات البيانات المجمعة، ولذلك تستكشف الأبحاث الحديثة سبل جمع البيانات من العالم الواقعي17 وإعادة استخدام البيانات السابقة18 لتحسين أنظمة التعلم المعزز.

معالجة اللغة الطبيعية

تشير الأبحاث الحديثة إلى أن الاستفادة من تقنيات معالجة اللغة الطبيعية وأدواتها-على سبيل المثال: النماذج اللغوية الكبيرة (LLMs)-قد تسهم في تحسين عملية التعميم في أنظمة التعلم المعزز من خلال التمثيل النصي للبيئات الواقعية.19 أظهرت العديد من الدراسات كيف توفر البيئات النصية التفاعلية بدائل فعّالة من حيث التكلفة مقارنةً بالبيئات ثلاثية الأبعاد عند توجيه وكلاء التعلم في مهام اتخاذ القرارات المتتابعة.20 كما يدعم التعلم المعزز العميق اتخاذ القرارات النصية في روبوتات المحادثة. وفي الواقع، يتفوق التعلم المعزز على الأساليب الأخرى في تحسين استجابات المحادثة الآلية.21

موارد ذات الصلة اكتشف Granite LLM من IBM

Granite هي سلسلة IBM الرائدة من نماذج LLM الأساسية التي تعتمد على بنية المحول المدعومة بآلية فك التشفير فقط. حيث يتم تدريب نماذج Granite اللغوية على بيانات المؤسسات الموثوقة التي تشمل الإنترنت والبيانات الأكاديمية والتعليمات البرمجية والبيانات القانونية والمالية.

تدريب وكيل برمجي باستخدام التعلم المعزز

استخدم التعلم المعزز لتحديد إجراءات لحالات داخل بيئة معينة وتدريب وكيل ليتصرف بشكل منطقي.

أنواع التعلم الآلي الخمسة

تعرّف على التعلم المعزز بالمقارنة مع أنواع أخرى من التعلم الآلي.

الحواشي

1 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

2 Peter Stone, “Reinforcement Learning,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

3 Xiang Li, Jinghuan Shang, Srijan Das, Michael Ryoo, "Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels?" Advances in Neural Information Processing Systems, Vol. 35, 2022, pp. 30865-30881, https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html (link resides outside ibm.com).

4 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.

5 Brandon Brown and Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.

6 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.
Brandon Brown and Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.

7 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Yogamani, and Patrick Pérez, "Deep Reinforcement Learning for Autonomous Driving: A Survey," IEEE Transactions on Intelligent Transportation Systems, Vol. 23, No. 6, 2022, pp. 4909-4926, https://ieeexplore.ieee.org/document/9351818 (link resides outside ibm.com).

8 Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu, "Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems," 2020, https://arxiv.org/abs/2005.01643 (link resides outside ibm.com). Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou, and David Silver, "Online and Offline Reinforcement Learning by Planning with a Learned Model," Advances in Neural Information Processing Systems, Vol. 27580-27591, https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html (link resides outside ibm.com).

9 Martin Puterman and Jonathan Patrick, “Dynamic Programming,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

10 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. Phil Winder, Reinforcement Learning: Industrial Applications of Intelligent Agents, O’Reilly, 2020.

11 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.

12 Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.

13 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.

14 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.

15 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.

16 Julian Ibarz, Jie Tan, Chelsea Finn, Mrinal Kalakrishnan, Peter Pastor, and Sergey Levine, "How to train your robot with deep reinforcement learning: lessons we have learned," The International Journal of Robotics Research, Vol. 40, 2021, pp. 969-721, https://journals.sagepub.com/doi/full/10.1177/0278364920987859 (link resides outside ibm.com).

17 Saminda Wishwajith Abeyruwan, Laura Graesser, David B D’Ambrosio, Avi Singh, Anish Shankar, Alex Bewley, Deepali Jain, Krzysztof Marcin Choromanski, and Pannag R Sanketi, "i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops," Proceedings of The 6th Conference on Robot Learning, PMLR, No. 205, 2023, pp. 212-224, https://proceedings.mlr.press/v205/abeyruwan23a.html (link resides outside ibm.com).

18 Homer Rich Walke, Jonathan Heewon Yang, Albert Yu, Aviral Kumar, Jędrzej Orbik, Avi Singh, and Sergey Levine, "Don’t Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning," Proceedings of The 6th Conference on Robot Learning, PMLR, No. 205, 2023, 1652-1662, https://proceedings.mlr.press/v205/walke23a.html (link resides outside ibm.com).

19 Nikolaj Goodger, Peter Vamplew, Cameron Foale, and Richard Dazeley, "Language Representations for Generalization in Reinforcement Learning," Proceedings of The 13th Asian Conference on Machine Learning, PMLR, No. 157, 2021, pp. 390-405, https://proceedings.mlr.press/v157/goodger21a.html (link resides outside ibm.com). Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta, and Jacob Andreas, "Guiding Pretraining in Reinforcement Learning with Large Language Models," Proceedings of the 40th International Conference on Machine Learning, PMLR, No. 202, 2023, pp. 8657-8677, https://proceedings.mlr.press/v202/du23f.html (link resides outside ibm.com). Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh, and Roy Fox, "Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling," Proceedings of the 40th International Conference on Machine Learning, PMLR, 202, 2023, pp. 26311-26325, https://proceedings.mlr.press/v202/nottingham23a.html (link resides outside ibm.com).

20 Ruoyao Wang and Peter Jansen and Marc-Alexandre Côté and Prithviraj Ammanabrolu, "ScienceWorld: Is your Agent Smarter than a 5th Grader?" Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, pp. 11279-11298, https://aclanthology.org/2022.emnlp-main.775/ (link resides outside ibm.com). Peter Jansen, "A Systematic Survey of Text Worlds as Embodied Natural Language Environments," Proceedings of the 3rd Wordplay: When Language Meets Games Workshop, 2022, pp. 1-15, https://aclanthology.org/2022.wordplay-1.1 (link resides outside ibm.com).

21 Paloma Sodhi, Felix Wu, Ethan R. Elenberg, Kilian Q Weinberger, and Ryan Mcdonald, "On the Effectiveness of Offline RL for Dialogue Response Generation," Proceedings of the 40th International Conference on Machine Learning, PMLR, No. 202, 2023, pp. 32088-32104, https://proceedings.mlr.press/v202/sodhi23a.html (link resides outside ibm.com). Siddharth Verma, Justin Fu, Sherry Yang, and Sergey Levine, "CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning," Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, pp. 4471-4491, https://aclanthology.org/2022.naacl-main.332/ (link resides outside ibm.com).