ما التعلّم المعزز؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

ما المقصود بالتعلم المعزز؟

التعلم المعزز (RL) هو نوع من عمليات التعلم الآلي يتعلم فيها الوكلاء المستقلون اتخاذ القرارات من خلال التفاعل مع بيئتهم.

والوكيل المستقل هو أي نظام يمكنه اتخاذ القرارات والتفاعل مع بيئته دون الحاجة إلى توجيه مباشر من المستخدم البشري. ومن الأمثلة على الوكلاء المستقلين الروبوتات والسيارات ذاتية القيادة.

في التعلم المعزز، يتعلم الوكلاء المستقلون أداء المهام عن طريق التجربة والخطأ من دون أي توجيه من المستخدم البشري. ¹ حيث يعالج بشكل خاص مشكلات اتخاذ القرارات المتسلسلة في بيئات غير مستقرة، وينذر بمستقبل واعد في مجال تطوير الذكاء الاصطناعي.

التعلم الخاضع للإشراف وغير الخاضع للإشراف

غالبًا ما تقارن الأدبيات بين التعلم المعزز والتعلم الموجّه وغير الموجّه. يستخدم التعلم الموجّه بيانات مصنفة يدويًا لإجراء تنبؤات أو تصنيفات. ويهدف التعلم غير الموجّه إلى اكتشاف الأنماط الخفية من البيانات غير المصنفة وتعلمها. وعلى عكس التعلم الموجّه، لا يستخدم التعلم المعزز أمثلة مصنفة للسلوك الصحيح أو الخاطئ. لكن التعلم المعزز يختلف كذلك عن التعلم غير الموجّه، إذ إن التعلم المعزز يتعلم من خلال التجربة والخطأ ودالة المكافأة وليس من خلال استخراج معلومات الأنماط الخفية.²

تفترض أساليب التعلم الخاضع للإشراف وغير الخاضع للإشراف أن كل سجل من بيانات الإدخال مستقلًا عن السجلات الأخرى في مجموعة البيانات، إلا أن كل سجل يحقق نموذج توزيع بيانات أساسي مشترك. وتتعلم هذه الأساليب التنبؤ مع قياس أداء النموذج وفقًا لتعظيم دقة التنبؤ.

على النقيض من ذلك، يتعلم التعلم المعزز التصرف. فهو يفترض أن بيانات الإدخال عبارة عن مجموعات مترابطة-أي تسلسل مرتب من البيانات-منظمة على هيئة الحالة-الإجراء-المكافأة. ويهدف كثير من تطبيقات خوارزميات التعلم المعزز إلى محاكاة أساليب التعلم البيولوجي في الواقع من خلال التعزيز الإيجابي.

لاحظ أنه على الرغم من عدم المقارنة بينهما كثيرًا في الأدبيات، إلا إن التعلم المعزز يختلف عن التعلم ذاتي التوجيه أيضًا. التعلم ذاتي التوجيه هو شكل من أشكال التعلم غير الموجّه يستخدم تسميات زائفة مستمدة من بيانات التدريب غير المصنفة بوصفها البيانات الصحيحة لقياس مدى دقة النماذج. ولكن التعلم المعزز لا ينتج تسميات زائفة أو يقيس بناءً على البيانات الصحيحة - فهو ليس أسلوب تصنيف، بل هو نموذج من نماذج التعلم يهتم باتخاذ الإجراءات. ومع ذلك، اشترك كلاهما في تحقيق نتائج واعدة.³

الرسالة الإخبارية الخاصة بالمجال

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

عملية التعلم المعزز

يتألف التعلم المعزز أساسًا من العلاقة بين وكيل وبيئة وهدف. وتتطرق الأدبيات إلى صياغة هذه العلاقة على نطاق واسع باستخدام عملية قرار Markov (MDP).

عملية قرار Markov

يتعرف الوكلاء في نظام التعلم المعزز على المشاكل من خلال التفاعل مع بيئتهم. وتوفر البيئة معلومات عن حالتها الحالية. ثم يستخدم الوكيل هذه المعلومات لتحديد الإجراءات التي ينبغي اتخاذها. فإذا حصل ذلك الإجراء على إشارة مكافأة من البيئة المحيطة، يحصل الوكيل على تأكيد لاتخاذ هذا الإجراء مرة أخرى عند حدوث حالة مماثلة في المستقبل. وتتكرر هذه العملية مع كل حالة جديدة بعد ذلك. وبمرور الوقت، يتعلم الوكيل من المكافآت والعقوبات اتخاذ إجراءات داخل البيئة تُلبي هدفًا محددًا.⁴

في عمليات قرارات Markov، يشير فضاء الحالات إلى جميع المعلومات التي توفرها حالة البيئة. يشير فضاء الإجراءات إلى جميع الإجراءات الممكنة التي قد يتخذها الوكيل في مختلف الحالات.⁵

مقايضة الاستكشاف والاستغلال

نظرًا لأن وكيل التعلم المعزز لا يمتلك بيانات إدخال مصنفة يدويًا توجه سلوكه، فإنه يجب عليه استكشاف بيئته وتجربة إجراءات جديدة لاكتشاف تلك التي تتلقى إشارات مكافأة. ومن خلال إشارات المكافأة هذه، يتعلم الوكيل تفضيل الإجراءات التي تمت مكافأته عليها بهدف تعظيم مكاسبه. ولكن يجب على الوكيل مواصلة استكشاف حالات وإجراءات جديدة أيضًا. وبذلك يمكنه استخدام تجربته السابقة في تحسين عملية اتخاذه للقرارات.

تطلب خوارزميات التعلم المعزز من الوكيل أن يستغل معرفته بالحالات والإجراءات التي حصلت على إشارة مكافأة سابقًا، بينما يستمر في استكشاف حالات وإجراءات أخرى. ولا يجوز أن يقتصر عمل الوكيل على الاستكشاف أو الاستغلال. بل لابد أن يواصل تجربة إجراءات جديدة وتفضيل إجراء واحد (أو سلاسل من الإجراءات) يحقق أكبر مكافأة تراكمية.⁶

عناصر التعلم المعزز

إلى جانب الثالوث المكون من الوكيل والبيئة والهدف، توجد أربعة عناصر فرعية رئيسة تميز مشاكل التعلم المعزز.

- السياسة. تحدد السياسة سلوك وكيل التعلم المعزز من خلال ربط حالات البيئة المتصورة بالإجراءات المحددة التي يجب على الوكيل اتخاذها عندما يكون في تلك الحالات. ويمكن أن تأخذ شكل دالة بسيطة (بدائية) أو عملية حسابية أكثر تعقيدًا. فعلى سبيل المثال، قد ترسم سياسة توجيه مركبة ذاتية القيادة خريطة لاكتشاف المشاة من أجل اتخاذ إجراء التوقف.

- إشارة المكافأة. تُحدد إشارة المكافأة هدف مشكلة التعلم المعزز. وكل إجراء يتخذه وكيل التعلم المعزز إما يحصل على مكافأة من البيئة أو لا. والهدف الوحيد للوكيل هو زيادة مجموع المكافآت التي يحصل عليها من البيئة. وفيما يتعلق بالمركبات ذاتية القيادة، يمكن أن تكون إشارة المكافأة تقليل زمن الرحلة، أو تقليل التصادمات، أو البقاء على الطريق وفي المسار الصحيح، أو تجنب التباطؤ أو التسارع الشديد، وما إلى ذلك. ويُظهر هذا المثال أن التعلم المعزز قد يدمج إشارات مكافأة متعددة لتوجيه وكيل.

- دالة القيمة. تختلف إشارة المكافأة عن دالة القيمة في أن الأولى تشير إلى الميزة الفورية، بينما تشير الثانية إلى الميزة على المدى الطويل. وتشير القيمة إلى ستحسان حالة ما بناءً على جميع الحالات (مع المكافآت المترتبة عليها) التي من المرجح أن تتبعها. فعلى سبيل المثال، قد تتمكن مركبة ذاتية القيادة من تقليل زمن الرحلة عن طريق الخروج عن المسار، أو القيادة على الرصيف، أو التسارع باطراد، ولكن هذه الإجراءات الثلاثة قد تقلل من دالة القيمة الإجمالية. لذا، قد تختار المركبة بوصفها وكيل تعلم معزز قضاء وقت أطول قليلًا في الرحلة لزيادة مكافأتها في الجوانب الثلاثة السابقة.

- نموذج. يُعد النموذج عنصرًا فرعيًّا اختياريًّا في أنظمة التعلم المعزز. وتسمح النماذج للوكلاء بالتنبؤ بسلوك البيئة لاتخاذ الإجراءات الممكنة. ثم يستخدم الوكيل تنبؤات النموذج لتحديد مسارات العمل الممكنة بناءً على النتائج المحتملة. وقد يكون هذا النموذج هو الذي يوجه السيارة ذاتية القيادة ويساعدها على التنبؤ بأفضل المسارات وتوقع سلوكيات السيارات المحيطة بناءً على موقعها وسرعتها، وما إلى ذلك.⁷ وتستخدم بعض الطرق القائمة على النماذج التعليقات البشرية المباشرة في مراحل التعلم الأولى ثم تنتقل إلى التعلم الذاتي.

التعلم المتصل مقابل التعلم غير المتصل

هناك طريقتان عامتان يمكن للوكيل من خلالهما جمع البيانات لتعلم السياسات:

- التعلم المتصل. في هذه الطريقة يجمع الوكيل البيانات مباشرة من خلال التفاعل مع بيئته المحيطة. تجري معالجة هذه البيانات وجمعها بشكل تكراري بينما يستمر الوكيل في التفاعل مع تلك البيئة.

- غير متصل. عندما لا يُتاح للوكيل إمكانية الوصول المباشر إلى البيئة، يمكنه التعلم من خلال البيانات المسجلة مسبقًا عن تلك البيئة. وهذا يُعرف بالتعلم غير المتصل. لجأت مجموعة كبيرة من الأبحاث إلى التعلم غير المتصل نظرًا إلى الصعوبات العملية في تدريب النماذج من خلال التفاعل المباشر مع البيئات.⁸

أنواع التعلم المعزز

التعلم المعزز هو أحد المجالات البحثية النابضة بالحياة والمتواصلة، ومن هذا المنطلق، أخرج المطورون نُهُجًا لا حصر لها للتعلم المعزز. غير أن هناك ثلاث أساليب مؤسِّسة نوقشت نقاشًا مستفيضًا وهي البرمجة الديناميكية ومونت كارلو والتعلم بالفارق الزمني.

البرمجة الديناميكية

تقسم البرمجة الديناميكية المهام الأكبر إلى مهام أصغر. وهكذا فإنها تجري نمذجة للمشاكل على أنها مهام سير عمل من القرارات المتتابعة المتخذة في خطوات زمنية منفصلة. ويُتخَذ كل قرار بناءً على الحالة التالية المحتملة الناتجة. وتُعرَّف مكافأة الوكيل (r) لإجراء معين بوصفها دالة لذلك الإجراء (a)، وحالة البيئة الحالية (s)، والحالة التالية المحتملة (s’):

يمكن استخدام دالة المكافأة هذه باعتبارها (جزء من) السياسة التي تحكم إجراءات الوكيل. وتُعَد مسألة تحديد السياسة المثلى لسلوك الوكيل عنصرًا رئيسًا لأساليب البرمجة الديناميكية للتعلم المعزز. وهنا تظهر معادلة Bellman في الصورة.

معادلة Bellman هي:

باختصار، تُعرِّف هذه المعادلة v_t(s) على أنها إجمالي المكافأة المتوقعة بدءًا من فترة زمنية معينة ورمزها t وحتى نهاية سير عمل اتخاذ القرارات. وتفترض المعادلة أن الوكيل يبدأ في الحالة ورمزها s في فترة زمنية معينة t. وتقسم المعادلة في النهاية المكافأة في فترة زمنية معينة t إلى المكافأة الفورية r_t(s,a) (وهي صيغة المكافأة) وإجمالي المكافأة المتوقعة للوكيل. وهكذا يعمل الوكيل على زيادة دالة قيمته - التي تمثل القيمة الإجمالية لمعادلة Bellman - من خلال اختيار الإجراء الذي يحصل على إشارة مكافأة في كل حالة دائمًا.⁹

أسلوب مونت كارلو

تُعَد البرمجة الديناميكية برمجةً قائمة على النموذج، وهو ما يعني أنها تُنشئ نموذجًا للبيئة المحيطة بها لتوقع المكافآت وتحديد الأنماط والتنقل عبر البيئة. أما أسلوب Monte Carlo، فهو يفترض بيئة غير معروفة (صندوق أسود)، ما يجعلها غير معتمدة على نموذج.

في حين تتنبأ البرمجة الديناميكية بالحالات المستقبلية المحتملة وإشارات المكافأة عند اتخاذ القرارات، لا تعتمد أساليب مونت كارلو إلا على التجربة، وهو ما يعني أنها تجرب تسلسلات الحالات، والإجراءات، والمكافآت من خلال التفاعل مع البيئة فقط. وبالتالي تتعلم أساليب مونت كارلو من خلال التجربة والخطأ بدلًا من الاعتماد على التوزيعات الاحتمالية.

يكمن الاختلاف بين أسلوب Monte Carlo والبرمجة الديناميكية في تحديد دالة القيمة. حيث تسعى البرمجة الديناميكية إلى تحقيق أكبر مكافأة تراكمية من خلال اختيار الإجراءات التي تحصل على المكافآت بشكل مستمر في الحالات المتتابعة. وفي المقابل، يعتمد أسلوب Monte Carlo على حساب متوسط العوائد لكل زوج من الحالات والإجراءات. ومن ثَم هذا يعني أن أسلوب Monte Carlo لا بُد أن ينتظر حتى الانتهاء من كافة الإجراءات في حدث معين (أو أفق تخطيط) قبل حساب دالة القيمة الخاصة به، ثم يُحدّث سياسته.¹⁰

التعلم بالفارق الزمني

تصف الأدبيات التعلم بالفارق الزمني (TD) بشكل عام على أنه مزيج من البرمجة الديناميكية وأسلوب Monte Carlo. كما هو الحال فيما ذكرناه سابقًا، يٌحدِّث التعلم بالفارق الزمني سياسته، ومن ثَم تقديرات الحالات المستقبلية، بعد كل خطوة من دون انتظار القيمة النهائية. وكما هو الحال في أسلوب Monte Carlo، يتعلم نظام التعلم بالفارق الزمني من خلال التفاعل المباشر مع بيئته بدلاً من الاعتماد على النماذج.¹¹

كما هو واضح من اسمه، يراجع وكيل التعلم بالفارق الزمني سياسته بناءً على الفارق بين المكافآت المتوقعة والمكافآت الفعلية المستلمة في كل حالة. بمعنى آخر، بينما لا تهتم البرمجة الديناميكية وأسلوب Monte Carlo إلا بالمكافآت المستلمة، يُقدّر التعلم بالفارق الزمني الفارق بين توقعاته والمكافآت المستلمة. وباستخدام هذا الفارق، يُحدِّث الوكيل تقديراته للخطوة التالية من دون الانتظار حتى نهاية أفق التخطيط للحدث، على عكس أسلوب Monte Carlo.¹²

يتضمن التعلم بالفارق الزمني كثيرًا من المتغيرات. يوجد متغيران بارزان وهما خوارزمية الحالة–الإجراء–المكافأة–الحالة–الإجراء (SARSA) وخوارزمية Q-learning. تُعَد خوارزمية SARSA طريق من طرق التعلم بالفارق الزمني قائمة على السياسة المتبعة، ما يعني أنها تُقيّم السياسة التي تتحكم في قراراتها وتحاول تحسينها. أما خوارزمية Q-learning فهي طريقة غير معتمدة على السياسة المتبعة (Off-policy). الطرق غير المعتمدة على السياسة المتبعة هي تلك التي تستخدم سياستين: واحدة للاستغلال (سياسة الهدف) وأخرى للاستكشاف لإنشاء سلوك (سياسة السلوك).¹³

الأساليب الإضافية

توجد طرق إضافية لا حصر لها للتعلم المعزز. البرمجة الديناميكية هي أسلوب مستند إلى القيمة، وهو ما يعني أنها تختار الإجراءات بناءً على قيمها المقدرة وفقًا لسياسة تهدف إلى زيادة دالة القيمة الخاصة بها. في المقابل، تتعلم أساليب الاشتقاق السياسي سياسة مُعلمات يمكنها اختيار الإجراءات من دون الرجوع إلى دالة القيمة. وتُعرف هذه الأساليب بأنها مستندة إلى السياسة ويُعتقد بأنها أكثر فعالية في البيئات مرتفعة الأبعاد.¹⁴

تستخدم أساليب الفاعل والناقد كلاً من الأساليب المستندة إلى القيمة وتلك المستندة إلى السياسة. ما يُسمى بأسلوب "الفاعل" هو أسلوب اشتقاق سياسي يحدد الإجراءات التي ينبغي اتخاذها، بينما أسلوب "الناقد" هو أسلوب قائم على دالة القيمة في تقييم الإجراءات. وتُعَد أساليب الفاعل والناقد في جوهرها شكلاً من أشكال التعلم بالفارق الزمني (TD). وبشكل أكثر تحديدًا، يُقيّم أسلوب الفاعل والناقد قيمة إجراء محدد ليس فقط بناءً على مكافأته ولكن أيضًا على القيمة المحتملة للحالة التالية، والتي يُضيفها إلى مكافأة الإجراء. وتتمثل ميزة أسلوب الفاعل والناقد في أنها، نظرًا إلى تطبيقها لدالة القيمة والسياسة في اتخاذ القرارات، فإنها تتطلب تقليل التفاعل مع البيئة بشكل فعال.¹⁵

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

شاهد جميع حلقات برنامج Mixture of Experts

أمثلة على التعلم المعزز

التشغيل الآلي

نظرًا إلى أن التعلم المعزز يركز بشكل أساسي على اتخاذ القرارات في بيئات يصعب التنبؤ بأحداثها، فقد أصبح جانبًا رئيسًا من جوانب الاهتمام في مجال الروبوتات. وفيما يخص إنجاز المهام البسيطة والمتكررة، فقد تكون عملية اتخاذ القرارات عملية مباشرة. أما بالنسبة إلى المهام الأكثر تعقيدًا، مثل محاولات محاكاة السلوك البشري أو أتمتة القيادة، فإن ذلك يتطلب التفاعل مع بيئات واقعية متقلبة وسريعة التغير. تُظهر الأبحاث أن التعلم المعزز العميق باستخدام الشبكات العصبية العميقة يساعد في مثل هذه المهام، خاصةً فيما يتعلق بالتعميم وتعيين المدخلات الحسية عالية الأبعاد لمخرجات الأنظمة المتحكم فيها. ¹⁶ تشير الدراسات إلى أن التعلم المعزز العميق باستخدام الروبوتات يعتمد بشكل كبير على مجموعات البيانات المجمعة، ولذا فإن أحدث الأبحاث تستكشف طرق جمع البيانات الواقعية¹⁷ وإعادة استخدام البيانات السابقة 18 لتحسين أنظمة التعلم المعزز.

معالجة اللغة الطبيعية

تشير الأبحاث الحديثة إلى أن الاستفادة من تقنيات معالجة اللغة الطبيعية وأدواتها-على سبيل المثال: النماذج اللغوية الكبرى (LLMs) - قد تعمل على تحسين التعميم في أنظمة التعلم المعزز من خلال التمثيل النصي للبيئات الواقعية.¹⁹ تُظهر العديد من الدراسات مدى توفير البيئات النصية التفاعلية لبدائل ميسورة التكلفة للبيئات ثلاثية الأبعاد عند توجيه وكلاء التعلم في مهام اتخاذ القرارات المتتالية.²⁰ كما يعزز التعلم المعزز العميق عملية اتخاذ القرارات النصية في روبوتات المحادثة. وفي الواقع، يتفوق التعلم المعزز على الأساليب الأخرى في تحسين استجابات محادثات روبوتات الدردشة.²¹

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

الموارد

طوِّر مستوى خبرتك في التعلم الآلي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

التفعيل المثمر للذكاء الاصطناعي: جني الأرباح وعائد الاستثمار باستخدام الذكاء الاصطناعي التوليدي

هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

استكشف IBM Granite

IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.

كيف تزدهر في عصر الذكاء الاصطناعي الجديد بثقة وثبات

تعمّق في العناصر الثلاثة الهامة لاستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.

تقرير AI in Action

لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai

حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي

الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي

اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai

احجز عرضًا توضيحيًا مباشرًا