يشكِّل التعلم الآلي العمود الفقري لأنواع مختلفة من تعلُّم وكيل الذكاء الاصطناعي. وهو يمكِّن الوكلاء من تحديد الأنماط ووضع التوقعات وتحسين الأداء استنادًا إلى البيانات.
التقنيات الثلاث الأساسية في التعلم الآلي التي تُستخدم في وكلاء الذكاء الاصطناعي هي التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم المعزز. بشكل أكثر تحديدًا، تُعَد هذه تقنيات تعلُّم عميق تستخدم شبكات عصبية معقدة متعددة الطبقات لمعالجة كميات هائلة من البيانات وتعلُّم أنماط دقيقة.
التعلم تحت الإشراف
يتضمن التعلم الخاضع للإشراف تدريب خوارزميات التعلم الآلي على مجموعات بيانات مصنَّفة، حيث يتوافق كل إدخال مع ناتج معروف. يستخدم الوكيل هذه المعلومات لإنشاء نماذج تنبؤية.
على سبيل المثال، يمكن تدريب روبوت المحادثة المدعوم بالذكاء الاصطناعي على محادثات خدمة العملاء والحلول المقابلة لتقديم ردود متوقعة. يتم استخدام هذا النهج على نطاق واسع في التعرُّف على الصور، وتحويل الصوت إلى نص، والتشخيص الطبي.
يُتيح التعلم بالنقل لوكلاء الذكاء الاصطناعي استخدام المعرفة المكتسبة من مهمة واحدة وتطبيقها على مهمة أخرى. على سبيل المثال، يمكن ضبط نموذج لغوي كبير تم تدريبه على مجموعة بيانات عامة لمجال محدد، مثل معالجة النصوص القانونية أو الطبية.
تعليم دون إشراف
على النقيض من ذلك، يسمح التعلم غير الخاضع للإشراف لوكلاء الذكاء الاصطناعي بإجراء تحليل البيانات غير المصنَّفة للعثور على الأنماط والهياكل دون إشراف بشري.
هذه الطريقة مفيدة في مهام مثل تجميع سلوك العملاء لتحسين الاستراتيجية التسويقية، واكتشاف الحالات الشاذة في الأمن الإلكتروني وأنظمة التوصيات مثل تلك المستخدمة في خدمات البث المباشر.
يستخدم التعلم الخاضع للإشراف الذاتي تقنيات التعلم غير الخاضع للإشراف لتنفيذ مهام تتطلب عادةً تعلُّمًا خاضعًا للإشراف. بدلاً من الاعتماد على مجموعات البيانات المصنَّفة لإشارات الإشراف، تعمل نماذج الذكاء الاصطناعي الخاضعة للإشراف الذاتي على توليد تسميات ضمنية من بيانات غير منظمة.
يُعَد التعلم الذاتي مفيدًا في مجالات مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP)، والتي تتطلب كميات كبيرة من بيانات التدريب المصنَّفة.
تعزيز التعلم
التعلم المعزز هو عملية في التعلم الآلي تركِّز على سير عمل اتخاذ القرار لدى الوكلاء المستقلين. وهو يركِّز على عمليات اتخاذ القرار المتسلسلة في بيئات تتسم بعدم اليقين.
وعلى عكس التعلم الخاضع للإشراف، لا يستخدم التعلم المعزز أمثلة مصنَّفة للسلوك الصحيح أو الخاطئ. لكن التعلم المعزز يختلف كذلك عن التعلم غير الخاضع للإشراف، إذ إن التعلم المعزز يتعلم من خلال التجربة والخطأ ووظيفة المكافأة وليس من خلال استخراج معلومات الأنماط الخفية.2يختلف التعلم المعزز أيضًا عن التعلم الخاضع للإشراف الذاتي، لأنه لا يُنتج تسميات شبه حقيقية ولا يُقارَن بحقيقة مرجعية؛ فهو ليس أسلوب تصنيف بل أسلوب تعلُّم قائمًا على اتخاذ الأفعال.
يعتمد وكلاء الذكاء الاصطناعي الذين يستخدمون التعلم المعزز على أسلوب التجربة والخطأ، حيث يتخذون إجراءات داخل بيئة معينة، ويراقبون النتائج، ثم يضبطون استراتيجياتهم بناءً على ذلك. تتضمن عملية التعلم تحديد سياسة تربط الحالات بالإجراءات، وتحقيق الاستفادة القصوى من المكافآت التراكمية على المدى الطويل بدلًا من المكاسب الفورية.
بمرور الوقت، يتمكَّن الوكيل من تحسين قدراته في صناعة القرار من خلال التفاعلات المتكررة، ما يؤدي إلى تحسين قدرته على أداء المهام المعقدة بفاعلية. وهذا النهج مفيد في البيئات الديناميكية حيث قد لا تكون القواعد المحددة مسبقًا كافية لتحقيق الأداء الأمثل.
تستخدم المركبات ذاتية القيادة التعلم المعزز لتعلُّم السلوكيات المُثلى للقيادة. من خلال التجربة والخطأ، يعمل الذكاء الاصطناعي على تحسين قدرته على التنقل على الطرق وتجنُّب العقبات واتخاذ قرارات القيادة في الوقت الفعلي. تعمل روبوتات المحادثة المدعومة بالذكاء الاصطناعي على تحسين قدراتها الحوارية من خلال التعلم من تفاعلات المستخدم وتحسين الاستجابات لتعزيز المشاركة.
التعلم المستمر
يُشير التعلم المستمر في وكلاء الذكاء الاصطناعي إلى قدرة نظام الذكاء الاصطناعي على التعلم والتكيُّف بمرور الوقت، ودمج البيانات وتجارب جديدة دون نسيان المعرفة السابقة.
على عكس التعلم الآلي التقليدي، الذي يتضمن عادةً التدريب على مجموعة بيانات ثابتة، يُتيح التعلم المستمر للذكاء الاصطناعي تحديث نماذجه باستمرار عند مواجهة معلومات جديدة أو تغييرات في بيئته. وهذا يسمح للوكيل بتحسين الأداء في الوقت الفعلي، والتكيُّف مع الأنماط الجديدة، والمواقف المتغيرة، والظروف الديناميكية.
التعلم المستمر مهم في التطبيقات الواقعية حيث تتغير البيانات باستمرار ويجب أن يظل الذكاء الاصطناعي محدثًا بإدخال جديد ليظل فعَّالًا. يساعد ذلك على منع "النسيان الكارثي"، حيث ينسى النموذج المعرفة السابقة عند تعلُّم معلومات جديدة، كما يضمن قدرة النظام على التعامل مع مجموعة متغيرة باستمرار من المهام والتحديات.
التعلم والتعاون متعدد الوكلاء
إحدى فوائد وكلاء الذكاء الاصطناعي هي قدرتهم على العمل معًا. في الهياكل متعددة الوكلاء، يتعلَّم وكلاء الذكاء الاصطناعي من خلال التعاون والتنافس. في التعلم التعاوني، يتبادل الوكلاء المعرفة بهدف تحقيق هدف مشترك، كما هو الحال في الروبوتات الجماعية.
ومع ذلك، يحدث التعلم التنافسي عندما يقوم الوكلاء بتحسين الاستراتيجية من خلال التنافس في بيئات عدائية، مثل الذكاء الاصطناعي في التداول المالي.
تخيَّل شبكة من وكلاء الذكاء الاصطناعي يعملون على تحسين رعاية المرضى، وتبسيط سير العمل، وتعزيز الالتزام بالاعتبارات الأخلاقية، وتحسين تخصيص الموارد ضمن شبكة مستشفيات.
في أطر العمل متعددة الوكلاء هذه، يتولى أحيانًا وكيل تعلُّم أكثر تقدمًا، مزود بالذكاء الاصطناعي التوليدي، الإشراف على وكلاء أبسط يعتمدون على ردود الفعل أو على تحقيق أهداف محددة. في هذا الاستخدام، يمكن أن يمثِّل كل وكيل دورًا أو مهمة مختلفة داخل نظام الرعاية الصحية، حيث يتعاون الوكلاء ويتبادلون المعلومات بهدف تحسين نتائج المرضى وكفاءة العمليات.