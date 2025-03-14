يتفوق التعلم المعزز في ألعاب الفيديو والمحاكاة ولكنه يواجه صعوبات في العالم الحقيقي. ما المشكلة؟ تتعلم هذه الأنظمة من خلال استكشاف الإجراءات المختلفة - وهي نقطة قوة في البيئات الافتراضية ولكنها تشكل خطراً كبيراً في الواقع. ويوضح Riemer: "الاستكشاف هو أكبر نقطة بيع في تقنية التعلم المعزز وأكبر عامل يحد من استخدامها في العالم الحقيقي"، مما يسلط الضوء على السبب الذي يجعل كلا الباحثين يعتبران هذا الانتقال تحديًا حساسًا.

"في العالم الحقيقي، خارج المحاكاة، يمكن أن يؤدي الاستكشاف إلى قيام الوكيل بأشياء غير متوقعة، وهي مصدر قلق كبير لسلامة الذكاء الاصطناعي،" يوضح Riemer. "وأيضًا، حتى بالنسبة لحالات الاستخدام التي يمكننا فيها تحمل الاستكشاف، هناك مشكلة في كفاءة عينة التعلم المعزز. غالبًا ما تشعر أنه يحتاج إلى استكشف أكثر بكثير مما يحتاج إليه الإنسان إلى استكشافه في نفس الموقف."

ويشير Barto إلى تحديات مماثلة: "سوف يستغرق الأمر وقتاً أطول بكثير لأن المحاكاة يمكن أن تعمل بشكل أسرع بكثير من التجربة المادية في العالم." ويضيف: "إذا كان الأمر يتعلق بالروبوت، فإنه يتعلم من خلال التجربة والخطأ، وإذا أدى خطأ ما إلى السقوط أو شيء ما يضر بالجهاز، فهذه هي المشكلة."

ينبع هذا النهج الحذر للنشر في العالم الحقيقي من الاعتبارات العملية واعتبارات السلامة. ويؤكد Barto على الحاجة إلى تحديد دقيق لوظائف المكافآت "حتى لا يتوصل النظام إلى شيء غير متوقع حقًا وربما ينطوي على مشكلات".

يمتد التحدي إلى ما هو أبعد من مجرد التنفيذ. كما يشير Riemer، يجب على أنظمة التعلم المعزز أيضًا أن تتكيف مع البيئات المتغيرة: "تدرس دراسات التعلم المعزز المستمرة مسألة كيفية قدرة وكلاء التعلم المعزز على التكيف مع الطبيعة المتغيرة للبيئات الواقعية، أي عندما يكون العالم مختلفًا عما كان عليه من قبل أثناء التدريب المسبق أو عند التدريب في جهاز محاكاة".

تقدم هذه القدرة على التكيف ما يسميه Riemer "المشكلة الكلاسيكية لمعضلة الاستقرار-اللدونة حيث يجب على الوكيل أن يقرر كيف يعطي الأولوية للأداء على تجاربه الجديدة والأداء على تجاربه القديمة." وتمثل هذه الموازنة بين الاحتفاظ بالمعرفة السابقة مع التكيف مع الظروف الجديدة تحديًا مستمرًا في المجال.

على الرغم من هذه العقبات، يجد الباحثون حلولًا واعدة من خلال الجمع بين التعلم المعزز وأساليب الذكاء الاصطناعي الأخرى. يرى Riemer وعدًا خاصًا في التكامل مع النماذج اللغوية الكبيرة: "ما كان ينقص التعلم المعزز حقًا هو القدرة على فهم العالم بما فيه الكفاية حتى يتمكن من هيكلة استكشافه بشكل أكثر منطقية. بدأنا نرى أدلة على أن النماذج اللغوية الكبيرة يمكن استخدامها كأساس قوي للمعرفة العالمية لبناء تدريب التعلم المعزز فوقها، وهذا أمر مثير جداً من منظور تمكين حالات الاستخدام الواقعية للتعلم المعزز."

يتطور التكامل بين التعلم المعزز وتقنيات الذكاء الاصطناعي الأخرى بسرعة. يقول Riemer، "الاتجاه الرئيسي الذي نراه هو الطريقة التي يمكن أن تساعد بها الطرق الأخرى التعلم المعزز في بناء تمثيل للعالم يمكنه استخدمه لاستكشاف العالم بشكل أكثر كفاءة". "على سبيل المثال، في المجالات اللغوية، أصبحت تقنية التعلم المعزز أداة فعالة للغاية تُستخدم في المجالات اللغوية على رأس أدوات النماذج اللغوية الكبيرة (LLM) المدربة مسبقًا."

تعمل هذه العلاقة التكميلية في كلا الاتجاهين — فالتعلم المعزز يعزز النماذج اللغوية، بينما تزود النماذج اللغوية أنظمة التعلم المعزز بتمثيل أفضل للعالم. يشرح Riemer قائلاً، "بدأنا نرى أشياء مشابهة لحالات استخدام مثل الروبوتات أو بناء وكلاء الذكاء الاصطناعي حيث يصبح التعلم المعزز أكثر فعالية عند دمجها مع المعرفة المدمجة في نماذج VLM التي تمتلك قدرات الرؤية أيضاً."

عندما يتحول الحديث إلى الذكاء العام الاصطناعي (AGI) - أي الأنظمة ذات القدرات المعرفية الشبيهة بقدرات الإنسان في مختلف المجالات - يبدي Barto شكوكًا حول احتمالية تحقيقه واستصوابه كهدف بحثي.

ويقول بصراحة: "لا أرى فائدة من جعل الذكاء على المستوى البشري هدفًا". "يختلف هدف محاولة فهم كيفية عمل الذكاء البشري عن محاولة إنشاء آلات على المستوى البشري".

ومن بين الحدود المثيرة للاهتمام بشكل خاص التي حددها Barto هو التعلم المعزز متعدد الوكلاء- وهي الأنظمة التي يتفاعل فيها العديد من وكلاء التعلم، مع احتمال تحقيق أهداف مختلفة. هذا النهج ليس له آثار على تطوير الذكاء الاصطناعي فحسب، بل قد يسلط الضوء أيضًا على كيفية عمل أدمغتنا.

وهو يعترف بأن "الفرضية القائلة بأن الخلايا العصبية عوامل تعلُّم معززة، وأن الدماغ هو مجتمع من عوامل متفاعلة يمكن أن يكون لها أهداف مختلفة فيما بينها" تظل "فرضية غير معتادة"، لكنها تظل ذات آثار محتملة بالنسبة إلى علم الأعصاب.

بالنسبة إلى Barto، قد لا تكون الإسهامات الأكثر قيمة للتعلم المعزز في خلق ذكاء شبيه بذكاء البشر، بل في حل مشاكل محددة تحسن حياة البشر، وهو موروث ربما يكون أكثر أهمية من Turing Award نفسها.