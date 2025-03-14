في الوقت الذي يشكل فيه الذكاء الاصطناعي عالمنا بشكل متزايد، يحذر أحد الآباء المؤسسين له من الضجيج والخوف.
Andrew Barto، الذي نال مؤخراً جائزة Turing Award، وهي أعلى وسام في مجال الحوسبة، قضى عقوداً في تطوير التعلم المعزّز— التقنية التي تغذي الآن كل شيء من أبطال الذكاء الاصطناعي في الألعاب إلى أنظمة اكتشاف الأدوية والقدرات الاستدلالية وراء النماذج اللغوية الكبيرة اليوم. في مقابلة مع IBM Think، يقدم Barto تقييماً محسوباً لتقدم الذكاء الاصطناعي وإمكاناته وقيوده يخترق التفاؤل التكنولوجي وسيناريوهات يوم القيامة.
التعلم المعزز هو النهج الحاسوبي للتعلم من التفاعل الذي ساعد Barto في تطويره، أصبح شائعاً في مجال الذكاء الاصطناعي اليوم. بينما يربطه الكثيرون بالإنجازات التي تجذب العناوين مثل هزيمة أبطال العالم في مباريات معقدة، يرى Barto أن تطبيقاته الأكثر أهمية في مجالات أكثر عملية.
ويوضح قائلاً: "يتم استخدامه بالفعل في عدد من الأماكن، والكثير في مجال الروبوتات". "هناك إمكانات كبيرة للروبوتات التي تستخدم التعلم المعزز لتمكينها من القيام بحركات مفصلة ومفيدة للغاية يمكن أن تساعد الأشخاص في المنزل أو الأشخاص ذوي الاحتياجات الخاصة."
يسلط Barto الضوء على التطبيقات الطبية التي يحسن فيها التعلم المعزز بروتوكولات العلاج على مدى فترات طويلة—وهي بالضبط نوع مشاكل صناعة القرار المتسلسلة التي تتفوق فيها التقنية.
يقول "واحدة من ميزات التعلم المعزز هي أنه يمكنه التعامل مع مشاكل اتخاذ القرار المتسلسلة حيث تُتخذ عدة قرارات بمرور الوقت، وفي كل حالة تعتمد حالة النظام على القرار السابق،". وتمثل هذه القدرة على التعامل مع المكافآت المتأخرة - العواقب التي لا تتحقق إلا بعد سلسلة من الإجراءات - تحديًا أساسيًا تعالجه خوارزميات التعلم المعزز.
Matt Riemer، مهندس البحث في التعلم العميق في مختبر أساسيات الذكاء الاصطناعي في شركة IBM، يشير إلى تطبيقات أكثر حداثة.
قال في مقابلة مع Think: "لقد طبق الباحثون بنجاح أساليب تعتمد على التعلم المعزز لمواجهة مشكلة اكتشاف الأدوية حيث بدأوا للتو في رؤية نتائج واعدة جداً". "وقد حقق أيضًا نجاحًا في الآونة الأخيرة مع مشكلات مهمة مثل تحسين وأتمتة عملية معالجة المياه".
وراء القدرات المبهرة لروبوتات الدردشة اليوم يكمن التعلم المعزز. يشرح Riemer: "مع النجاح الأخير للنماذج اللغوية الكبيرة (LLMs)، شهدنا حالات استخدام بارزة للتعلم المعزز تحسن من قدراتها." كان أول تطبيق رئيسي يسمى RLHF - التعلم المعزز من التعليقات البشرية - والذي يساعد هذه الأنظمة على إنتاج استجابات تتطابق بشكل أفضل مع ما يريده الأشخاص.
في حين أن النماذج اللغوية الكبيرة قد استحوذت على اهتمام الجمهور من خلال قدرتها على إنشاء نصوص شبيهة بالبشر، فإن تطويرها مدين بالكثير للتعلم المعزز. وكما يوضح Riemer: "في الآونة الأخيرة، شهدنا بروز تقنية التعلم المعزز كأبرز نهج لتدريب ما يسمى بنماذج "التفكير" التي تتعلم سلسلة من عمليات التفكير التي تحسن من قدرات التفكير لدى النماذج اللغوية الكبيرة.
وتُعدّ المسائل الحسابية أرضيات تدريب مثالية لهذه الأنظمة. يوضح Riemer قائلاً: "بالنسبة إلى مشكلات مثل الاستدلال الرياضي، من السهل بناء مكافآت قابلة للتحقق، أي" هل أجاب الوكيل عن المشكلة بشكل صحيح أم لا؟ ". تخلق هذه الإجابات الواضحة الصحيحة أو الخاطئة ما يسميه "بيئة محاكاة زائفة" حيث يمكن للذكاء الاصطناعي التعلم من خلال الممارسة المتكررة.
يمتد تأثير التعلم المعزز إلى ما هو أبعد من البحث الأكاديمي أو التطبيقات المتخصصة. ويُستشعر تأثيرها بشكل متزايد في التقنيات التي تتفاعل مع المستخدمين اليوميين. ويتنبأ Riemer قائلاً: "ربما تكون هذه هي البداية مرة أخرى حيث من المرجح أن نرى أن التعلم المعزز يلعب دوراً أكثر بروزاً مع بدء المجال في تطوير "وكلاء الذكاء الاصطناعي" الذين يتفاعلون مع متصفحات الويب والأدوات الأخرى لمساعدة المستخدمين بشكل أفضل".
يحافظ Barto على التفاؤل الحذِر للعالِم الذي شهد العديد من دورات الضجيج التكنولوجي. ويقرّ بالتحدي الذي يواجهه عندما يُسأل عن سلامة الذكاء الاصطناعي ومواءمته - ضمان عمل أنظمة الذكاء الاصطناعي وفقاً للقيم الإنسانية.
ويقول: " مشكلة المواءمة مشكلة غير تافهة". "قد يأمل المرء أن يتمكن نظام التعلم المعزز من توجيه الذكاء الاصطناعي لدمج قيم البشر الذين يستخدمون النظام. لذا، نأمل أن يحدث ذلك. ليس لديّ وصفة طبية لذلك".
في بحثه عن الإلهام بشأن مكافآت الذكاء الاصطناعي، يتجه Barto إلى أدمغتنا. ويوضح قائلاً: "تأتي وظائف المكافآت لدينا من الآليات التي تطورت على مدار ملايين السنين". وعلى عكس المكافآت الحاسوبية البسيطة، تظهر الحوافز البشرية من الضغوط التطورية المعقدة التي أبقت أسلافنا على قيد الحياة ودفعتهم إلى التكاثر.
هذا المنظور التطوري يغذي تفكيره حول التعلم المعزز متعدد المعايير، حيث تستجيب الأنظمة للعديد من إشارات المكافأة بدلاً من إشارة واحدة فقط - مما يعكس على الأرجح كيفية معالجة أجزاء مختلفة من الدماغ البشري لأشكال مختلفة من التعليقات.
يشير Barto: "أعتقد أن التعلم المعزز متعدد المعايير أمر مهم حقًا. "فبدلاً من الحصول على وظيفة واحدة للمكافأة، يمكن أن يكون هناك العديد من المكافآت، و ... على سبيل المثال، ربما تلقت أجزاء مختلفة من الدماغ إشارات مختلفة."
يتفوق التعلم المعزز في ألعاب الفيديو والمحاكاة ولكنه يواجه صعوبات في العالم الحقيقي. ما المشكلة؟ تتعلم هذه الأنظمة من خلال استكشاف الإجراءات المختلفة - وهي نقطة قوة في البيئات الافتراضية ولكنها تشكل خطراً كبيراً في الواقع. ويوضح Riemer: "الاستكشاف هو أكبر نقطة بيع في تقنية التعلم المعزز وأكبر عامل يحد من استخدامها في العالم الحقيقي"، مما يسلط الضوء على السبب الذي يجعل كلا الباحثين يعتبران هذا الانتقال تحديًا حساسًا.
"في العالم الحقيقي، خارج المحاكاة، يمكن أن يؤدي الاستكشاف إلى قيام الوكيل بأشياء غير متوقعة، وهي مصدر قلق كبير لسلامة الذكاء الاصطناعي،" يوضح Riemer. "وأيضًا، حتى بالنسبة لحالات الاستخدام التي يمكننا فيها تحمل الاستكشاف، هناك مشكلة في كفاءة عينة التعلم المعزز. غالبًا ما تشعر أنه يحتاج إلى استكشف أكثر بكثير مما يحتاج إليه الإنسان إلى استكشافه في نفس الموقف."
ويشير Barto إلى تحديات مماثلة: "سوف يستغرق الأمر وقتاً أطول بكثير لأن المحاكاة يمكن أن تعمل بشكل أسرع بكثير من التجربة المادية في العالم." ويضيف: "إذا كان الأمر يتعلق بالروبوت، فإنه يتعلم من خلال التجربة والخطأ، وإذا أدى خطأ ما إلى السقوط أو شيء ما يضر بالجهاز، فهذه هي المشكلة."
ينبع هذا النهج الحذر للنشر في العالم الحقيقي من الاعتبارات العملية واعتبارات السلامة. ويؤكد Barto على الحاجة إلى تحديد دقيق لوظائف المكافآت "حتى لا يتوصل النظام إلى شيء غير متوقع حقًا وربما ينطوي على مشكلات".
يمتد التحدي إلى ما هو أبعد من مجرد التنفيذ. كما يشير Riemer، يجب على أنظمة التعلم المعزز أيضًا أن تتكيف مع البيئات المتغيرة: "تدرس دراسات التعلم المعزز المستمرة مسألة كيفية قدرة وكلاء التعلم المعزز على التكيف مع الطبيعة المتغيرة للبيئات الواقعية، أي عندما يكون العالم مختلفًا عما كان عليه من قبل أثناء التدريب المسبق أو عند التدريب في جهاز محاكاة".
تقدم هذه القدرة على التكيف ما يسميه Riemer "المشكلة الكلاسيكية لمعضلة الاستقرار-اللدونة حيث يجب على الوكيل أن يقرر كيف يعطي الأولوية للأداء على تجاربه الجديدة والأداء على تجاربه القديمة." وتمثل هذه الموازنة بين الاحتفاظ بالمعرفة السابقة مع التكيف مع الظروف الجديدة تحديًا مستمرًا في المجال.
على الرغم من هذه العقبات، يجد الباحثون حلولًا واعدة من خلال الجمع بين التعلم المعزز وأساليب الذكاء الاصطناعي الأخرى. يرى Riemer وعدًا خاصًا في التكامل مع النماذج اللغوية الكبيرة: "ما كان ينقص التعلم المعزز حقًا هو القدرة على فهم العالم بما فيه الكفاية حتى يتمكن من هيكلة استكشافه بشكل أكثر منطقية. بدأنا نرى أدلة على أن النماذج اللغوية الكبيرة يمكن استخدامها كأساس قوي للمعرفة العالمية لبناء تدريب التعلم المعزز فوقها، وهذا أمر مثير جداً من منظور تمكين حالات الاستخدام الواقعية للتعلم المعزز."
يتطور التكامل بين التعلم المعزز وتقنيات الذكاء الاصطناعي الأخرى بسرعة. يقول Riemer، "الاتجاه الرئيسي الذي نراه هو الطريقة التي يمكن أن تساعد بها الطرق الأخرى التعلم المعزز في بناء تمثيل للعالم يمكنه استخدمه لاستكشاف العالم بشكل أكثر كفاءة". "على سبيل المثال، في المجالات اللغوية، أصبحت تقنية التعلم المعزز أداة فعالة للغاية تُستخدم في المجالات اللغوية على رأس أدوات النماذج اللغوية الكبيرة (LLM) المدربة مسبقًا."
تعمل هذه العلاقة التكميلية في كلا الاتجاهين — فالتعلم المعزز يعزز النماذج اللغوية، بينما تزود النماذج اللغوية أنظمة التعلم المعزز بتمثيل أفضل للعالم. يشرح Riemer قائلاً، "بدأنا نرى أشياء مشابهة لحالات استخدام مثل الروبوتات أو بناء وكلاء الذكاء الاصطناعي حيث يصبح التعلم المعزز أكثر فعالية عند دمجها مع المعرفة المدمجة في نماذج VLM التي تمتلك قدرات الرؤية أيضاً."
عندما يتحول الحديث إلى الذكاء العام الاصطناعي (AGI) - أي الأنظمة ذات القدرات المعرفية الشبيهة بقدرات الإنسان في مختلف المجالات - يبدي Barto شكوكًا حول احتمالية تحقيقه واستصوابه كهدف بحثي.
ويقول بصراحة: "لا أرى فائدة من جعل الذكاء على المستوى البشري هدفًا". "يختلف هدف محاولة فهم كيفية عمل الذكاء البشري عن محاولة إنشاء آلات على المستوى البشري".
ومن بين الحدود المثيرة للاهتمام بشكل خاص التي حددها Barto هو التعلم المعزز متعدد الوكلاء- وهي الأنظمة التي يتفاعل فيها العديد من وكلاء التعلم، مع احتمال تحقيق أهداف مختلفة. هذا النهج ليس له آثار على تطوير الذكاء الاصطناعي فحسب، بل قد يسلط الضوء أيضًا على كيفية عمل أدمغتنا.
وهو يعترف بأن "الفرضية القائلة بأن الخلايا العصبية عوامل تعلُّم معززة، وأن الدماغ هو مجتمع من عوامل متفاعلة يمكن أن يكون لها أهداف مختلفة فيما بينها" تظل "فرضية غير معتادة"، لكنها تظل ذات آثار محتملة بالنسبة إلى علم الأعصاب.
بالنسبة إلى Barto، قد لا تكون الإسهامات الأكثر قيمة للتعلم المعزز في خلق ذكاء شبيه بذكاء البشر، بل في حل مشاكل محددة تحسن حياة البشر، وهو موروث ربما يكون أكثر أهمية من Turing Award نفسها.
