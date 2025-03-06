Richard Sutton، أحد رواد الذكاء الاصطناعي الحديث، غير مقتنع بأن مجرد إضافة مزيد من قوة الحوسبة إلى الذكاء الاصطناعي سينتج عنه آلات تفكر مثل البشر. في الواقع، هو يزعم أن الهوس الحالي بتوسيع نطاق التعلم العميق قد يعوق الذكاء الاصطناعي عن استخدام كامل إمكاناته.
فاز Sutton، إلى جانب زميله القديم Andrew Barto، بجائزة Turing لهذا العام—والتي غالبًا ما يُطلق عليها اسم "جائزة نوبل للحوسبة"—تقديرًا لعمله في مجال التعلم المعزز. وهو يرى أن الانفراجة الحقيقية ستأتي عندما يتوقف الذكاء الاصطناعي عن الاعتماد على مجموعات البيانات المنسقة ويبدأ في التعلم من التجربة، تمامًا كما يفعل الطفل.
قال Sutton في مقابلة: "إذا أردنا ذكاءً حقيقيًا، فيجب أن يتعلم الذكاء الاصطناعي عن طريق الممارسة، وعن طريق التجربة والخطأ. الحوسبة ليست حلاً سحريًا. المزيد من الحوسبة تساعد، لكنها ليست المكون الأساسي للذكاء".
وهذا ادعاء جريء في وقت تتسابق فيه شركات الذكاء الاصطناعي العملاقة مثل OpenAI وGoogle DeepMind وAnthropic لتوسيع نطاق نماذجها، وتزويدها بكميات متزايدة باستمرار من البيانات والحوسبة سعيًا إلى تحقيق الاستدلال بالمستوى البشري. ومع ذلك، يعتقد Sutton أن هذا النهج خاطئ، قائلاً إن التقدم الحقيقي سيأتي من تنقيح الخوارزميات التي تحكم كيفية تعلم الآلات، وليس مجرد جعلها أكبر.
تمتد إسهامات Sutton في مجال الذكاء الاصطناعي إلى عقود من الزمن. ومع ذلك، كان تأثيره الأكثر أهمية في مجال التعلم المعزز. تُمكِّن هذه الطريقة الذكاء الاصطناعي من التعلم من خلال التفاعل مع بيئته، على غرار الطريقة التي يتعلم بها البشر والحيوانات من خلال التجربة والخطأ.
يعمل التعلم المعزز من خلال مكافأة نظام الذكاء الاصطناعي على الإجراءات الصحيحة ومعاقبته على الأخطاء، على غرار الطريقة التي يتعلم بها الطفل أن لمس الموقد الساخن فكرة سيئة ولكن الحصول على لعبة أمر جيد. ومع مرور الوقت، يحسن نظام الذكاء الاصطناعي عملية صناعته للقرار من خلال زيادة المكافآت وتقليل الأخطاء.
وقد اشتهر استخدام هذه التقنية في نظام AlphaGo وهو نظام الذكاء الاصطناعي الذي طورته شركة Google DeepMind والذي أذهل العالم في عام 2016 بهزيمته لبطل العالم Lee Sedol في لعبة Go. لم يتعلم الذكاء الاصطناعي من خلال حفظ الإستراتيجيات البشرية، بل بلعب ملايين الألعاب ضد نفسه، وصقل إستراتيجيته من خلال التعلم المعزز.
ومنذ ذلك الحين، اتسع نطاق التعلم المعزز ليتجاوز الألعاب ويشمل مجالات مثل التشغيل الآلي والتداول المالي والرعاية الصحية. فهو يساعد على تعزيز السيارات ذاتية القيادة، وتحسين خوارزميات التداول الآلي، وحتى الضبط الدقيق لروبوتات المحادثة المدعومة بالذكاء الاصطناعي مثل ChatGPT من خلال التعلم المعزز من التعليقات البشرية (RLHF). يتيح التعلم المعزز من التعليقات البشرية لنماذج الذكاء الاصطناعي إمكانية تحسين ردودها بناءً على تفاعلات المستخدمين، ما يجعلها أكثر حوارية ومتوافقة مع توقعات البشر.
وعلى الرغم من هذه التطورات، يعتقد Sutton أن التعلم المعزز لم يُستغل بشكل كامل بعد. يقول: "ما زلنا في بداية الطريق. تعتمد أنظمة الذكاء الاصطناعي اليوم في الغالب على البيانات المعالجة مسبقًا، وليس على التفاعلات الواقعية. وذلك يجب أن يتغير إذا أردنا تطوير ذكاء اصطناعي يفهم ويتكيف حقًا."
لطالما كانت فكرة الذكاء الاصطناعي العام (AGI)—وهو نظام ذكاء اصطناعي يتمكن من التفكير والاستدلال والتعلم عبر مجموعة واسعة من المهام بمستوى الإنسان—من المواضيع المثيرة للجدل. يزعم بعض الخبراء أن الذكاء الاصطناعي العام لا يزال أمامه سنوات عديدة للتطوير، في حين يرى آخرون أن هذا قد يكون مستحيلاً. في الجهة المقابلة، يؤكد بعض الخبراء أن الذكاء الاصطناعي العام ليس الهدف الصحيح الذي يجب إعطاؤه الأولوية. قالت Marina Danilevsky، عالمة أبحاث كبيرة في IBM، في حلقة من بودكاست Mixture of Experts : "يجب ألا نغفل عن إمكانات هذه النماذج في مجالات أخرى غير اللغوية". "إذا تمكنا حقًا من توسيع نطاق استخدام هذه التقنية... فيمكننا أن ندخل مجالات أكثر إثارة للاهتمام، وأكثر واقعية، وأكثر عملية... [بدلاً من] التركيز مع الذكاء الاصطناعي العام."
يقف Sutton في موقف الحياد. ففي تقديره، توجد فرصة أن يصل الذكاء الاصطناعي إلى مستوى الذكاء البشري بنسبة 25% في غضون خمس سنوات وفرصة أن يصل إلى ذلك بنسبة 50% في غضون 15 عامًا. وهذا توقع متفائل جدًا مقارنة بالعديد من أقرانه، الذين غالبًا ما يتوقعون أن تطوير الذكاء الاصطناعي العام يحتاج إلى عدة عقود.
وأقرّ بأنه "لا تزال هناك حاجة إلى تحقيق تطورات فارقة. ولكننا نحرز تقدمًا هائلاً. أهم ما ينقصنا هو كيفية جعل أنظمة الذكاء الاصطناعي تتعلم من التجربة بطريقة أكثر طبيعية، بدلاً من تلقينها مجموعات بيانات مصنفة."
وكما يوضح Sutton، أحد أكبر التحديات هو تعليم الذكاء الاصطناعي كيفية فهم التخطيط طويل الأمد والتجريد،—أي إمكانية تقسيم المشكلات المعقدة إلى أجزاء أصغر يمكن التحكم فيها، كما يفعل البشر.
"إذا طلبت منك أن تعبر الشارع، فأنت لا تفكر في كل حركة عضلية صغيرة. بل تفكر في الهدف: عبور الشارع. الذكاء الاصطناعي يحتاج إلى التعلم بهذه الطريقة، على مستوى أعلى من التجريد."، حسب قول Sutton.
ومن أهم إسهاماته في التعلم المعزز مفهوم التجريد الزمني، الذي يسمح للذكاء الاصطناعي بالتعلم على مراحل بدلاً من الانغماس في الإدارة التفصيلية. قد يكون هذا أمرًا مهمًا بالنسبة إلى أنظمة الذكاء الاصطناعي التي تحتاج إلى الاستدلال عبر فترات زمنية طويلة—وهو أمر تعاني منه النماذج الحالية.
على سبيل المثال، قد يتمكن مساعد الذكاء الاصطناعي من توليد إجابة عن سؤال واحد بشكل جيد، ولكنه قد يواجه صعوبة في المتابعة في محادثة منطقية على مدى تفاعلات متعددة أو في التخطيط لمهمة معقدة تستغرق فترة من الزمن—مثل حجز عطلة يتطلب تنسيق الرحلات الجوية والفنادق والأنشطة. يعتقد Sutton أن التعلم المعزز وخوارزميات الاستدلال الأفضل على المدى الطويل سيكونون مفتاح التغلب على هذا القصور.
يرى Sutton أن أفضل طريقة للتفكير في مستقبل الذكاء الاصطناعي لا تكون بتصوره كأدوات أو عبيد بل كأطفال—يتعلمون، ويتطورون، وفي النهاية يكتسبون الاستقلالية.
يقول: "نحن لا نعامل أطفالنا كآلات يجب التحكم فيها. نحن نوجههم ونعلمهم، وفي النهاية يكبرون ليصبحوا أشخاصًا مستقلين. والأمر مع الذكاء الاصطناعي ليس مختلفًا."
ويحذر Sutton من أن التعامل مع الذكاء الاصطناعي كشيء يجب السيطرة عليه أو استعباده قد يولد علاقات عدائية بدلاً من التعاون. ويزعم أنه مثلما يتعلم الأطفال قيم المجتمع البشري من خلال الملاحظة والتفاعل، يجب تعليم الذكاء الاصطناعي، وليس برمجته، ليتماشى مع القيم الإنسانية.
وأوضح قائلاً: "الأمر لا يدور حول السيطرة؛ بل حول الفهم. عندما تربي طفلاً، فأنت لا تفرض عليه قواعد صارمة وتتوقع منه الطاعة. أنت تُظهر اللطف والإنصاف والتعاون، ومن ثَم، يستوعب الطفل تلك القيم. يمكن للذكاء الاصطناعي أن يتعلم بالطريقة نفسها."
يثير هذا التشبيه تساؤلات عميقة. إذا أصبح الذكاء الاصطناعي أكثر استقلالية، فكيف سيتمكن المجتمع من دمج هذه الكائنات الرقمية؟ هل سيكون لها حقوق؟ هل ينبغي منحها الاستقلالية؟ يشير Sutton إلى أن الطريقة التي نتعامل بها مع تطوير الذكاء الاصطناعي الآن ستحدد كيفية تطور هذه العلاقات في المستقبل.
"إذا طورنا أنظمة الذكاء الاصطناعي في بيئة من الثقة والتعاون، فسوف تتعلم التعايش معنا. وإذا عاملناها كخصوم، فإننا نخاطر بإنشاء أنظمة لديها كل الأسباب المشروعة لمقاومتنا" حسب قوله.
تتحدى وجهة نظر Sutton السرديات التقليدية القائمة على الخوف حول مواءمة الذكاء الاصطناعي، والتي تفترض في كثير من الأحيان أنه يجب تقييد الذكاء الاصطناعي المتقدم لمنعه من إلحاق الضرر بالبشرية. أما هو فيقترح نهجًا قائمًا على المنفعة المتبادلة، حيث يتعلم الذكاء الاصطناعي من خلال التجربة بدلاً من التقيد بقيود صارمة.
تتمحور رؤية Sutton للذكاء الاصطناعي في النهاية حول تطوير آلات تتعلم بطريقة تعلم البشر—من خلال الاستكشاف والتجربة والتكيف. وبالنسبة إليه، مستقبل الذكاء الاصطناعي لا يتعلق بنماذج أكبر أو المزيد من القواعد، بل يتعلق بتطوير أنظمة ذكاء اصطناعي يمكنها اكتشاف الأشياء بنفسها.
وقد وجّه بصرف أموال جائزة Turing التي حصل عليها—والتي تبلغ نصف مليون دولار أمريكي من أصل مليون دولار أمريكي تقاسمها مع Barto—سعيًا لتحقيق هذه الرؤية. وقد أسس Openmind Research Institute، الذي يهدف إلى منح الباحثين الشباب في مجال الذكاء الاصطناعي حرية استكشاف الأسئلة الأساسية حول التعلم، بعيدًا عن ضغوط التسويق.
يقول: "عندما بدأنا أنا وAndy Barto، كان لدينا الوقت والمساحة الكافية لاستكشاف الأفكار بحرية. وهذا ما أدى إلى وصول التعلم المعزز إلى ما هو عليه اليوم. وأريد أن أمنح الجيل التالي منه الفرصة نفسها."
إذن، هل الذكاء الاصطناعي ذو مستوى الإنسان أمر لا مفر منه؟ لا يزال Sutton متفائلاً في هذا الشأن، ولكن بحذر. حيث قال: "المسألة ليست هل سيحدث أم لا—بل مسألة متى سيحدث. وعندما يحدث، لن يكون ذلك بسبب أننا طورنا نموذجًا أكبر. لكن لأننا طورنا نموذجًا متعلمًا أكثر ذكاءً".
