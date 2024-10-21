في دراسة أحدثت صدى واسعًا في عالم التقنية، شكك باحثون في Apple في الفكرة القائلة إن النماذج اللغوية الكبيرة (LLMs) قادرة حقًا على الاستدلال.
انطلق مؤلفو الورقة البحثية لدراسة قدرات الاستدلال الرياضي لدى نماذج الذكاء الاصطناعي الحالية، بما في ذلك النموذج الرائد في الصناعة GPT-4 من OpenAI، وذلك عبر تقديم مجموعة بيانات رمزية جديدة. ومن خلال عرض مفاهيم رياضية مألوفة بصور غير مألوفة، سعى الباحثون إلى اختبار فهم هذه النماذج بما يتجاوز مجرد التعرف على الأنماط.
وجاءت النتائج لافتة؛ إذ كان أداء معظم النماذج اللغوية الكبيرة (LLMs) التي خضعت للاختبار أضعف بكثير عند مواجهتها لهذه الصيغ الجديدة من المسائل الرياضية، ما يشير إلى أن هذه الأنظمة تعتمد بدرجة أكبر على مطابقة الأنماط، لا على مهارات حل المشكلات الفعلية.
يقول Ash Minhas، مدير المحتوى التقني في IBM: "لقد أثبتت هذه الورقة من حيث الجوهر أن النماذج اللغوية الكبيرة (LLMs) لا تمتلك قدرات حقيقية على الاستدلال." "كل ما تفعله هو مطابقة الأنماط."
هذا الاكتشاف دفع الخبراء إلى إعادة النظر في مدى عمق قدرات الذكاء الاصطناعي الحالية وفي المسار الذي ينبغي أن يتخذه هذا المجال مستقبلًا. وتبرز نتائج الدراسة الفارق بين الذكاء الاصطناعي المحدود (ANI) والذكاء الاصطناعي العام (AGI)، مشيرةً إلى أن النماذج اللغوية الكبيرة (LLMs) الحالية تندرج بوضوح ضمن الفئة الأولى، بحسب Minhas.
ويزداد في مجال الذكاء الاصطناعي الانفتاح على إمكانية الوصول إلى الذكاء الاصطناعي العام (AGI)، أي أنظمة الذكاء الاصطناعي القادرة على التعلم والفهم مثل البشر، وتطبيق المعرفة في مجالات مختلفة، وأداء مجموعة متنوعة من المهام، وربما تجاوز القدرات البشرية في كل شيء من الاستدلال إلى الأنشطة الإبداعية.
Helen Toner، العضو السابقة في مجلس إدارة OpenAI ومديرة الاستراتيجية في مركز الأمن والتقنيات الناشئة في جامعة Georgetown، أدلت مؤخرًا بشهادتها أمام لجنة فرعية من لجان القضاء في مجلس الشيوخ الأمريكي، قائلة إن "أكبر فجوة ألاحظها بين تصورات الجمهور ووجهات النظر الداخلية في مجال الذكاء الاصطناعي تأتي من داخل ذلك العدد القليل من الشركات التي تعمل على بناء "ذكاء اصطناعي عام" (AGI)، أي..." ذكاء اصطناعي يماثل تقريبًا ذكاء الإنسان." قالت إن شركات الذكاء الاصطناعي الرائدة مثل OpenAI وGoogle وAnthropic تتعامل مع بناء الذكاء الاصطناعي العام (AGI) على أنه "هدف جاد تمامًا."
ومع ذلك، يقول بعض الخبراء إن الذكاء الاصطناعي العام (AGI) لا يزال بعيدًا عن أن يصبح واقعًا. يقول Minhas: "تؤكد هذه الورقة أننا ما زلنا في عالم الذكاء الاصطناعي المحدود (ANI)." "لم نصل بعد إلى الذكاء الاصطناعي العام (AGI)."
كما تبرز الدراسة الحاجة إلى معايير أفضل في صناعة الذكاء الاصطناعي. وبحسب Minhas، فإن المسائل المعيارية الحالية معيبة لأن النماذج يمكنها حلها من خلال مطابقة الأنماط بدلًا من الاستدلال الفعلي. يقول: "لو كانت المعايير مبنية على الاستدلال الفعلي، أو لو كانت مسائل الاستدلال أكثر تعقيدًا، لأدّت جميع النماذج أداءً سيئًا للغاية."
يقول Minhas إن باحثي Apple أنشأوا مجموعة البيانات الاصطناعية هذه، وهي مجموعة بيانات تُستخدم لتدريب نماذج وخوارزميات الذكاء الاصطناعي واختبارها، وذلك عن طريق خلط الرموز.
يقول: "لقد أثبتت الدراسة أن أداء هذه النماذج يتراجع بمجرد إدخال تعديلات على تسلسل الإدخال، سواء على مستوى الرموز نفسها أو بإضافة سياق زائد مثل الرموز المميَّزة غير الضرورية."
اعتمدت منهجية دراسة Apple على إدخال قدر من "الزوائد" والعبارات الإضافية في مجموعة التدريب لمراقبة كيفية تغيّر أداء النماذج. ومع ذلك، تشير Jess Bozorg، عالمة البيانات في IBM، إلى قيد محتمل، قائلة: "لم يوضّحوا عدد فئات "الزوائد" التي اعتمدوها في إضافاتهم، ولا أنواع هذه "الزوائد" ولا الفئات التي استقوها منها."
ومن بين الانتقادات التي توجهها الورقة البحثية إلى معايير النماذج اللغوية الكبيرة (LLMs) الحالية مسألة تلوّث البيانات. توضح Bozorg أن دراسة Apple استخدمت مجموعة بيانات GSM-8K، وهي مجموعة تحتوي على مسائل رياضية لفظية بمستوى المدرسة الابتدائية صاغها بشر. وتقول: "هناك تسرّب في البيانات." "وهذا يعني أن النموذج كان قد اطَّلع بالفعل على بعض هذه البيانات خلال مرحلة الاختبار أثناء عملية تدريبه."
"يُعد تلوّث البيانات مشكلة واسعة الانتشار في هذا القطاع." يقول Minhas إن مجموعة بيانات GSM-8K "تُعد معيارًا صناعيًا إلى حد أن أجزاءً منها مبعثرة في بيانات التدريب التي تعرفها جميع النماذج." "وهذه مشكلة جوهرية في جميع هذه المعايير المُنشأة."
ومن المثير للاهتمام أن الدراسة كشفت أن أداء GPT-4 كان أفضل بشكل ملحوظ من أداء النماذج الأخرى عند اختباره على مجموعة البيانات الرمزية الجديدة. يطرح Minhas تفسيرًا محتملًا، متسائلًا: "هل من الممكن أنه عند تدريب GPT-4 فكّروا في التمثيلات الرمزية وولّدوا بيانات اختبار بهذا الشكل؟" "ربما لا يزال يعتمد فقط على مطابقة الأنماط، لكنه صادف هذا النوع من البيانات في مجموعة بيانات التدريب الخاصة به."
يشير Minhas إلى أن الباحثين يحاولون تجاوز الاكتفاء بمطابقة الأنماط من خلال إدخال الذاكرة في أنظمة الذكاء الاصطناعي. ويضيف قائلًا: "هذه إحدى الطرق التي نحاول من خلالها جعلها أكثر عمومية، لكنها تظل في النهاية مجرد مطابقة للأنماط استنادًا إلى ما تزوده بها."
كشفت دراسة Apple عن قيود كبيرة في أنظمة الذكاء الاصطناعي الحالية، وأظهرت أن الرحلة نحو آلات تتمتع بذكاء حقيقي لا تزال بعيدة عن الاكتمال. الآن، يقول الخبراء إن مجتمع الذكاء الاصطناعي يواجه تحدّي سد الفجوة بين مطابقة الأنماط والاستدلال الحقيقي.
يقول Minhas: "إن بنية المحوّل (Transformer) وحدها لا تكفي للاستدلال." "نحن بحاجة إلى تطوّر في بنية النماذج لتعزيز قدرات الاستدلال."
