كما تبرز الدراسة الحاجة إلى معايير أفضل في صناعة الذكاء الاصطناعي. وبحسب Minhas، فإن المسائل المعيارية الحالية معيبة لأن النماذج يمكنها حلها من خلال مطابقة الأنماط بدلًا من الاستدلال الفعلي. يقول: "لو كانت المعايير مبنية على الاستدلال الفعلي، أو لو كانت مسائل الاستدلال أكثر تعقيدًا، لأدّت جميع النماذج أداءً سيئًا للغاية."

يقول Minhas إن باحثي Apple أنشأوا مجموعة البيانات الاصطناعية هذه، وهي مجموعة بيانات تُستخدم لتدريب نماذج وخوارزميات الذكاء الاصطناعي واختبارها، وذلك عن طريق خلط الرموز.



يقول: "لقد أثبتت الدراسة أن أداء هذه النماذج يتراجع بمجرد إدخال تعديلات على تسلسل الإدخال، سواء على مستوى الرموز نفسها أو بإضافة سياق زائد مثل الرموز المميَّزة غير الضرورية."

اعتمدت منهجية دراسة Apple على إدخال قدر من "الزوائد" والعبارات الإضافية في مجموعة التدريب لمراقبة كيفية تغيّر أداء النماذج. ومع ذلك، تشير Jess Bozorg، عالمة البيانات في IBM، إلى قيد محتمل، قائلة: "لم يوضّحوا عدد فئات "الزوائد" التي اعتمدوها في إضافاتهم، ولا أنواع هذه "الزوائد" ولا الفئات التي استقوها منها."

ومن بين الانتقادات التي توجهها الورقة البحثية إلى معايير النماذج اللغوية الكبيرة (LLMs) الحالية مسألة تلوّث البيانات. توضح Bozorg أن دراسة Apple استخدمت مجموعة بيانات GSM-8K، وهي مجموعة تحتوي على مسائل رياضية لفظية بمستوى المدرسة الابتدائية صاغها بشر. وتقول: "هناك تسرّب في البيانات." "وهذا يعني أن النموذج كان قد اطَّلع بالفعل على بعض هذه البيانات خلال مرحلة الاختبار أثناء عملية تدريبه."

"يُعد تلوّث البيانات مشكلة واسعة الانتشار في هذا القطاع." يقول Minhas إن مجموعة بيانات GSM-8K "تُعد معيارًا صناعيًا إلى حد أن أجزاءً منها مبعثرة في بيانات التدريب التي تعرفها جميع النماذج." "وهذه مشكلة جوهرية في جميع هذه المعايير المُنشأة."

ومن المثير للاهتمام أن الدراسة كشفت أن أداء GPT-4 كان أفضل بشكل ملحوظ من أداء النماذج الأخرى عند اختباره على مجموعة البيانات الرمزية الجديدة. يطرح Minhas تفسيرًا محتملًا، متسائلًا: "هل من الممكن أنه عند تدريب GPT-4 فكّروا في التمثيلات الرمزية وولّدوا بيانات اختبار بهذا الشكل؟" "ربما لا يزال يعتمد فقط على مطابقة الأنماط، لكنه صادف هذا النوع من البيانات في مجموعة بيانات التدريب الخاصة به."

يشير Minhas إلى أن الباحثين يحاولون تجاوز الاكتفاء بمطابقة الأنماط من خلال إدخال الذاكرة في أنظمة الذكاء الاصطناعي. ويضيف قائلًا: "هذه إحدى الطرق التي نحاول من خلالها جعلها أكثر عمومية، لكنها تظل في النهاية مجرد مطابقة للأنماط استنادًا إلى ما تزوده بها."

كشفت دراسة Apple عن قيود كبيرة في أنظمة الذكاء الاصطناعي الحالية، وأظهرت أن الرحلة نحو آلات تتمتع بذكاء حقيقي لا تزال بعيدة عن الاكتمال. الآن، يقول الخبراء إن مجتمع الذكاء الاصطناعي يواجه تحدّي سد الفجوة بين مطابقة الأنماط والاستدلال الحقيقي.

يقول Minhas: "إن بنية المحوّل (Transformer) وحدها لا تكفي للاستدلال." "نحن بحاجة إلى تطوّر في بنية النماذج لتعزيز قدرات الاستدلال."