نموذج الاستدلال الهرمي (HRM) هو نموذج تجريبي للذكاء الاصطناعي مصمم لمحاكاة الطريقة التي يعالج بها الدماغ البشري المعلومات على مستويات مختلفة من التعقيد. ومن الجدير بالذكر أن نموذج الاستدلال الهرمي HRM تفوق على النماذج اللغوية الكبيرة (LLM) المتقدمة آنذاك في عدة معايير تقيس الأداء في مهام التفكير المعقدة، رغم أنه أصغر بكثير وتدريبه على مجموعة بيانات أصغر بكثير.
وبشكل أكثر تحديدًا، تُعد نماذج الاستدلال الهرمي HRM بنية شبكة عصبية مميزة تطبق خوارزمية مميزة لإنشاء المخرجات وخوارزميات متعددة مميزة لتحسين معلمات النموذج أثناء التدريب. بينما تتم مقارنتها عادةً بالنماذج اللغوية الكبيرة من حيث الأداء في بعض المعايير التي هيمنت عليها النماذج الطويلة المنطقية تاريخيًا، إلا أن هذه مقارنة بين التفاح والبرتقال. وتُعد نماذج الاستدلال الهرمي (HRM) هي نماذج ضيقة ومخصصة لمهام محددة مصممة بشكل صريح لمشاكل الاستدلال، في حين أن النماذج اللغوية الكبيرة LLM للاستدلال هي نماذج عامة يمكن تطبيقها على مشاكل الاستدلال (من بين العديد من المهام الأخرى).
على الرغم من قدرة نماذج الاستدلال الهرمي (HRM) على حل المشكلات المعقدة، إلا أنها غير قادرة على المحادثة أو إنشاء التعليمات البرمجية أو التلخيص أو أي مهام أخرى عادةً ما ترتبط بنماذج الذكاء الاصطناعي التوليدي. ويجب تدريب نموذج الاستدلال الهرمي (HRM) مباشرةً على نوع المشكلة التي تريد أن يحلها. أما نماذج اللغة الكبيرة، فعادةً ما يتم تدريبها مسبقًا على كمية وتنوع هائل من البيانات، ثم تطلب (من خلال مطالبة بخطوات قليلة) لحل مشكلات جديدة من خلال استنتاج القواعد.
العنصر الأساسي في مفهوم نماذج الاستدلال الهرمي (HRM) هو "التسلسل الهرمي" للحلقات المتكررة التي تستلهم من كيفية معالجة الدماغ البشري للمعلومات على مستويات وترددات مختلفة. وتتكون "الحلقة الداخلية" من وحدة نمطية تقوم بسرعة بإجراء عمليات حسابية منخفضة المستوى ووحدة أخرى أبطأ تعمل عملياتها الحسابية عالية المستوى على توجيه الوحدة النمطية منخفضة المستوى. وتوجه "الحلقة الخارجية" الحلقة الداخلية لتكرار حساباتها بشكل متكرر من أجل تحسين وتطوير مخرجات النموذج.
تم تقديم نماذج الاستدلال الهرمي (HRM) لأول مرة كنموذج مصدر مفتوح تم وصفه في ورقة بحثية لـ Guan Wang وآخرين في يونيو 2025. وبحجم 27 مليون معلمة فقط، تفوّق النموذج على نماذج أكبر بكثير، مثل نموذجOpenAI’s o3، وAnthropic’s Claude 3.7 Sonnet وDeepSeek-R1 الذي يحتوي على 671 مليار معلمة على معايير صعبة بما في ذلك ARC-AGI، وSudoku-Extreme وMaze-Hard.
ويُعد النموذج نفسه تجريبيًا إلى حد كبير، وتشير الورقة البحثية إلى كل من القيود العملية والطرق غير المستكشفة للتحسينات المستقبلية. ومع ذلك، فإن نجاحه، خاصةً بالنظر إلى كفاءته الفائقة للبيانات في التدريب وحجم النموذج حرفيًا أصغر بآلاف المرات من معظم النماذج اللغوية الكبيرة، يجعله نهجًا بديلاً رائعًا لتوسيع نطاق أنظمة الاستدلال. وحققت الاستكشافات البحثية اللاحقة، مثل النماذج المتكررة الصغيرة (TRM)، مزيدًا من التقدم من خلال تحسين النهج الأساسي لنموذج الاستدلال الهرمي واستلهام التقنيات الجديدة التي قدمتها.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
تُعد نماذج الاستدلال التقليدية نماذج تفكير تقليدية عبارة عن نماذج لغوية كبيرة تم ضبطها من خلال التعلم المعزز لإخراج سلسلة من الأفكار (CoT) خطوة بخطوة قبل تقديم استجابة نهائية للمستخدم. وقد ثبت تجريبيًا أن عملية "التلفظ" بعملية التفكير المنطقي هذه تحسن دقة النموذج في الرياضيات والبرمجة وغيرها من المهام المنطقية المعقدة.
على الرغم من النجاح المثبت لهذا النهج، فقد قيل أن النماذج اللغوية الكبيرة (LLM)، حتى النماذج اللغوية الكبيرة ذات الاستدلال المتقدمة، ليست ولن تكون طريقًا إلى الذكاء الاصطناعي العام (AGI). وعلى المستوى العصبي، تُعد اللغة في المقام الأول أداة للتواصل وليس للتفكير.
بشكل عام، يُعد نهج نموذج الاستدلال الهرمي مستوحى بشكل أكبر من علم الأعصاب أقرب إلى كيفية عمل الدماغ البشري من عند التعامل مع المشكلات المجردة. وعلى عكس النماذج اللغوية الكبيرة، يقوم نظام إدارة الموارد البشرية بالتفكير داخليًا دون "التلفظ" بهذه العملية. وبمصطلحات أكثر تقنية، بينما نماذج الاستدلال التقليدية تفكر "بصوت عال" في فضاء الرموز، فإن نماذج الاستدلال الهرمي تفكر داخليًا في الفضاء الكامن. نماذج اللغة الكبيرة "تستدل" من خلال تحسين الكلمات الفعلية (الرموز المميزة) التي تنتجها بشكل تكراري، لكن نموذج الاستدلال الهرمي يحل المشكلات من خلال تحسين حالته الخفية بشكل تكراري، وهي الحسابات الوسيطة الداخلية الشبيهة بالتفكير التي يستخدمها النموذج (في النهاية) لإنشاء المخرجات النهائية.
فكر في وقت حديث قمت فيه بحل مشكلة معقدة: ربما يكون لديك حوار داخلي، ولكن من المحتمل أنك لم تشرح عملية تفكيرك بالكامل في ذهنك (أو بصوت عالٍ) في جمل مرتبة وكاملة. وعلى الأرجح، انطلق دماغك إلى العمل بشكل غريزي ودون كلمات. ومن تلك الأفكار الغريزية الأولية، تشكل في ذهنك بعض مظاهر خطة على مستوى أعلى. ثم عملتَ ذهنيًا على الخطوات الفردية التي تنطوي عليها تلك الاستراتيجية، مع تنقيح الخطة العامة أثناء تقدمك. وفي النهاية، توصلت إلى ما بدا أنه حل مرضٍ.
في حين أن ضبط نماذج اللغة الكبيرة (LLM) باستخدام تقنيات التعلم المعزز يمكن أن يعلّم النموذج إنشاء مخرجات تحاكي عملية التفكير، تهدف نماذج الاستدلال الهرمي، المستمدة من بعض المبادئ من علم أعصاب الأنظمة، لتقليد عملية التفكير.
كما هو موضح في وثيقة "نموذج الاستدلال الهرمي"، تأثر تصميم نماذج الاستدلال الهرمي بمفهوم "النظام 1" و"النظام 2"، وهما مصطلحان مجازيان صاغهما الحائز على جائزة نوبل الراحل Daniel Kahneman في كتابه "التفكير، سريع وبطئ" لوصف المستويات المختلفة التي يعمل عندها العقل البشري. "النظام 1" سريع وغير واعٍ وبديهي. تفكير "النظام 2" بطيء ومدروس ومنطقي. وبالتالي، تطبق نماذج الاستدلال الهرمي تسلسلاً هرميًا يتم فيه توجيه حسابات النظام السريع التي يتعامل مع الحسابات منخفضة المستوى بواسطة نظام أبطأ يتعامل مع التخطيط عالي المستوى.
فيما يتعلق بمبادئ التعلم الآلي، يمكن فهم نماذج الاستدلال الهرمي كشكل متخصص للغاية من الشبكات العصبية (RNN)، مع تعديلات تخفف من أوجه القصور العملية للشبكات العصبية (RNN) القياسية. وأبرز هذه العيوب هو التقارب المبكر: ميل شبكات RNN للتوقف عن التعلم قبل أن تمتص بالكامل جميع الأنماط والتبعيات داخل تسلسلات بيانات التدريب.
أثناء تدريب النموذج، تميل شبكات RNN إلى التقارب بسرعة على أوزان النموذج التي لم يتم تحسينها بشكل كافٍ لتحقيق أداء دقيق. ويرجع هذا بشكل عام إلى تلاشي التدرجات: بعد عدد كبير جدًا من الخطوات الحسابية أو تسلسل طويل جدًا، يصبح حجم تحديثات معلمة النموذج المحسوبة أثناء الانتشار الخلفي صغيرًا جدًا لدرجة أنه يتقلص إلى الصفر. وتصل أوزان النموذج إلى توازن محلي يعكس الأنماط قصيرة المدى، مما يمنعها من الوصول إلى توازن عالمي يعكس بشكل كامل وشامل أنماط بيانات التدريب.
وقد تم اقتراح العديد من التعديلات على بنية شبكة RNN القياسية، مثل الذاكرة طويلة المدى (LSTM)، لتصحيح هذا الخلل، ولكن نماذج الاستدلال الهرمي يتبع نهجًا جديدًا. وتم تصميم الوحدة عالية المستوى التي تشبه "النظام 2" للتعلم من كل مرة تتقارب فيها الوحدة النمطية منخفضة المستوى مع توازن محلي. ثم يوفر هذا التحديث للنظام عالي المستوى سياقًا جديدًا لنظام المستوى المنخفض ليعمل ضمنه، مما يسمح له بالاستمرار حتى يصل إلى توازن محلي جديد (وعندها يتم تحديث نظام المستوى العالي مرة أخرى).
يتم تغذية مخرجات هذه "الحلقة الداخلية" في "الحلقة الخارجية" التي تتعلم كيفية تحسين مخرجاتها السابقة بشكل متكرر. وبشكل عام، يستفيد هذا الإعداد من سرعة وبساطة شبكات RNN مع تمكين التعلم الأكثر استقرارًا و"عمقًا" مما هو ممكن مع شبكة متكررة.
تتكون "الحلقة الداخلية" لبنية نموذج الاستدلال الهرمي من وحدتين متكررتين. وتستخدم كلتا الوحدتين آلية الانتباه في إعداد كتلة المحول القياسي. الأولى، وهي "الوحدة L"، مصممة للتعامل بسرعة مع العمليات الحسابية ذات المستوى المنخفض. أما الوحدة الأخرى، وهي "الوحدة H"، مُصممة للتعامل مع التخطيط طويل الأجل والاستدلال عالي المستوى.
تعمل الوحدة L بشكل أساسي مثل الشبكة العصبية المتكررة القياسية، مع ميلها إلى التركيز بسرعة على الأنماط قصيرة المدى والتوقف عن تحديث حالتها المخفية. ولكن في حين أن تحديث حالة الشبكة العصبية المتكررة القياسية في الخطوة الزمنية t يكون مشروطًا بحالتها المخفية في الخطوة الزمنية السابقة t-1، فإن تحديثات الحالة المخفية للوحدة L zL، وبالتالي، الأشياء التي تستهفها بدقة، تكون أيضًا مشروطة أيضًا بالحالة المخفية الحالية للوحدة zH.
تتغير الحالة المخفية للوحدة H بشكل أبطأ بكثير من حالة الوحدة النمطية L. وتعمل الحلقة الداخلية في دورات من T خطوات زمنية: بعد أن تقوم الوحدة L تحديث حالتها المخفية zL عدد T من المرات، تستخدم الوحدة H الحالة النهائية لـ zL لتحديثات zH. من خلال الخطوة الزمنية T، غالبًا ما تكون الوحدة L قد تقاربت بالفعل على توازن محلي وتوقفت عن التحديث. ولكن نظرًا لأن تحديثات zL مشروطة بالقيمة الحالية لـ zH، فإن كل تحديث لـ zH ينشئ سياقًا جديدًا للوحدة L. وهذا يبدأ مرحلة "تقارب" جديدة، مما يعمل على تمكين الوحدة منخفضة المستوى من الاستمرار في التعلم.
باختصار، في كل مرة تقوم فيها الوحدة L "بحل" بعض المهام قصيرة المدى، يتم تحديث الوحدة H. ويعمل هذا التحديث إلى الوحدة H على توجيه الوحدة L لحل بعض المهام الجديدة قصيرة المدى. وتقوم الوحدة H، بشكل أساسي، بالتخطيط على المدى الطويل، وتقوم الوحدة L بتنفيذ المهام الفرعية الأصغر التي تستلزمها تلك الخطة طويلة الأجل. ويتم تنفيذ هذه الحلقة، التي تضم تحديثات T للوحدة L لعدد N من المرات. كل من T وN معلمات زائدة قابلة للتعديل.
بشكل عام، تحتوي بنية نموذج الاستدلال الهرمي الأساسية التي تشغل الحلقة الداخلية على أربعة مكونات قابلة للتعلم:
شبكة إدخال تحول الرموز المميزة (التي تمثل تفاصيل اللغز الذي يجب على النموذج حله) إلى تضمينات متجهية.
الوحدة المتكررة منخفضة المستوى (الوحدة L).
الوحدة المتكررة عالية المستوى (الوحدة H)، والتي يتم تمرير حالتها المخفية النهائية بعد دورات N إلى شبكة الإخراج.
تأخذ شبكة الإخراج القيمة النهائية لـ zH وتستخدم دالة softmax لتحويل تلك الحالة المخفية إلى احتمالات تستخدمها للتنبؤ بقيم رموز الإخراج (التي تمثل مجتمعة حل اللغز).
وخلافًا للنماذج اللغوية الكبيرة المنطقيّة، فإن نماذج الاستدلال الهرمي ليست نماذج عامة. ويجب تدريبهم مباشرةً على المهمة الضيقة التي يتعين عليهم حلها. وعلى الرغم من أن الوثيقة تشير إلى أن "نموذج الاستدلال الهرمي" حقق أداءً ممتازًا في ألغاز سودوكو، وإيجاد المسارات المتاهة، وألغاز ARC-AGI، إلا أن المؤلفين يشيرون فعليًا إلى ثلاثة نماذج منفصلة من نماذج الاستدلال الهرمي. وتم تدريب أحدهم على سودوكو، والثاني على المتاهات، والثالث على ألغاز ARC-Agi.
تخضع النماذج اللغوية الكبيرة المنطقية للتدريب الأولي من خلال التعلم الخاضع للإشراف الذاتي على كميات هائلة من نقاط البيانات غير المصنفة. ثم يخضعون لعملية ضبط دقيق تحت الإشراف (SFT) لتعلم هياكل الاستجابة المناسبة، وضبط التعليمات لتعلم كيفية إكمال المهام كما هو مطلوب، ثم المزيد من الضبط الدقيق من خلال التعلم المعزز لغرس سلسلة الأفكار المنطقية. وإجمالاً، يستلزم ذلك ملايين أو مليارات من نقاط البيانات وأسابيع من التدريب.
لإنشاء بيانات تدريبية لنماذج التسلسل الهرمي، استخدم المؤلفون زيادة البيانات. انطلاقًا من مجموعة أولية صغيرة من أمثلة التدريب الأصلية (تتكون من أزواج مُعنونة من ألغاز غير محلولة وحلولها)، ويتم إنشاء أمثلة إضافية باستخدام تحوّلات بسيطة (مثل التدويرات أو الانعكاسات أو تبديل الألوان). وتم تدريب كل نموذج من نماذج التسلسل الهرمي الموصوفة في الوثيقة على 1000 مثال تدريبي فقط (تقريبًا) تم إنشاؤها من خلال تطبيق زيادة البيانات هذه على مجموعة صغيرة من العينات الأصلية.
كلا النهجين لهما فوائدهما. إن النماذج اللغوية الكبيرة المنطقية قادرة على استنتاج قواعد لغز معين دون تعليمات صريحة، لكنها تتطلب تريليونات من الرموز المميزة من البيانات للحصول على تلك القدرة. يمكن لنماذج الاستدلال الهرمي أداء المهمة المحددة التي تدربت عليها، لكنها تحقق أداءً مماثلاً أو حتى متفوقًا مع معايير وأمثلة تدريب أقل بكثير.
تستخدم نماذج الاستدلال الهرمي حيلة تحسين ذكية لتبسيط عملية تحسين معلمات النموذج وتثبيتها، مما يؤدي مرة أخرى إلى تجنب القصور المتأصل في الشبكات العصبية المتكررة القياسية.
تستخدم الشبكات العصبية المتكررة شكلاً خاصًا بالانتشار الخلفي، يُطلق عليه اسم الانتشار الخلفي عبر الزمن (BPTT)، لحساب تدرجات كيفية تراكم الخسارة في كل خطوة زمنية. ونظرًا لأن الشبكة العصبية المتكررة القياسية تزيد من كمية الخطوات الزمنية، فإن BPTT تواجه حتمًا مشكلة تلاشي التدرجات.
لتجنب ذلك، بالإضافة إلى تقليل متطلبات الذاكرة إلى حد كبير، تبسّط نماذج الاستدلال الهرمي هدف التحسين لديها. وبدلًا من حساب التدرجات في كل خطوة زمنية، تقوم نماذج الاستدلال الهرمي بإجراء BPTT فقط على الحالة النهائية للوحدة L والحالة النهائية للوحدة H. ويعتمد هذا على افتراض مباشر: إذا كنت تعرف كيف يجب تغيير المخرجات النهائية وتحسين أوزان النموذج للتغيير إلى الحالات النهائية للوحدتين L وH وفقًا لذلك، فسيتولى كل شيء آخر الاهتمام بنفسه.
كما هو الحال مع العناصر الأخرى لنماذج الاستدلال الهرمي، فإن هذا يستلهم كل من علم الأعصاب والخبرة الشخصية المتناقلة على حد سواء. تخيل شخصًا (أو نموذجًا) يحاول تعلم لعبة موازنة الكتل في Jenga. إن المرء لا يحتاج إلى تعلم تحسين كل نقطة على حدة لكل خطوة. بافتراض أن الكتل معدة بطريقة معينة (الإدخال) وأن الحركة التي قمت بها أدت إلى سقوط كل شيء (النتائج)، فإن تحسين تقنيتك يتطلب فهما قويًا لأمرين فقط:
وجد مؤلفو الورقة البحثية أن هذا التقريب المكوَّن من خطوة واحدة لـ BPTT يعمل بشكل جيد بما فيه الكفاية بحيث يكون التحسين لهذين الاعتبارين فقط كافيًا لإنشاء ديناميكيات تعلم قوية ومستقرة.
تستخدم إدارة الموارد البشرية أيضًا حلقة خارجية تمكّن النموذج من تحسين مخرجاته النهائية بشكل متكرر في عملية يسميها مؤلفو وثيقة نموذج الاستدلال الهرمي "الإشراف العميق". أشار البحث اللاحق إلى أن الحلقة الخارجية، أكثر من الحلقة الداخلية، هي في النهاية أهم مكون في نموذج الاستدلال الهرمي.
في التعلم الخاضع للإشراف القياسي للشبكات العصبية، يتم تزويد النموذج المدرب بإدخال ويقوم بتمرير أمامي واحد لإنتاج مخرجات. وتقيس دالة الخسارة خطأ هذه المخرجات. ثم يستخدم الانتشار الخلفي لحساب تدرجات الخسارة: كيف أن أي تغيير في أي متغير من الشبكة العصبية سيزيد أو يقلل الخسارة الكلية. وأخيرًا، تستخدم بعض خوارزمية الانحدار التدرجي تلك المعلومات لتحديث معلمات النموذج. ثم تتم إعادة تشغيل هذه العملية التكرارية، وتتكرر حتى يتم تقليل الخسارة إلى حد مقبول.
لا يؤدي الإشراف العميق إلى إعادة تشغيل العملية بأكملها بعد أن ينتج النموذج تلك المخرجات الأولية من خلال تمرير أمامي واحد. وبدلاً من ذلك، يستلزم ذلك عدة تمريرات أمامية، يُشار إلى كل منها باسم "المقطع". وبعد كل جزء m، تُحسب الخسارة وتُحسّن معلمات النموذج وفقًا لذلك، ويتم بعد ذلك إدخال الحالات المخفية النهائية للوحدة H (zH) والوحدة L (zL) إلى النموذج كنقطة انطلاق للتمرير الأمامي التالي. وهذا يسمح للنموذج بتحسين مخرجاته بشكل متكرر، باستخدام ما "تعلمه" من تحديثات معلمات النموذج من المقطع السابق.
تتكرر هذه العملية لمقاطع M، حيث تكون نقاط بداية الحلقة الداخلية لكل مقطع لاحق m+1 و : بعبارة أخرى، الحالة المخفية النهائية للوحدة H والوحدة L بعد الحلقات الداخلية N من الخطوات الزمنية T خلال المقطع السابق m.
للحفاظ على كفاءة النموذج، أضاف مبتكرو نماذج الاستدلال الهرمي آلية وقت حساب تكيفية لمساعدة النموذج على التعلم عندما يكون ناتج معين جيدًا بما فيه الكفاية (أو، على العكس من ذلك، إذا كان يجب أن يبدأ حلقة تحسين أخرى). ولجعل ذلك ممكنًا، يدمج النموذج Q-learning، وهو نوع شائع من خوارزميات التعلم المعزز.
بعد كل مقطع، الحالة النهائية للوحدة عالية المستوى، يتم تمرير zH ليس فقط إلى شبكة الإخراج، ولكن أيضًا إلى وحدة أخرى يسمونها "Q-head"، مع أوزانها القابلة للتعلم. وبعد ضرب zH في أوزان Q-head، يتم استخدام دالة سيجمويد، التي تضغط أي إدخال إلى قيمة بين 0 و1، والتي تنتج قيمة للتوقف وقيمة للاستمرار. وإذا كانت قيمة التوقف أكبر، يقوم النموذج بإنشاء مخرجات نهائية. وإذا كانت قيمة الاستمرار أكبر، يبدأ النموذج مقطعًا آخر.
وبالتالي، فإن دالة الخسارة الإجمالية لعملية الإشراف العميق بعد كل جزء تجمع بين جزئين:
جزء واحد يعكس الخسارة للمهمة نفسها: ما مدى دقة مخرجات النموذج؟
أما الجزء الآخر فيعكس الخسارة من Q-head: إذا توقع النموذج قيمة أعلى لـ "الإيقاف" مقارنةً بـ "الاستمرار"، هل اتخذ القرار الصحيح؟
وبمرور الوقت، يتعلم النموذج إنفاق المزيد من الحوسبة، أي إجراء المزيد من حلقات التنقيح، على المشكلات الأصعب وإنفاق قدر أقل من الحوسبة على المشكلات الأسهل. وتجدر الإشارة إلى أن فكرة مماثلة، وإن كانت بتنفيذ مختلف، قد تم استكشافها في وقت مبكر جدًا في تاريخ المحولات.
أجرت جائزة ARC، مؤسسة غير ربحية تدير معيار ARC-AGI، تحليلاً خارجيًا لنماذج الاستدلال الهرمي ووجدت أن "حلقة التحسين الخارجية تُعد عاملًا أساسيًا في أداء نموذج الاستدلال الهرمي".
أثناء الاستدلال، أدت إضافة حلقة تحسين واحدة فقط إلى مضاعفة دقة نموذج الاستدلال الهرمي (من 18.6% إلى 35.5%). وجاءت مكاسب الأداء الإضافية، على الرغم من انخفاض العائدات بشكل كبير، في 8 حلقات (38.1%) و16 حلقة (39.0%). حتى بالنسبة لنموذج محول قياسي بدون حلقة داخلية (ولكن بنفس البنية وحجم النموذج وخط التدريب لنماذج الاستدلال الهرمي)، فإن إضافة حلقات تنقيح خارجية أدت إلى زيادات مماثلة في الأداء.
الحلقة الخارجية ضرورية أيضًا للتدريب. حتى عند الاحتفاظ بعدد حلقات التحسين بتكلفة الاستدلال، فإن إضافة حلقة تنقيح واحدة فقط في التدريب زادت من دقة النموذج من 19% (دون تنقيح) إلى 32% (مع تنقيح واحد). في الواقع، أظهرت التجارب الإضافية أن زيادة حلقات التنقيح أثناء التدريب كان لها تأثير أكبر بكثير من زيادة حلقات التنقيح أثناء الاستدلال. ومع عدم وجود حلقات تنقيح في التدريب أو الاستدلال، سجل النموذج 18.6%. ومع عدم وجود حلقات تنقيح أثناء الاستدلال و16 حلقة تنقيح أثناء التدريب، سجل النموذج 34.9%.
وعلى العكس من ذلك، فقد تبين أن الحلقة الداخلية توفر مثالًا صغيرًا نسبيًا على نموذج بالحجم نفسه يستبدل الوحدة H والوحدة L بكتل الانتباه الخاصة بنموذج المحول القياسي. ومن غير المؤكد ما إذا كانت هذه النتائج خاصة بالمهام الموجودة في معيار ARC-AGI أو عامة لجميع مهام الاستدلال التي قد يتعامل معها نموذج الاستدلال الهرمي.
على الرغم من أن نماذج الاستدلال الهرمي تقدم ابتكارات مهمة في هياكل الشبكات العصبية وتقنيات التدريب التي بدأت بالفعل تؤثر على البحث في التعلم العميق، إلا أن الفائدة العملية لنماذج الاستدلال الهرمي نفسها غير مؤكدة حاليًا.
مقارنةً بالنماذج اللغوية الكبيرة ذات الاستدلال الضخم، فإن نماذج الاستدلال الهرمي أصغر بكثير، وأرخص في التدريب وأرخص في التشغيل، ويمكن تدريبها على عدد سهل جدا من أمثلة التدريب. وهذا يتعارض مع فكرة أن الأداء لا يمكن تحقيقه إلا من خلال نماذج ضخمة ومجموعة بيانات التدريب خارج متناول معظم الباحثين والمؤسسات.
لكن فائدة نماذج الاستدلال السائدة تكمن في قدرتها المذهلة على التعميم: فإنها قادرة على أداء مهام استدلالية متخصصة للغاية في سياق فهم وتنفيذ مجموعة واسعة من مهام وتعليمات اللغة الطبيعية. والقدرات المحددة جدًا لنماذج الاستدلال الهرمي تجعل من الصعب جدًا دمجها في عمليات سير العمل الأكبر.
يمكن لنماذج الاستدلال الهرمي حل أنواع محددة جدًا من الألغاز التي رأتها أثناء التدريب. حتى إذا كان تنسيق لغز مختلف يستخدم قواعد ومنطقًا مشابهين جدًا لما تمت رؤيته من قبل، وهو مشابه جدًا لدرجة أن الشخص البشري في أحد أنواع الألغاز سيكون جيدًا في نوع آخر، لا يمكن لنموذج الاستدلال الهرمي التعامل معه. إن إدخال تحسينات على مسار التدريب تُتيح قدرة أكبر على الاستفادة من نقل التعلم عبر المهام من شأنه أن يزيد بشكل كبير من العملية التطبيقية لنماذج الاستدلال الهرمي.
على الرغم من أن نماذج الاستدلال الهرمي تظهر تجريبيًا القدرة على التفكير في حل المشكلات لتحسين مخرجاتها، فإن غياب "عملية تفكير" قابلة للتتبع يقلل بشكل كبير من قابليتها للتفسير. ومع ذلك، يجب ملاحظة أن قابلية التفسير تمثل مشكلة عامة في جميع أنظمة الذكاء الاصطناعي المدربة من خلال التعلم العميق، وأن الأبحاث تظهر أن الأسباب التي يقدمها النموذج اللغوي الكبير للمستخدم ليست دائمًا معبرة عن "عملية تفكيره" الحقيقية.