ما نموذج الاستدلال؟

مؤلف

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

ما نموذج الاستدلال؟

نموذج الاستدلال هو نموذج لغوي كبير (LLM) تم ضبطه بدقة لتقسيم المشكلات المعقدة إلى خطوات أصغر، والتي غالبًا ما تُعرَف باسم "آثار الاستدلال"، قبل إنشاء الناتج النهائي. لقد أدت الوسائل المتطورة بشكل متزايد لتدريب النماذج لاستخدام استدلال سلسلة الأفكار واستراتيجيات صنع القرار متعددة الخطوات الأخرى إلى تحقيق أداء متطور للغاية، وخاصةً فيما يتعلق بمعايير المهام التي تعتمد على المنطق مثل الرياضيات والبرمجة.

بدلًا من إنشاء استجابة مباشرة على الفور لمدخلات المستخدم، يتم تدريب نماذج الاستدلال على إنشاء "خطوات استدلال" وسيطة أولًا قبل الوصول إلى الإجابة النهائية المقدمة للمستخدم. بعض النماذج اللغوية الكبيرة الخاصة بالاستدلال تعرض للمستخدمين آثار استدلالها، بينما يقتصر البعض الآخر على تلخيص هذه المخرجات الوسيطة أو إخفائها بالكامل.

ببساطة، يتم تدريب النماذج اللغوية الكبيرة الخاصة بالاستدلال على قضاء وقت أطول في التفكير قبل أن تقدِّم ردها. لقد أظهرت الدراسات التجريبية أن إضافة "عملية الاستدلال" هذه تحقِّق تقدمًا كبيرًا في أداء النماذج اللغوية الكبيرة على المهام التي تتطلب استدلالًا معقدًا. لقد ساهم هذا النجاح في توسيع نطاق حالات الاستخدام الواقعية والمجالات التي يمكن تطبيق نماذج الذكاء الاصطناعي فيها، مشيرًا إلى نقطة تحول مهمة في مسار تطوير الذكاء الاصطناعي التوليدي ووكلاء الذكاء الاصطناعي.

ومع ذلك، تجدر الإشارة إلى أن المصطلحات المجسّمة مثل "عملية التفكير" الخاصة بالنموذج أكثر سهولة في الاستخدام من المصطلحات الحرفية. مثل جميع نماذج التعلم الآلي، فإن نماذج الاستدلال في النهاية تطبِّق خوارزميات متطورة للتنبؤات -مثل الكلمة التي يجب أن تأتي بعد ذلك- والتي تعكس الأنماط المكتسبة من بيانات التدريبلم تُظهر النماذج اللغوية الكبيرة الخاصة بالاستدلال أي وعي أو أي علامات على الذكاء الاصطناعي العام (AGI). أبحاث الذكاء الاصطناعي التي نشرتها Apple في يونيو 2025 تثير الشكوك حول إذا ما كانت قدرات الاستدلال الحالية للنماذج يمكن أن تتوسع لتصل إلى استدلال قابل للتعميم حقًا.1

ربما يكون من الأدق القول إن النماذج اللغوية الكبيرة الخاصة بالاستدلال يتم تدريبها على "إظهار خطوات عملها" من خلال توليد سلسلة من الرموز (الكلمات) التي تشبه عملية التفكير البشري - وأن هذا الفعل المتمثل في "التعبير اللفظي عن الأفكار" يبدو أنه يفتح القدرات الاستدلالية الكامنة التي تتعلمها النماذج ضمنيًا من مجموعتها الضخمة من بيانات التدريب (التي تحتوي على أمثلة لأفراد يوضِّحون عملياتهم بشكل مباشر وغير مباشر). 

تم تقديم مفهوم "نموذج الاستدلال" لأول مرة من قِبَل OpenAI من خلال o1-preview (و o1-mini) في سبتمبر 2024،2 تلاها طرح Qwen with Questions (QwQ-32B-preview) من Alibaba في نوفمبر، ثم تجربة Gemini 2.0 Flash من Google في ديسمبر. شكَّل إصدار نموذج DeepSeek-R1 مفتوح المصدر في يناير 2025 خطوة مهمة في تطوير النماذج اللغوية الكبيرة الخاصة بالاستدلال. بينما كانت عمليات التدريب المستخدمة لضبط نماذج الاستدلال السابقة تُعَد أسرارًا محمية عن كثب، أصدرت DeepSeek ورقة تقنية مفصلة قدَّمت خارطة طريق لبقية مطوري النماذج. منذ ذلك الحين، أصدرت كلٌّ من IBM Granite وAnthropic وMistral AI، من بين آخرين، نماذجها اللغوية الكبيرة للاستدلال.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

لماذا تنجح نماذج الاستدلال؟

إن إضافة "عملية تفكير" لمخرجات النموذج تقلِّل من العديد من العيوب الكامنة في استدلال النماذج اللغوية الكبيرة التقليدية، من خلال مساعدة النموذج على تجنُّب الاختصارات المعرفية الضارة وإبراز مزيد من المعرفة المحتملة ذات الصلة التي تعلَّمها من بيانات التدريب.

في سياق النماذج اللغوية الكبيرة الخاصة بالاستدلال، تشير الأدبيات البحثية في مجال الذكاء الاصطناعي غالبًا إلى التفكير System 1 وSystem 2، وهي مصطلحات صاغها الاقتصادي السلوكي الحائز على جائزة نوبل، Daniel Kahneman، في كتابه الشهير Thinking, Fast and Slow.نظام التفكير System 1 سريع وغير واعٍ وحدسي، ويعتمد على القواعد الإرشادية ويتطلب جهدًا ضئيلًا أو معدومًا. نظام التفكير System 2 بطيء ومتعمّد ومنطقي، ويتطلب جهدًا مركزًا. تميل النماذج اللغوية الكبيرة ذاتية الانحدار (Autoregressive LLMs) بشكل افتراضي إلى استخدام نظام التفكير System 1.3

في بعض المهام، يكون استخدام نظام التفكير System 1 فعَّالًا وموفِّرًا من الناحية الحسابية. لكن بالنسبة للعديد من المهام الأخرى، يقصِّر نظام التفكير System الاندفاعي عن الأداء المطلوب. على سبيل المثال، أشار مقال نُشر عام 2023 من قِبَل باحثي Meta، ‏Jason Weston وSainbayar Sukhbaatar، إلى أن النماذج اللغوية الكبيرة تتأثر بسهولة بوجود سياق غير ذي صلة أو تفاصيل ذاتية في المطالبة المُدخلة.

أمثلة على النماذج اللغوية الكبيرة مثال على كيفية تشتيت نماذج اللغة الكبيرة غير القائمة على الاستدلال غالبًا بواسطة المعلومات غير ذات الصلة. مأخوذ من ورقة بحثية بعنوان "System 2 Attention (is something you might need too)".

اقترحوا فئة من التقنيات أطلقوا عليها اسم "System 2 Attention" (S2A)، حيث يُطلب من النموذج أولًا توليد نسخة مُعاد صياغتها من المطالبة الأصلية بعد إزالة السياق غير ذي الصلة، ثم الإجابة عن تلك المطالبة المُعاد صياغتها. في التجارب، تفوَّق S2A على الاستدلال القياسي في مجموعة متنوعة من المهام، حيث ساعد على زيادة الدقة وتقليل التملق.

أمثلة على النماذج اللغوية الكبيرة يُعَد S2A طريقة مبكرة لتوسيع نطاق الاستدلال. من خلال إضافة خطوات بين المدخلات والاستجابة -في هذه الحالة، لإعادة صياغة المطالبة الأصلي- تحسِّن النماذج مخرجاتها النهائية. مأخوذ من ورقة بحثية بعنوان "System 2 Attention (is something you might need too)".

من الناحية المفاهيمية، يمكن فهم الهدف الضمني لأساليب الاستدلال على أنه تنفيذ سلوك نموذجي مشابه للنظام System 2، يقوم بالاستكشاف والتقييم وتحسين المخرجات المحتملة.

جاءت خطوة أساسية من أبحاث النماذج اللغوية الكبيرة المبكرة، حيث أظهرت أن مجرد إضافة عبارة "فكِّر خطوة بخطوة" -المعروفة باسم "المطالبة بسلسلة الأفكار"- تحسِّن مخرجات النموذج بشكل كبير.4، 5 أشارت ورقة بحثية صدرت عام 2024 من Google DeepMind إلى تأكيد أوسع: زيادة قدرة الحوسبة أثناء الاختبار (الموارد المستخدمة لتوليد المخرجات) تحسِّن أداء النموذج بقدر ما تفعل زيادة قدرة الحوسبة أثناء التدريب (الموارد المستخدمة لتدريب النموذج).6تُعَد المطالبة بسلسلة الأفكار مجرد واحدة من العديد من تقنيات توسيع نطاق الاستدلال، مثلما هو الحال مع S2A.

تتجاوز النماذج اللغوية الكبيرة الحديثة الخاصة بالاستدلال ذلك: فبدلًا من الاعتماد على تصميم المطالبة، تستخدم تقنيات ضبط دقيقة مبتكرة ومهام سير عمل متقدمة لزيادة ذاتيّة في كمية الحوسبة التي يستخدمها النموذج أثناء الاستدلال. يتضمن تحسين نموذج الاستدلال كلًا من التحدي التقني المتمثل في تطوير الخوارزميات وبيانات التدريب، والتحدي الفلسفي المتمثل في تصميم "عملية تفكير" مثالية.

كيفية عمل نماذج الاستدلال

المراحل الأولية لتدريب النماذج اللغوية الكبيرة الخاصة بالاستدلال تشبه مراحل تدريب النماذج اللغوية الكبيرة التقليدية. مثل النماذج اللغوية الكبيرة التقليدية، تكتسب النماذج اللغوية الكبيرة الخاصة بالاستدلال قدراتها اللغوية العامة ومعرفتها بالعالم من خلال التدريب المسبق الخاضع للإشراف الذاتي واسع النطاق، يتَّبعه قدر معين من التدريب الدقيق الخاضع للإشراف (SFT) لتكييفها مع المهام اللاحقة، مثل استخدام روبوتات المحادثة التفاعلية. الابتكار الرئيسي يكمن في تطبيق تقنيات التعلم المعزز (RL) المبتكرة، التي تحفِّز النموذج على توليد "خطوات استدلالية" وسيطة أثناء الاستدلال قبل إنتاج المخرجات النهائية.

سنوات من البحث والتجربة أسفرت عن مجموعة متزايدة بشكل هائل من أساليب الاستدلال، لكنها جميعًا تشترك في الهدف الأساسي المتمثل في "زيادة الحوسبة أثناء وقت الاختبار". بعيدًا عن النموذج الأساسي (أو المضبوط للتعليمات) الذي يشكِّل أساسها، تميّز النماذج اللغوية الكبيرة الخاصة بالاستدلال نفسها باستراتيجيات اتخاذ القرار المحددة التي يتم تدريبها على استخدامها وبالخوارزميات المحددة المستخدمة لتحفيز هذا السلوك.

بشكل عام، هناك طريقتان رئيسيتان لزيادة الحوسبة المستخدمة أثناء وقت الاستدلال. الهدف من ضبط نموذج الاستدلال هو تدريبه على استخدام واحدة (أو كِلتا) من هاتين الطريقتين العامتين عبر خوارزميات تعلُّم مختلفة.

  • توليد مخرجات أطول: يتعلم النموذج توليد تسلسلات مخرجات أطول عبر استراتيجيات مثل "سلسلة أفكار طويلة"، و"التراجع"، و"التنقيح الذاتي".

  • توليد مخرجات متعددة: بدلًا من إنتاج مخرج واحد استجابةً للمطالبة، يعمل النموذج على توليد عدة نسخ من مخرجاته، ويصل إلى الإجابة النهائية من خلال عملية البحث والرفض وتجميع المخرجات المحتملة. 

طبيعة نماذج التعلم التي تُنتج النماذج اللغوية الكبيرة الخاصة بالاستدلال تتطلب عادةً التدريب والتقييم على مشكلات يمكن التحقق من حلولها، مثل مهام البرمجة أو مسائل الرياضيات. وبالتالي فإن المقاييس المعيارية المستخدمة لتقييم أداء النموذج المنطقي تركِّز عادةً على تلك المجالات. تم إجراء أبحاث أقل بكثير حول تأثير التفكير في المجالات الأكثر ذاتية، مثل الكتابة الإبداعية.

الضبط الدقيق للتعزيز

كان التقدم في ضبط النماذج اللغوية الكبيرة الخاصة بالاستدلال المعتمد على "التعلم المعزز (RL)" أمرًا محوريًا في صعودها، ويشمل كلًا من التعلم المعزز القائم على القواعد والتعلم المعزز القائم على التعلم العميق (deep RL) في سياق النماذج اللغوية الكبيرة. بينما يتطلب التعلم الخاضع للإشراف والتعلم الخاضع للإشراف الذاتي مهام تدريب محددة وثابتة، فإن "التعلم المعزز (RL)" مناسب تمامًا للمهام الديناميكية والمعقدة والمفتوحة التي يكون فيها التفكير متعدد الخطوات أكثر فائدة.

استخدام "التعلم المعزز (RL)" لضبط النماذج اللغوية الكبيرة بطريقة تمنحها صفات مجردة ليس مقتصرًا على النماذج اللغوية الكبيرة الخاصة بالاستدلال فقط. على سبيل المثال، يكون مسار التدريب القياسي للنماذج اللغوية الكبيرة المخصصة للاستخدام في بيئات روبوتات المحادثة كما يلي:

  1. التدريب المسبق الخاضع للإشراف الذاتي، حيث يتعلم النموذج الأنماط اللغوية والمعرفة الأساسية التي سيتم تطبيقها على المهام النهائية.

  2. الضبط الدقيق الخاضع للإشراف (SFT)، حيث يتعلم النموذج كيفية تنسيق استجاباته لمدخلات المستخدم بشكل صحيح.

  3. ضبط التعليمات، حيث يتعلم النموذج كيفية اتباع التعليمات وأداء مهام محددة.

  4. التعلم المعزز من التعليقات البشرية (RLHF)، حيث يتم ضبط النموذج على بيانات التفضيلات البشرية لإضفاء صفات ذاتية مثل المساعدة، وعدم الإضرار، والصدق، والنبرة المثالية.

عادةً ما تمر النماذج اللغوية الكبيرة الخاصة بالاستدلال بنفس مراحل التدريب تلك، مع إضافة (في مرحلة ما) مرحلة التعلم المعزز (RL) التي تزرع عملية استدلالية منتِجة قائمة على "سلسلة الأفكار". يتم تحقيق ذلك عن طريق تحديد أهداف عملية الاستدلال هذه -السلوكيات المحددة للنموذج التي يجب أن "تكافأ"، مثل توليد "سلاسل الأفكار" قبل المخرجات النهائية- ثم تحسين أوزان النموذج بطريقة تزيد من المكافأة.

نظرًا لأنه من الصعب أو حتى المستحيل تصميم دالة مكافأة صريحة لمهمة مجردة ومعقدة مثل عملية التفكير التي ستكون فعَّالة لجميع حل المشكلات المعقدة، فإن إشارة المكافأة هذه غالبًا ما تأتي من نموذج مكافأة منفصل يُستخدَم أثناء التدريب. في RLHF، يتم تدريب نموذج المكافأة هذا نفسه على التعليقات البشرية ويتعلم التنبؤ بدرجة رقمية لمدى تفضيل الإنسان لاستجابة معينة.

في سياق "التعلم المعزز (RL)" للنماذج اللغوية الكبيرة الخاصة بالاستدلال، يمكن تقسيم إشارات المكافأة إلى ثلاث فئات رئيسية: نماذج مكافأة النتائج (ORMs)، ونماذج مكافأة العمليات (PRMs)، وأنظمة المكافأة القائمة على القواعد.

نماذج مكافأة النتائج (ORMs)

كما يوحي اسمها، تتحقق نماذج مكافأة النتائج (ORMs) من دقة المخرجات النهائية لنموذج الاستدلال وتوفِّر إشارات مكافأة تُستخدَم لتحسين أوزان النموذج وفقًا لذلك. يشبه هذا من الناحية الظاهرية دور دالة الخسارة في التعلم الخاضع للإشراف، رغم أن الآليات غالبًا ما تكون أكثر تعقيدًا.

بينما تقيس دالة الخسارة عادةً الانحراف بين كل رمز من مخرجات النموذج والنتيجة الصحيحة، يجب على "نماذج مكافأة النتائج" (ORMs) الفعَّالة أن تكون قادرة على التعرُّف على الإجابة الصحيحة لمسألة رياضية حتى عندما يتم تقديمها بشكل مختلف عن الإجابة الصحيحة المتوفرة، وهو أمر شائع بسبب التباين الكبير في مخرجات "سلاسل الأفكار" الطويلة. وبالمثل، تحتوي معظم مشكلات البرمجة الواقعية على حلول متعددة: فالتقييم الشامل لمخرجات الكود يتطلب عادةً مسار بيانات ينفِّذ ويحقق كفاءة مقاطع الكود بشكل فعَّال. يمكن استخدام نموذج لغوي كبير قياسي كأداة للتحقق من خصائص مخرجات أخرى، مثل مدى التزامها بالتنسيق أو التعليمات المحددة.

بينما تُعَد "نماذج مكافأة النتائج" (ORMs) حلًا نسبيًا مباشرًا وفعَّالًا من الناحية الحسابية، فقد تكافئ أحيانًا الحالات التي تؤدي فيها خطوات استدلالية خطأ إلى الوصول إلى إجابة نهائية صحيحة، ما يجعل النموذج يتعلم عمليات استدلال دون المستوى الأمثل.

نماذج مكافأة العمليات (PRMs)

تعمل نماذج مكافأة العمليات (PRMs) على تقييم ومكافأة (أو معاقبة) كل خطوة استدلالية على حدة، بدلًا من التركيز فقط على دقة الإجابة النهائية. يوفر هذا إشارات مكافأة أكثر تفصيلًا وتعديلات لاحقة للنموذج، ما يؤدي إلى نماذج ذات عملية استدلال أكثر قوة وقابلية للفهم.

ومع ذلك، تُعَد نماذج مكافأة العمليات (PRMs) أكثر تكلفة وتستغرق وقتًا أطول للتدريب والتنفيذ. اعتمدت الأساليب المبكرة المؤثِّرة في نماذج مكافأة العمليات (PRMs) بشكل شبه كامل على تصنيف البيانات المرهق بواسطة المعلّقين البشريين.7 تعمل أساليب أخرى على أتمتة هذه العملية من خلال استنتاج صحة خطوة الاستدلال بناءً على عدد المرات التي تؤدي فيها إلى إجابة صحيحة.8

أنظمة المكافأة القائمة على القواعد

لتجنب التكاليف والتعقيدات المرتبطة بنماذج المكافأة، تعمل بعض أساليب الضبط القائمة على "التعلم المعزز" (RL) على تصميم مهام التدريب بطريقة تبسِّط عملية تقييم مخرجات النموذج. على سبيل المثال، تعمل تقنيات DeepSeek-R1 وR1-Zero على تحفيز النماذج على وضع إجاباتها النهائية داخل مربع منفصل، ما يسمح بالتحقق من الدقة دون الحاجة إلى نموذج مكافأة متخصص يجب أن يحلل الاستجابة بأكملها. تشجِّع أنظمة المكافأة الأخرى القائمة على القواعد على القيام بإجراءات دقيقة محددة، مثل إضافة "انتظر" إلى نهاية الاستجابة لتحفيز المزيد من الاستكشاف والتصحيح الذاتي، ويمكن التحقق منها بسهولة.9

DeepSeek-R1-Zero: التعلم المعزز الخالص

كانت تقنية ضبط التعلم المعزز البسيطة، التوضيحية والمؤثِّرة بشكل كبير، من ابتكار DeepSeek أثناء تدريب نموذج الاستدلال التجريبي مفتوح المصدر R1-Zero.

باستخدام DeepSeek-V3 كأساس، انتقلت DeepSeek مباشرةً من مرحلة التدريب المسبق إلى مخطط تعلُّم معزز قائم على القواعد بسيط للغاية:

  • استعلام النموذج: طرح سؤال على النموذج. مطالبته بإخراج عملية أفكار بين "<think> " و"</think> " من الرموز المميزة، وإخراج إجابتها النهائية بين "<answer> " و"</answer> " من الرموز المميزة.

  • مكافآت الدقة: تكافئ النموذج على جودة الإجابة النهائية، مثل مدى كفاءة تشغيل الكود الذي يولده.

  • مكافآت التنسيق: مكافأة النموذج على استخدام النموذج بشكل صحيح باستخدام تنسيق "<think> </think> " و"<answer> </answer> " في الردود.

من المدهش أنه، دون أي تعليمات صريحة للقيام بذلك، تعلَّم DeepSeek-R1-Zero توليد سلاسل أفكار معقدة واستخدام استراتيجيات استدلالية أدت إلى أداء مميز في مهام الرياضيات والاستدلال. بعبارة أخرى، عندما يُطلب من النموذج فقط أن "يفكر" قبل إعطاء الإجابة النهائية وأن يسعى إلى زيادة دقة الإجابات النهائية، يعمل النموذج تلقائيًا على استكشاف واكتشاف أنماط الاستدلال المُثلى.

من الناحية العملية، كان لهذا النهج المبسَّط عيوب مهمة: كما يوضِّح البحث الفني، "يواجه DeepSeek-R1-Zero تحديات مثل التكرار المستمر، وضعف القراءة، وخلط اللغات". ومع ذلك، كان هذا النهج المبني على "التعلم المعزز" الخالص أساسًا للمنهجية الأكثر تطورًا التي أنتجت النموذج الشهير جدًا DeepSeek-R1.

الأساليب القائمة على البحث والعينات

بينما تهدف معظم أنماط "التعلم المعزز" القائمة على سلاسل الأفكار (CoT) إلى تحسين فاعلية مخرجات نموذج واحد، تعمل طرق أخرى على توليد عدة مخرجات نهائية أو وسيطة بهدف تحديد وتحفيز أفضل خطوات الاستدلال.

يعتمد العديد من هذه الأساليب على خوارزميات تحسين قائمة على البحث، مثل "بحث شجرة Monte Carlo" (MCTS)، لتوليد واستكشاف عدة خطوات استدلال محتملة لاحقة وتقييمها بناءً على جودة الخطوات التالية والإجابات النهائية التي قد تؤدي إليها. ثم يتم نشر المكافأة بشكل متكرر من خلال مسارات التفكير التي أدت إلى نتائج مطلوبة، ويتم تحسين الأوزان بطريقة تزيد من احتمالية خطوات التفكير هذه. هذا مفيد بشكل خاص لمهام الاستدلال التي تحتوي على نطاق واسع جدًا من القرارات المحتملة أو التي تتطلب تخطيطًا طويل المدى بشكل مكثف للوصول إلى إجابة نهائية دقيقة.

من الأساليب الأخرى الاتساق الذاتي، ويُعرَف أيضًا باسم التصويت بالأغلبية. تبدأ كل مهمة بالمطالبة بسلسلة الأفكار. يتم أخذ عينات من الاستجابات المتعددة، ولكل منها مسارات التفكير الخاصة بها، من وحدة فك ترميز النموذج. تم يتم تحديد الإجابة النهائية التي تظهر بشكل أكثر اتساقًا بين المخرجات التي تم أخذ عينات منها لتكون الإجابة المُثلى. يمكن استخدام ذلك كاستراتيجية وقت الاستدلال لتقليل العشوائية والهلوسة أو كوسيلة لتوليد بيانات استدلالية عالية الجودة للطرق القائمة على SFT.

العيب الرئيسي لمثل هذه الأساليب هو زيادة زمن الاستجابة والعبء الحسابي الذي تسببه. ومع ذلك، تشير بعض الأبحاث إلى أن النماذج الأصغر التي تستخدم خوارزميات الاستدلال القائمة على البحث أو العينات قد توفِّر توازنًا أفضل بين الأداء والكفاءة مقارنةً بالنماذج الأكبر المستخدمة تقليديًا.10

أساليب الضبط الدقيق الخاضعة للإشراف، وتقطير المعرفة، والتحسين الذاتي

من أبسط الطرق من الناحية المفاهيمية لضبط النماذج للاستدلال هي استخدام التعلم الخاضع للإشراف على مجموعة بيانات تتضمن مدخلات صعبة والمخرجات المقابلة المبنية على سلاسل الأفكار (CoT).

بينما يُعَد جمع مجموعة بيانات تدريبية بالطريقة التقليدية "يدويًا" عبر أمثلة مكتوبة بواسطة البشر مستهلكًا للوقت والجهد بشكل كبير، فقد جعل انتشار نماذج الاستدلال وتقنيات توسيع الاستدلال من السهل نسبيًا توليد بيانات تدريب اصطناعية مناسبة. أظهرت أبحاث أجرتها جامعة ستانفورد ومعهد Allen Institute للذكاء الاصطناعي أنه بعد ضبط نموذج Qwen2.5-32B-Instruct على مجموعة بيانات منسَّقة تحتوي على 1,000 زوج فقط من الأسئلة وسلاسل الاستدلال، تمكَّن نموذجهم "s1" من التفوق على نموذج o1-preview من OpenAI في مسائل الرياضيات التنافسية.

يمكن أيضًا استخدام تقطير المعرفة لتعليم النماذج الأصغر تقليد عمليات التفكير لنماذج الاستدلال الأكبر عن طريق ضبطها باستخدام SFT مباشرةً على المخرجات التي يولِّدها نموذج "المعلم" الأكبر. استخدمت DeepSeek تقطير المعرفة، مع نموذج DeepSeek-R1 كنموذج "معلم"، لإنشاء نسخ مضبوطة للاستدلال من نماذج Qwen وLlama بأحجام متعددة.

تهدف طرق أخرى إلى إنشاء مجموعة بيانات من الموجِّهات والمخرجات الطويلة لسلاسل الأفكار (CoT) من خلال عملية "تحسين ذاتي" للنموذج. يقدِّم Self-Taught Reasoner (STaR) أمثلة بمطالبات قليلة لسلاسل الأفكار الفعَّالة، ثم يوجِّه النموذج لتوليد إجابات وتبريرات لعدد أكبر من الأسئلة النموذجية. ثم يتم بعد ذلك ضبط النموذج على الأسس المنطقية التي أسفرت في النهاية عن إجابات صحيحة، وبعد ذلك يتم تكرار العملية بشكل دوري.11 يطبِّق التدريب الذاتي المعزز (ReST) نهجًا مفاهيميًا مشابهًا لضبط إشارة المكافأة (أو "السياسة") المستخدمة في الضبط الدقيق المعزز.12 وكلاهما أسفر عن عدد من المنهجيات المشتقة.

أكاديمية الذكاء الاصطناعي

اختر نموذج الذكاء الاصطناعي المناسب لحالة الاستخدام لديك

الكفاءة في نماذج الذكاء الاصطناعي لا تتناسب طرديًا مع حجمها. تعرّف على طريقة العثور على الخيار المناسب لتلبية احتياجات أعمالك. ثم احصل على الدليل الإرشادي لمساعدتك على اتخاذ الإجراءات اللازمة.

تحديات نماذج الاستدلال

على الرغم من مزاياها العديدة وفوائدها، فإن النماذج اللغوية الكبيرة للاستدلال ليست خالية من العيوب.

الإفراط في التفكير

تميل نماذج الاستدلال -وخاصةً تلك التي تحتوي على عدد قليل نسبيًا من المَعلمات- إلى الإفراط في التفكير. أظهرت دراسة من Tencent أن نماذج الاستدلال تستهلك في المتوسط 1,953% من الرموز المميزة أكثر من النماذج التقليدية للوصول إلى الإجابة نفسها.13أظهرت دراسة أخرى، أجراها باحثون من عدة جامعات، أن نماذج الاستدلال في البيئات الوكيلة تميل إلى الانخراط في استدلال دائري ممتد بدلًا من التفاعل مع الأدوات والمصادر الخارجية للمعلومات.14

حدود القياس الاستدلالي

أكدت أبحاث نشرتها Anthropic في يوليو 2025 أن هذا الإفراط في التفكير ليس مجرد مسألة كفاءة: حيث يستعرض بحثهم "حالات يكون فيها الاستدلال الطويل مضرًا بالأداء، ويُظهر علاقة عكسية بين الموارد الحسابية أثناء الاختبار والدقة". على الرغم من إثبات أن زيادة الموارد الحسابية أثناء الاختبار غالبًا ما تحسِّن أداء النموذج، أظهرت أبحاثهم عدة سيناريوهات يكون فيها الاستدلال الأطول قد زاد من نقاط ضعف النموذج ومشكلات المحاذاة، متحديًا "الافتراض القائل بأن المزيد من الاستدلال يحسِّن مخرجات النموذج بشكل عام".15

أظهرت أبحاث ذات صلة أجرتها Apple في وقت سابق من 2025 سلسلة من المهام منخفضة التعقيد التي تفوقت فيها النماذج التقليدية على نماذج الاستدلال، بالإضافة إلى مهام عالية التعقيد فشل فيها كِلا نوعَي النماذج تمامًا. في استكشافات Apple، "تفشل نماذج الاستدلال في تطوير قدرات حل مشكلات قابلة للتعميم لمهام التخطيط، حيث ينهار الأداء إلى الصفر عند تجاوز حد معين من التعقيد."1

التدهور في المجالات غير الاستدلالية

على الرغم من أن ضبط النماذج للاستدلال يحقق عادة تحسينًا كبيرًا في المهام المعقدة في المجالات المنطقية مثل الرياضيات والبرمجة، فإنه قد يؤدي أيضًا إلى تراجع الأداء في مجالات أخرى. على سبيل المثال، مقارنةً بنظيراتها الأصلية، أظهرت نسخ Llama 3.1 وQwen2.5 التي تم ضبطها عبر تقطير المعرفة باستخدام DeepSeek-R1 تراجعًا في أداء ArenaHard وAlpaca-Eval-2، وهما مؤشران شائعان يقيسان قدرة النموذج على التفكير لحل التعليمات الصعبة. ومع ذلك، فإن تقنيات الاستدلال الموجَّهة بشكل أوسع، مثل تحسين تفضيل التفكير (TPO) المستخدم لضبط IBM Granite 3.2، تعمل على تحسين كبير في اتباع التعليمات (وإن كان دون تأثير ملموس في أداء الرياضيات أو البرمجة).

تقييمات النماذج اللغوية الكبيرة أدى ضبط نماذج Llama وQwen لتقليد عملية الاستدلال في DeepSeek-R1 إلى تحسين الأداء في مجالات منطقية محددة، لكنه خفَّض القدرة العامة على اتباع التعليمات.

زيادة التكلفة وزمن الانتقال

يجب على المستخدمين الدفع (والانتظار) مقابل جميع الرموز المميزة التي يولِّدها النموذج أثناء "التفكير"، وتستهلك هذه الرموز المميزة مساحة نافذة السياق المتاحة. تبرر بعض حالات الاستخدام هذا الوقت الإضافي والحوسبة، ولكن بالنسبة للآخرين يُعَد ذلك إهدارًا للموارد. ومع ذلك، فإن التحول المستمر من نموذج الاستدلال إلى نموذج "قياسي" على أساس كل مهمة على حدة، وكل مطالبة على حدة، عادةً ما يكون غير عملي.

جهد الاستدلال ونماذج الاستدلال الهجينة

أحد الحلول هو "نماذج الاستدلال الهجينة". في فبراير 2025، أصبح IBM Granite 3.2 أول نموذج لغوي كبير يقدِّم وضع "التفكير" القابل للتشغيل والإيقاف، ما يُتيح للمستخدمين الاستفادة من الاستدلال عند الحاجة، وإعطاء الأولوية للكفاءة عند عدم الحاجة.16 تبع ذلك في وقت لاحق من نفس الشهر إصدار Claude 3.7 Sonnet من شركة Anthropic، الذي أضاف إمكانية لمستخدمي واجهة برمجة التطبيقات للتحكم الدقيق في مدة "تفكير" النموذج.17 قدمت Google ميزة مشابهة لضبط "ميزانية التفكير" لنماذج Gemini.‏18 وبالمثل، يمكن تحديد مستوى "جهد الاستدلال" في نماذج الاستدلال o1 وo3 من OpenAI على أنه "منخفض"، أو "متوسط"، أو "عالٍ".

قابلية التفسير

من المفترض أن عرض سلسلة أفكار النموذج للمستخدم يساعد على فهم الطريقة التي يصل بها النموذج اللغوي الكبير إلى إجاباته النهائية، ما يوفر قابلية تفسير أكبر مقارنةً بالنموذج العادي. لكن أبحاث شركة Anthropic تُشير إلى أن نماذج الاستدلال لا تعبِّر دائمًا عما تفكر فيه فعليًا. عبر مجموعة من المهام المصممة خصيصًا، اكتشَف الباحثون أن كلًا من Claude 3.7 Sonnet وDeepSeek-R1 لم يفسِّرا استدلالاتهما بشكل دقيق؛ فعلى سبيل المثال، عند تزويدهما بتلميحات للإجابة الصحيحة، نادرًا ما كانت ردودهما تُشير إلى هذه التلميحات عند شرح ما يُفترض أنه المنطق وراء الإجابة.19

حلول ذات صلة
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai استكشف نماذج الذكاء الاصطناعي من IBM Granite
الحواشي

جميع الروابط موجودة خارج ibm.com ما لم تتم الإشارة إلى خلاف ذلك.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity," Apple Machine Learning Research, June 2025
2. "Introducing OpenAI o1-preview," OpenAI, 12 September 2024
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models," arXiv, 24 February 2025 
4. "Large Language Models are Zero-Shot Reasoners," arXiv, 24 May 2022
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models," arXiv, 30 November 2022
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters," arXiv, 6 August 2024
7. "Let's Verify Step by Step," arXiv, 31 May 2023
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations," arXiv, 14 December 2023
9. "s1: Simple test-time scaling," arXiv, 31 January 2025
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models," arXiv, 1 August 2024
11. "STaR: Bootstrapping Reasoning With Reasoning," arXiv, 28 March 2022
12. "Reinforced Self-Training (ReST) for Language Modeling," arXiv, 17 August 2023
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs," arXiv, 30 December 2024
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks," arXiv, 12 February 2025
15. "Inverse Scaling in Test-Time Compute," arXiv, 19 July 2025
16. "Bringing reasoning to Granite," IBM Research, 7 February 2025
17.  "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 February 2025
18. "Generative AI on Vertex AI: Thinking," Google
19. "Reasoning models don't always say what they think," Anthropic, 3 April 2025