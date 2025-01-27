قفز نموذج الذكاء الاصطناعي DeepSeek-R1، الذي طوّرته شركة DeepSeek الصينية الناشئة، إلى صدارة قوائم النماذج الأكثر تحميلًا ونشاطًا على منصة الذكاء الاصطناعي مفتوحة المصدر Hugging Face بعد ساعات فقط من إطلاقه الأسبوع الماضي. وأثار النموذج كذلك هزّة في الأسواق المالية، إذ دفع المستثمرين إلى إعادة النظر في تقييمات شركات تصنيع الرقائق مثل NVIDIA، وفي الاستثمارات الضخمة التي تضخّها كبرى شركات الذكاء الاصطناعي الأمريكية لتوسيع أعمالها في هذا المجال.
لماذا كل هذا الجدل وهذا الزخم؟ يُصنَّف DeepSeek-R1 ضمن فئة "نماذج الاستدلال"؛ فهو مساعد رقمي يقدّم أداءً مماثلًا تقريبًا لـ o1 من OpenAI في بعض اختبارات الذكاء الاصطناعي الخاصة بمهام الرياضيات والبرمجة، وقد جرى تدريبه باستخدام عدد أقل بكثير من الرقائق، كما أن تكلفة استخدامه — وفقًا للشركة — أقل بنحو 96%.
يقول Kaoutar El Maghraoui، عالِم أبحاث رئيسي ومدير في IBM AI Hardware: "لا شك أن DeepSeek يعيد تشكيل مشهد الذكاء الاصطناعي، ويتحدّى العمالقة بطموحه في المصدر المفتوح وبما يقدّمه من ابتكارات متقدّمة."
وفي الوقت نفسه، أعلنت شركة ByteDance، عملاق التقنية الصيني ومالكة TikTok، مؤخرًا عن وكيل الاستدلال الخاص بها UI-TARS، الذي تقول إنه يتفوّق على GPT-4o من OpenAI وClaude من Anthropic وGemini من Google في بعض اختبارات القياس المعيارية. ويمكن لوكيل ByteDance قراءة الواجهات الرسومية، والاستدلال، واتخاذ إجراءات مستقلة خطوة بخطوة.
ومن الشركات الناشئة إلى الكيانات الراسخة، يبدو أن شركات الذكاء الاصطناعي الصينية تُقلِّص الفجوة مع نظيراتها الأمريكية، ويُعزى ذلك بدرجة كبيرة إلى استعدادها لإتاحة التعليمات البرمجية الأساسية كمصدر مفتوح أو مشاركتها مع شركات أخرى ومطوّري البرمجيات. يقول Abraham Daniels، مدير منتج تقني أول لنموذج IBM Granite: "استطاعت DeepSeek نشر نماذج قوية للغاية على نطاق واسع داخل مجتمع المطوّرين." ويُطرَح DeepSeek-R1 على منصة Hugging Face بموجب ترخيص MIT الذي يتيح استخدامه تجاريًا من دون قيود. ويضيف: "بإمكان DeepSeek بالفعل تسريع انتشار تقنيات الذكاء الاصطناعي على نطاق واسع."
في صيف العام الماضي، كشفت الشركة الصينية Kuaishou عن أداة لتوليد الفيديو شبيهة بأداة Sora من OpenAI، لكنها كانت متاحة للجمهور منذ اليوم الأول. أما Sora فجرى الإعلان عنها في فبراير الماضي، لكنها لم تُطرح بالكامل إلا في ديسمبر، وحتى عندئذٍ لم يتمكّن من استخدام جميع مزاياها إلا المشتركون في ChatGPT Pro. كما سارع المطوّرون على منصة Hugging Face إلى اعتماد نماذج مفتوحة المصدر جديدة قدّمتها شركتا التقنية الصينيتان Tencent وAlibaba. وبينما طرحت Meta نماذج Llama الخاصة بها كمصدر مفتوح، لا تزال كلٌّ من OpenAI وGoogle تتّبع نهجًا يغلب عليه الطابع المغلق في تطوير نماذجها.
إلى جانب ما يتيحه التوجّه مفتوح المصدر، استخدم مهندسو DeepSeek جزءًا صغيرًا فقط من شرائح NVIDIA المتخصِّصة التي يعتمد عليها منافسوهم الأمريكيون في تدريب أنظمتهم. فقد أوضح مهندسو DeepSeek، على سبيل المثال، أنهم احتاجوا إلى نحو 2000 وحدة معالجة رسومات (GPUs) فقط لتدريب نموذجهم DeepSeek-V3، وذلك بحسب ورقة بحثية نُشرت بالتزامن مع طرح النموذج.
يقول Kush Varshney، زميل IBM: "ما يلفت الانتباه حقًا هو قدرة نماذج DeepSeek على الاستدلال". ويتابع Varshney موضحًا أن نماذج الاستدلال تقوم في جوهرها بمراجعة نفسها والتحقق من مخرجاتها، وهو ما يشبه نوعًا من "التفكير في طريقة التفكير" لدى النموذج. "نحن نبدأ الآن في إدخال قدر من الحكمة إلى هذه النماذج، وهذه خطوة كبيرة فعلًا".
أصبحت نماذج الاستدلال محور النقاش في سبتمبر الماضي عندما قدّمت OpenAI نموذج الاستدلال o1. وعلى خلاف نماذج الذكاء الاصطناعي السابقة التي كانت تقدِّم إجابة من دون توضيح منطقها، يعالج هذا النموذج المشكلات المعقَّدة عبر تقسيمها إلى خطوات. وقد تستغرق النماذج الاستدلالية بضع ثوانٍ أو حتى دقائق إضافية للإجابة، لأنها تُجري تحليلها بطريقة متدرجة، على نحو يشبه التفكير بسلسلة من الأفكار.
يجمع DeepSeek-R1 بين الاستدلال المتسلسل والتعلُّم المعزَّز، حيث يتعلّم وكيل مستقل أداء مهمة معيّنة عبر التجربة والخطأ، من دون تلقي تعليمات مباشرة من المستخدم البشري. ويختلف التعلُّم المعزَّز عن أساليب التعلُّم الأكثر شيوعًا، مثل التعلُّم الخاضع للإشراف الذي يعتمد على بيانات موسومة يدويًا لإنتاج تنبؤات أو تصنيفات، والتعلُّم غير الخاضع للإشراف الذي يهدف إلى اكتشاف الأنماط الخفية في البيانات غير الموسومة وتعلُّمها.
ويشير Yihua Zhang، طالب الدكتوراه في جامعة Michigan State ومؤلف عشرات الأوراق البحثية في التعلم الآلي، إلى أن DeepSeek-R1 يدحض الافتراض القائل بأن النماذج ستحسّن قدراتها الاستدلالية فقط من خلال تدريبها على أمثلة موسومة للسلوك الصحيح أو الخاطئ، أو من خلال استخراج المعلومات من الأنماط الخفية في البيانات. ويقول Zhang: "الفرضية الأساسية بسيطة لكنها جريئة في الوقت نفسه: هل يكفي أن نكافئ النموذج عندما يقدّم إجابة صحيحة، ونتركه يكتشف بنفسه أفضل طريقة للتفكير؟".
ويضيف Zhang أن ما وجده هو وغيره لافتًا في التدريب واسع النطاق للنماذج اللغوية الكبيرة مثل نماذج DeepSeek هو أن "النموذج يبدأ في إظهار لحظات 'اندهاش' حقيقية، إذ يتراجع خطوة للوراء، ويرصد الأخطاء، ثم يقوم بتصحيحها بنفسه".
يرجع جزء من الزخم حول DeepSeek إلى تكلفته المنخفضة. وبحسب التقرير التقني الذي نشرته الشركة، بلغت تكلفة تدريب نموذج DeepSeek-V3، الذي أُطلق في يوم عيد الميلاد، 5.5 ملايين دولار أمريكي، مما يجعله أقل كلفة بكثير للمطورين الراغبين في تجربته. يقول Chris Hay، مهندس متميز في IBM: "ما أنجزوه مقابل هذه التكلفة للنموذج، والزمن الذي استلزمَه تدريبُه، أمرٌ مثير للإعجاب فعلًا".
مع ذلك، تشير Kate Soule، مديرة إدارة المنتجات التقنية لنماذج Granite في IBM Research، إلى أن هذا الرقم لا يعكس الصورة الكاملة للتكاليف. وتوضح أن مبلغ 5.5 ملايين دولار أمريكي "لا يمثّل سوى جزء بسيط من القدرة الحوسبية التي احتاجها النموذج فعليًا". فهذا الرقم لا يتضمّن بنودًا تحرص الشركات على إبقائها سرّية حتى مع النماذج مفتوحة المصدر، مثل "تكاليف القدرة الحوسبية للتعلُّم المعزَّز، وتجارب حذف أجزاء من البيانات (data ablations)، والبحث في المعلمات الفائقة (hyperparameters)".
لكن ما لا يختلف عليه أحد هو أن DeepSeek حقّقت كفاءة أعلى من حيث التكلفة بفضل استخدام بنية Mixture-of-Experts (MoE)، التي تتطلّب موارد أقل بكثير في مرحلة التدريب. فمعمارية MoE تقسّم نموذج الذكاء الاصطناعي إلى شبكات فرعية مستقلّة ("خبراء")، يتخصّص كلٌّ منها في مجموعة فرعية من بيانات الإدخال. وعند تنفيذ أي مهمة، لا يفعِّل النموذج إلا الخبراء المناسبين لها، بدلًا من تشغيل الشبكة العصبية بالكامل. ونتيجة لذلك، تُسهم بنية MoE في خفض تكاليف الحوسبة بشكل كبير أثناء التدريب المسبق، وتحقيق أداء أسرع خلال مرحلة الاستدلال. وقد ساهمت شركات عدّة حول العالم، من بينها شركة الذكاء الاصطناعي الفرنسية الرائدة Mistral وIBM، في ترسيخ استخدام بنية MoE خلال العام الماضي، وحقّقت كفاءة أعلى من خلال الجمع بين MoE والنماذج مفتوحة المصدر.
وفي ما يتعلّق بسلسلة نماذج Granite مفتوحة المصدر من IBM (المطوَّرة وفق معمارية MoE)، تتمكّن المؤسسات من الوصول إلى أداء يضاهي النماذج المتقدّمة وبتكلفة أقل بكثير، لأنها تستطيع تكييف نموذج كبير مُدرَّب مسبقًا ليتناسب مع تطبيقاتها أو حالات الاستخدام الخاصة بها، ثم اشتقاق نماذج أصغر مهيّأة خصيصًا للغرض المطلوب. إن تركيز قدرات كبيرة في نماذج أصغر يتيح تشغيلها على الهواتف الذكية وغيرها من الأجهزة المحمولة التي تعمل على الحافة، مثل كمبيوترات السيارات أو أجهزة الاستشعار الذكية في أرضية المصنع.
وقد أسهم في نجاح DeepSeek أيضًا اعتماد نهج يقوم على أخذ نموذج كبير ثم "تقطيره" إلى نماذج أصغر أقل استهلاكًا للموارد. وإلى جانب إطلاق نموذجها الرئيسي R1، طرحت هذه الشركة الصينية الناشئة سلسلة من النماذج الأصغر المصمَّمة لتناسب أغراضًا واستخدامات محددة. ومن اللافت أنهم كشفوا أن النماذج الكبيرة، عندما تُقطَّر إلى نماذج أصغر، تقدّم أداءً أفضل في مهام الاستدلال مقارنةً بتدريب النماذج الصغيرة مباشرة باستخدام التعلُّم المعزَّز منذ البداية.
ومع منافسة هذه النماذج الصينية الجديدة — بل وتجاوزها — لنماذج أقدم في بعض معايير التقييم، يثور التساؤل حول الكيفية التي ستؤثّر بها في مشهد الذكاء الاصطناعي العالمي. يقول El Maghraoui: "الأمر لا يقتصر على أرقام الأداء في الاختبارات المعيارية". "بل يتعلّق بمدى تكامل هذه النماذج تكاملًا شاملًا بطريقة آمنة وملتزمة بالمعايير الأخلاقية". لذلك يرى El Maghraoui أن الوقت لا يزال مبكرًا للحُكم على مدى قدرة نماذج مثل DeepSeek-R1 على إحداث تحوّل حقيقي في التفاعلات البشرية والتقنية وتطبيقات المؤسسات.
وفي نهاية المطاف، يقول Daniels: "إن مدى إقبال المطوّرين على استخدامها هو ما سيحدّد مدى انتشار نماذج DeepSeek". ويضيف: "وسيكون من المثير أن نرى ما سيُكتشَف من حالات استخدام جديدة لهذه النماذج".
وبحسب رؤية Varshney في IBM، قد تكون الفوارق الجيوسياسية أقل تأثيرًا مما يُتوقَّع في هذا السباق العالمي على الذكاء الاصطناعي. ويقول: "بمجرّد أن يصبح النموذج مفتوح المصدر، تتراجع أهمية الجهة التي طوّرته في كثير من الجوانب".
