إذا قرأت العناوين الرئيسية في 20 يناير 2025، لربما ظننت أن الوضع كارثي. ذلك لأن DeepSeek، ومقرّها الصين، أصدرت نموذج R1، النموذج اللغوي الكبير (LLM)، الذي أصبح سريعًا أحد أكثر النماذج تنزيلًا ونشاطًا بعد وقت قصير من إصداره.
وما أثار هذا الحماس هو أنّ مختبر أبحاث الذكاء الاصطناعي في هانغتشو، الصين، الذي يطرح نماذجه باسمه، بنى نموذجًا بتكلفة أقل بكثير بلغت 5.6 مليون دولار أمريكي، وباستخدام موارد حوسبة أقل كثيرًا وإمكانية وصول أقل إلى شرائح NVIDIA مقارنةً بالنماذج الأمريكية الرائدة.
كالعادة، عبّر الناس علنًا عن قلقهم من أن بعض شركات الذكاء الاصطناعي الأمريكية ذات التمويل الكبير على وشك أن تتخلّف عن الركب. ونتيجة لاستخدام DeepSeek عددًا أقل من شرائح NVIDIA مقارنة بتلك الشركات الأخرى، تراجع سعر سهم شركة تصنيع الشرائح. ومع ذلك، كان ذلك ردّ فعل متسرّعًا على الأخبار أكثر منه أمرًا مثيرًا للقلق جوهريًا بشأن ثروات شركة تصنيع الرقائق.
اعتبر صحفيو التقنية والأعمال هذه الأخبار بمثابة صدمة للنظام. ومع ذلك، بالنسبة إليَّ وإلى خبراء الذكاء الاصطناعي الآخرين، كانت المفاجأة الوحيدة في إعلان DeepSeek عن R1 هي مدى دهشة الجميع.
وعلى الرغم من أن النموذج كان جديدًا، فإن DeepSeek ليست وافدًا جديدًا إلى السوق. فالشركة لديها سجلّ طويل في تطوير نماذج مفتوحة المصدر قيّمة في السوق الصينية، ولا سيّما نموذج V3 الذي طُرح في ديسمبر. وفي الواقع، أصدرت ورقة تقنية مرافقة تُشكّل مرجعًا تعليميًا لكل من يرغب في التعمّق في كيفية إنشاء هذه المختبرات. كان نموذج V3 مفاجئًا إلى حدّ كبير، لكنّه على ما يبدو مرّ من دون أن يلفت الانتباه بالقدر الكافي.
ويُعَد نموذج R1 من DeepSeek، بطبيعة الحال، مثالًا آخر على أداة من أدوات الذكاء الاصطناعي التوليدي يمكن أن تصبح أساسًا لمستقبل الذكاء الاصطناعي الوكيل، حيث لا تكتفي أدوات الذكاء الاصطناعي بالاستجابة لطلبات المستخدمين، بل تعمل أيضًا باستقلالية لتقديم الخدمات لهم.
ومع أنّ IBM، بحكم نهجها، تعقد شراكات حول هذه النماذج وتستخدمها، فإنّنا أيضًا من أبرز الداعمين والمهندسين لحركة المصدر المفتوح. ومن الإيجابي لقطاع التقنية أن نرى نموذجًا مفتوح المصدر مثل R1 يحظى بما يستحقه من إشادة.
ومن المفهوم أنّه كان من المربك بعض الشيء للشركات الكبرى أن ترى DeepSeek تطوّر نموذجًا يماثل نماذجها أو يتفوّق عليها، ومع ذلك جرى تطويره بتكلفة لا تمثّل إلا جزءًا يسيرًا من تكلفة النماذج الأكثر شهرة. ولكن هذا تحديدًا هو الدور الذي وُجد من أجله مجتمع المصدر المفتوح.
ويجسّد إعلان DeepSeek R1 مفارقة بين عالمين: ففي الوقت الذي توقّعت فيه الأسواق المالية حالة من الاضطراب، كان خبراء الذكاء الاصطناعي متحمسين لهذا الاختراق التكنولوجي وللكيفية التي يمكن أن يساهم بها في توجيه تطوير نماذج أحدث أكثر كفاءة وقوة.
لم يفعل R1 سوى تأكيد ما كان كثيرون يدركونه بالفعل، بينما يسعى باقي العالم إلى اللحاق بالركب. ومن الواضح أنّ DeepSeek تقف على أكتاف كل من يساهم في منظومة المصدر المفتوح، ومن بينهم IBM وMeta وغيرها من الجهات. ستواصل النماذج مفتوحة المصدر ريادة الابتكار. وبينما كانت R1 بمثابة صدمة أولية للنظام ، سيستفيد الجميع من وجوده. ولا سيما أن DeepSeek أعلنت مؤخرًا "أسبوع المصدر المفتوح"، حيث تطرح مستودعًا مفتوح المصدر واحدًا يوميًا.
يستخدم نموذدج R1 من DeepSeek نهج Mixture of Experts (MoE) هو نهج تعلُّم آلي يقسِّم نموذج الذكاء الاصطناعي (AI) إلى شبكات فرعية منفصلة (أو "خبراء")، يتخصص كل منها في مجموعة فرعية من بيانات المُدخلات، لأداء مهمة مشتركة.
وعند استخدام هذا النهج، لا يلزم تفعيل جميع المعلمات في النموذج في الوقت نفسه. فعلى سبيل المثال، يضم نموذج DeepSeek V3 أو R1 نحو 671 مليار معلمة، لكن 37 مليار معلمة فقط تكون نشطة في أي لحظة. ومن ثم، فإن الجزء الصغير جدًا من النموذج الذي يشارك فعليًا في الإجابة عن السؤال يجعل التنفيذ أكثر كفاءة.
تقليديًا، واجه الباحثون صعوبات في تدريب نماذج MoE. وقد طوّرت DeepSeek عددًا من التقنيات المبتكرة لمعالجة هذه التحديات مع الحفاظ على أحمال التشغيل ضمن نطاق معقول، ما جعل نهج mixture of experts لديها أكثر توازنًا وكفاءة.
فعلى سبيل المثال، اعتمد نموذجا V3 وR1 على التعلم المعزَّز بدلًا من الاعتماد على بيانات مُصنَّفة. يستكشف هذا الأسلوب مسارات مختلفة للوصول إلى الإجابة، ويعيد تقييم قراراته على طول كل مسار يسلكه. وبهذا، يمكنه أسرعَ اكتشاف ما إذا كان يمضي في اتجاه غير صحيح، ثم التراجع سريعًا واختيار مسار بديل أكثر جدوى محتملة.
ويساعده هذا الأسلوب، القائم على "سلسلة التفكير"، على الوصول إلى إجابة نهائية دقيقة والحصول على "المكافأة" في إطار التعلم المعزَّز. وقد مكّنتهم منهجية التعلم المعزَّز هذه من تدريب النموذج على أداء يضاهي، بل يتفوّق أحيانًا، على أداء نماذج OpenAI وغيرها.
أحيانًا تكون القيود محفّزًا للابتكار. تواجه DeepSeek قيودًا على كمية شرائح NVIDIA التي يمكنها الحصول عليها نتيجة ضوابط التصدير الأمريكية المفروضة على مبيعات الرقائق إلى الصين. ورغم أنّ الشركة الأم كانت تمتلك عددًا كبيرًا من رقائق NVIDIA H800 يبلغ 2,000 رقاقة، فإنّ عليها مع ذلك أن تتعامل بقدر عالٍ من المرونة في كيفية توظيف هذه الرقائق. وقد نفّذت عملًا هندسيًا مميزًا على مستوى العتاد نفسه لتحقيق قدر أكبر من التحسينات.
يستخدم جميع العاملين في مجتمع المصدر المفتوح منصة NVIDIA Cuda، التي توفر مجموعة قوية من المكتبات تساعد على ربط وحدات معالجة الرسوميات المختلفة بحيث تتواصل بكفاءة أكبر وتوزّع أحمال التشغيل وغير ذلك. لكن DeepSeek تجاوزت ذلك خطوة إضافية، وعملت في طبقة أعمق من المكتبات نفسها، فواصلت تحسين العتاد أيضًا.
والحقيقة أنّ وتيرة تحسّن النماذج مفتوحة المصدر، والوتيرة المتوقّع استمرارها، هي وتيرة استثنائية.
ولا يمكن للذكاء الاصطناعي أن يعمل من دون رقائق. غير أنّ الأخبار الأولية التي أشارت إلى إمكانية بناء نماذج عالية الجودة باستخدام عدد أقل من الرقائق في المستقبل ولّدت، لدى بعض مراقبي القطاع، مغالطة مفادها أنّ الطلب على الرقائق سيتراجع. وبحسب مفارقة Paradox، فإن العكس هو الصحيح: غالبًا ما تؤدي زيادة الكفاءة إلى زيادة في الاستهلاك. فمن استهلاك الوقود والطاقة عبر الزمن، إلى تحسين كفاءة أجهزة تكييف الهواء الذي شجّع الناس على تشييد منازل أكبر، يبدو أنّ "المورد الجيد" لا يكون أبدًا متوافرًا بزيادة عن الحاجة.
لنأخذ على سبيل المثال صناعة الويسكي العالمية. ففي السنوات الأخيرة، لم يؤدِّ ظهور معامل تقطير مستقلة وإنتاج على دفعات صغيرة إلا إلى زيادة الطلب على الحبوب. وينطبق المنطق نفسه على أي صناعة، إذ يوسّع تحسّن الأوضاع الاقتصادية فرص الشركات الصغيرة. قد تستخدم كل شركة بمفردها عددًا أقل من الشرائح، لكن DeepSeek أثبتت أنّ عددًا أكبر بكثير من الأطراف الفاعلة يمكنها دخول السوق والاستفادة من تقنيات المصدر المفتوح لبناء نماذج مبهرة بتكلفة أقل.
هذا، في رأيي، هو أهم ما يمكن الخروج به. وما يتيحه ذلك هو أن بناء النماذج المتطوّرة لن يقتصر على قلة من النخبة التي تمتلك قدرات حوسبة هائلة. وربما تظهر مسارات بديلة تمكّن المختبرات الأصغر من البدء في الاستثمار في تطوير مزيد من النماذج. وهذا خبر رائع لكل المتحمّسين لوكلاء الذكاء الاصطناعي وللمستقبل القائم على الوكلاء الذي ننتظره جميعًا.
تشهد المنافسة بين جميع الأطراف الفاعلة الرئيسة موجات صعود وهبوط، لذلك من الأنسب ألّا ننشغل، على المدى القريب، بمن يربح ومن يخسر. كل يوم تعمل الشركات والباحثون وعلماء الذكاء الاصطناعي على ابتكار نماذج أفضل تستند إلى أسس استدلال علمي أكثر تقدمًا.
لهذا نشعر بحماس كبير تجاه تحديثات الاستدلال الأخيرة لعائلة نماذج Granite من النماذج اللغوية الكبيرة (LLMs)، التي تفوقت على R1 في اختبارات معيارية مثل ArenaHard وAlpacaEval. تجمع نماذج الاستدلال لدينا بين ميزتين أساسيتين: أداء عالٍ وخصائص أمان قوية، مع منح المستخدمين حرية تفعيل قدرات الاستدلال أو عدم استخدامها بحسب الموقف. وكلما شاركنا معارفنا على نطاق أوسع، وجعلنا ما يمكن إتاحته مفتوح المصدر، انعكس ذلك بالفائدة على الجميع، وفي مقدمتهم المستهلكون.
ورغم أن OpenAI وغيرها قد يشعرون في البداية بضغط صعود منافسة أصغر حجمًا لكنها قوية التأثير، فإن هذا يُعَد مكسبًا كبيرًا للمجتمع ويتماشى مع رؤية IBM لمستقبل الذكاء الاصطناعي. كما يُعد ذلك مكسبًا مهمًا لمجتمع المصدر المفتوح، ويبرهن على أن النماذج الأصغر حجمًا قادرة على التفوّق على بعض النماذج الأخرى. ومن الواضح أن هذا لا يُقصي الأطراف الفاعلة الرئيسة؛ فإذا أحسنوا استثمار الدروس التي قدّمتها DeepSeek، فسيمكنهم الاستمرار في بناء نماذج أكبر وبتكاليف أقل.
وفي النهاية، تصب المنافسة في مصلحة المؤسسات والمستهلكين على حد سواء. الجميع يربح عندما نشهد أحداثًا مفصلية بهذا الحجم، مثل DeepSeek R1.
