أطلق إصدار يناير 2025 لـ DeepSeek-R1 سيلًا من المقالات حول DeepSeek—والذي، بشكل مربك نوعًا ما، هو اسم شركة، والنماذج التي تصنعها، وروبوت المحادثة الآلية الذي يعمل على تلك النماذج. بالنظر إلى حجم التغطية والإثارة المحيطة باقتصاديات التحول الزلزالي في مشهد الذكاء الاصطناعي، قد يكون من الصعب الفصل بين الحقيقة والتكهنات، والتخمينات والخيال.
ما يلي هو دليل مباشر لمساعدتك في فرز المقالات الأخرى حول DeepSeek، وفصل الإشارة عن الضوضاء، وتخطي الضجيج والمبالغة. سنبدأ ببعض المعلومات الموجزة عن تاريخ الشركة، وسنشرح الاختلافات بين كل طراز من طرازات DeepSeek الجديدة ونفصّل أكثر ابتكاراتها إثارة للاهتمام (دون الدخول في الكثير من التفاصيل التقنية).
فيما يلي تفصيل سريع لما سنغطيه:
DeepSeek هو مختبر أبحاث الذكاء الاصطناعي ومقره في هانغتشو، الصين. وهو أيضًا اسم نماذج الذكاء الاصطناعي التوليدية مفتوحة الوزن التي يطورها. في أواخر يناير 2025، تصدر نموذجهم اللغوي الكبير DeepSeek-R1 عناوين الأخبار التقنية والمالية الرئيسية لأدائه الذي ينافس أداء أفضل النماذج الاحتكارية من OpenAI و Anthropic و Google، وبسعر أقل بكثير.
أصول شركة DeepSeek تعود إلى شركة High-Flyer، وهو صندوق تحوط صيني تأسس في عام 2016 على يد ثلاثة علماء حاسوب يركزون على استراتيجيات التداول الخوارزمية. في عام 2019، استخدمت الشركة عائدات عملياتها التجارية لتأسيس شركة تابعة مدفوعة بالذكاء الاصطناعي، "High-Flyer AI"، مستثمرةً ما يقدر بـ 28 مليون دولار أمريكي في بنية تحتية لتدريب التعلم العميق، ومضاعفة ذلك الاستثمار خمس مرات في عام 2021.
بحلول عام 2023، نمت أبحاث الذكاء الاصطناعي في شركة High-Flyer إلى الحد الذي استوجب إنشاء كيان منفصل يركز فقط على الذكاء الاصطناعي—وبشكل أكثر تحديدًا، على تطوير الذكاء الاصطناعي العام (AGI). تم تسمية مختبر الأبحاث الناتج باسم DeepSeek، حيث عملت High-Flyer كمستثمر أساسي له. بدءًا بـ DeepSeek-Coder في نوفمبر 2023، طورت DeepSeek مجموعة من النماذج مفتوحة الأوزان والمشهود لها بالكفاءة، مع التركيز بشكل أساسي على أداء الرياضيات والبرمجة.
في ديسمبر 2024، أصدر المختبر DeepSeek-V3، النموذج اللغوي الكبير الذي يستند إليه DeepSeek-R1. لقد أدى الأداء المتميز لـ DeepSeek-V3 و DeepSeek-R1 إلى وضع المختبر في موقع ريادي غير متوقع في تطوير الذكاء الاصطناعي التوليدي للمضي قدمًا.
DeepSeek-R1 هو نموذج استدلال تم إنشاؤه عن طريق الضبط الدقيق لنموذج لغوي كبير (DeepSeek-V3) لتوليد سلسلة أفكار (CoT) واسعة خطوة بخطوة قبل تحديد 'الناتج' النهائي الذي يقدمه للمستخدم. تشمل نماذج الاستدلال الأخرى o1 من OpenAI (المعتمد على GPT-4o) و o3، و Gemini Flash 2.0 Thinking من Google (المعتمد على Gemini Flash)، و open QwQ من Alibaba ("Qwen مع أسئلة")، المعتمد على نموذج Qwen2.5 الخاص بها.
إنّ الحدس وراء نماذج الاستدلال يأتي من أبحاث مبكرة أظهرت أنّ مجرد إضافة عبارة "فكر خطوة بخطوة" يحسّن مخرجات النموذج بشكل ملحوظ.i افترضت أبحاث لاحقة من Google DeepMind أن زيادة حساب وقت الاختبار (مقدار الموارد المستخدمة لإنشاء مخرجات) يمكن أن يحسن أداء النموذج بقدر زيادة حساب وقت التدريب (الموارد المستخدمة لتدريب النموذج).
على الرغم من أن نماذج الاستدلال أبطأ وأكثر تكلفة—إذ لا يزال يتعين عليك توليد (والدفع مقابل) جميع الرموز المستخدمة في "التفكير" حول الاستجابة النهائية، وتلك الرموز تستهلك من نافذة السياق المتاحة لديك—إلا أنها دفعت طليعة الأداء الأحدث منذ إصدار OpenAI لـ o1. والجدير بالذكر أن التركيز على نماذج التدريب لتحديد أولويات التخطيط والتفكير المسبق جعلها بارعة في مهام معينة تنطوي على مشكلات معقدة في الرياضيات والتفكير لم يكن من الممكن الوصول إليها سابقا من قِبل النماذج اللغوية الكبيرة.
لمعرفة المزيد عن نماذج الاستدلال، تحقق من هذا الدليل المرئي الممتاز من Maarten Grootendorst.
وينافس أداء DeepSeek-R1 أداء النماذج الرائدة، بما في ذلك OpenAI's o1 و Anthropic's Claude 3.5 Sonnet، في مهام الرياضيات والرموز والمنطق. بغض النظر عن النموذج "الأفضل"—وهو نموذج شخصي وخاص بالموقف— فهو إنجاز رائع لنموذج مفتوح. ولكن أهم جوانب R1 هي تقنيات التدريب التي قدمتها لمجتمع المصدر المفتوح.
عادةً، تكون عملية تحويل نموذج لغوي كبير قياسي من غير مدرب إلى جاهز للمستخدمين النهائيين كما يلي:
بالنسبة لنماذج الاستدلال الاحتكارية مثل o1، فإن التفاصيل المحددة لهذه الخطوة الأخيرة عادةً ما تكون سرًا تجاريًا محفوظًا بعناية. لكن DeepSeek أصدرت مستند فني يوضح بالتفصيل عمليتهم.
في محاولتهم الأولى لتحويل DeepSeek-V3 إلى نموذج استدلالي، تخطى DeepSeek SFT وانتقل مباشرة من التدريب المسبق إلى مخطط تعلم معزز بسيط:
وقد تعلم النموذج الناتج (الذي أطلقوا عليه اسم "DeepSeek-R1-Zero") توليد سلاسل معقدة من الأفكار وتوظيف استراتيجيات الاستدلال التي أسفرت عن أداء مذهل في مهام الرياضيات والاستدلال. كانت العملية واضحة ومباشرة وتجنبت البيانات المصنفة المكلفة لـ SFT. لسوء الحظ، كما يوضح المستند الفني، "يواجه DeepSeek-R1-Zero تحديات مثل التكرار اللامتناهي وضعف قابلية القراءة والخلط اللغوي."
لتدريب خليفة R1-Zero، DeepSeek-R1، قامت DeepSeek بتعديل العملية:
لكن عملية الضبط الدقيق هذه ليست سوى نصف القصة. النصف الآخر هو النموذج الأساسي لـ R1: Deepseek-v3.
DeepSeek-V3، العمود الفقري لـ DeepSeek-R1، هو نموذج لغوي نصي فقط، مكون من 671 مليار (671 مليار) معامل، وهو نموذج خليط خبراء (MoE). مكن القول إنه النموذج اللغوي الكبير مفتوح المصدر الأكثر قدرة المتاح حتى فبراير 2025. والأهم من ذلك أنه أسرع وأرخص بكثير من غيره من النماذج اللغوية الكبيرة الرائدة.
671 مليار معلمة تعني أنه نموذج ضخم . وللتوضيح، عندما أصدرت Meta Llama 3.1 405B—وهو أصغر بنسبة 40% من DeepSeek-V3—في يوليو 2024، وصف إعلانهم الرسمي النموذج بأنه "أكبر وأقدر نموذج أساسي متاح بشكل مفتوح في العالم"ii. كان نموذج ChatGPT الأصلي، GPT-3.5، يحتوي على 175 مليار معلمة. تجدر الإشارة إلى أن معظم المطورين الرئيسيين، بما في ذلك OpenAI و Anthropic و Google، لا يكشفون عن عدد المعلمات لنماذجهم الخاصة.
زيادة عدد المعلمات عادةً ما يزيد من "قدرة" النموذج على استيعاب المعرفة والتعقيد. فالمزيد من المعلمات تعني المزيد من الطرق لضبط النموذج، مما يعني قدرة أكبر على ملاءمة أدق تفاصيل بيانات التدريب. لكن زيادة عدد معلمات النموذج يزيد أيضًا من المتطلبات الحاسوبية، مما يجعله أبطأ وأكثر تكلفة.
إذن كيف يكون DeepSeek-V3 (وبالتالي DeepSeek-R1) سريعًا ورخيصًا؟ الجواب يكمن بشكل أساسي في بنية مزيج الخبراء وكيف عدلتها DeepSeek.
تقوم بنية مزيج الخبراء (MoE) بتقسيم طبقات الشبكة العصبية إلى شبكات فرعية منفصلة (أو شبكات خبراء) ويضيف شبكة بوابية تقوم بتوجيه الرموز المميزة لاختيار "الخبراء". خلال التدريب، يصبح كل "خبير" متخصصًا في النهاية لنوع معين من الرموز—على سبيل المثال، قد يتعلم خبير التخصص في علامات الترقيم بينما يتعامل آخر مع حروف الجر—وتتعلم شبكة البوابة توجيه كل رمز إلى الخبير (الخبراء) الأنسب.
بدلاً من تفعيل كل معلمات النموذج لكل رمز، يقوم نموذج مزيج الخبراء بتفعيل "الخبراء" الأنسب لذلك الرمز فقط. يحتوي DeepSeek-V3 على إجمالي عدد معلمات يبلغ 671 مليارًا، ولكن لديه عدد معلمات نشطة يبلغ 37 مليارًا فقط. بمعنى آخر، إنه يستخدم 37 مليارًا فقط من 671 مليار معلمة لكل رمز مميز يقرأه أو يخرجه.
عند تنفيذه بشكل جيد، يوازن هذا النهج المعتمد على مزيج الخبراء (MoE) بين قدرة العدد الإجمالي للمعلمات وكفاءة عدد المعلمات النشطة. بشكل عام، هذا يوضح كيف يقدم DeepSeek-V3 كلاً من قدرات نموذج ضخم وسرعة نموذج أصغر.
حظيت نماذج مزيج الخبراء (MoEs) باهتمام كبير عندما أصدرت شركة Mistral AI نموذج Mixtral 8x7B في أواخر عام 2023، كما أشيع أن نموذج GPT-4 هو أيضًا نموذج مزيج خبراء. وفي حين استمرار بعض مقدمي النماذج—ولا سيما IBM® Granite™ و Databricks و Mistral و DeepSeek—العمل على نماذج MoE منذ ذلك الحين، فإن العديد منهم يواصلون التركيز على النماذج "الكثيفة" التقليدية.
إذا كانوا رائعين لهذه الدرجة، فلماذا نماذج مزيج الخبراء ليست منتشرة بشكل أوسع؟ هناك تفسيرين بسيطين:
يتميز DeepSeek-V3 بعدد من التعديلات الهندسية الذكية على بنية نموذج مزيج الخبراء التي تزيد من استقرارها مع تقليل استخدام الذاكرة وتقليل متطلبات الحساب الخاصة به. تم إدخال بعض هذه التعديلات في سلفه، DeepSeek-V2، في مايو 2024. فيما يلي 3 ابتكارات بارزة:
تتضمن آلية الانتباه التي تدعم النماذج اللغوية الكبيرة (LLMs) عددًا هائلاً من عمليات ضرب المصفوفات (غالبًا ما يتم اختصارها إلى "matmul" في الرسوم البيانية) لحساب كيفية ارتباط كل رمز بالرموز الأخرى. يجب تخزين جميع تلك الحسابات الوسيطة في الذاكرة أثناء انتقال البيانات من المدخلات إلى المخرجات النهائية.
الانتباه الكامن متعدد الرؤوس (MLA)، الذي تم تقديمه لأول مرة في DeepSeek-V2، "يحلل" كل مصفوفة إلى مصفوفتين أصغر. هذا يضاعف عدد عمليات الضرب، ولكنه يقلل بشكل كبير من حجم كل تلك الأشياء التي تحتاج إلى تخزينها في الذاكرة. بمعنى آخر، فإنه يقلل من تكاليف الذاكرة (مع زيادة التكاليف الحسابية)—وهو أمر رائع بالنسبة لنماذج مزيج الخبراء (MoEs)، نظرًا لأن لديهم بالفعل تكاليف حسابية منخفضة (ولكن تكاليف الذاكرة مرتفعة).
بالاختصار: القيم المحددة لكل معامل في DeepSeek-V3 ممثلة بعدد أقل من العلامات العشرية من المعتاد. هذا يقلل من الدقة، ولكنه يزيد من السرعة ويقلل من استخدام الذاكرة بشكل أكبر. عادةً، يتم تدريب النماذج بدقة أعلى —غالبًا 16 بت أو 32 بت— ثم يتم تكميمها إلى FP8 لاحقًا.
التنبؤ متعدد الرموز المميزة هو كما ما يبدو عليه: بدلاً من التنبؤ برمز مميز واحد فقط في كل مرة، يتنبأ النموذج بشكل استباقي ببعض الرموز المميزة التالية أيضًا—وهو أمر يسهل قوله أكثر من فعله.
لا. من الناحية الفنية، ورد أن DeepSeek أنفقت حوالي 5.576 مليون دولار أمريكي على التشغيل النهائي قبل التدريب لـ DeepSeek-V3. ومع ذلك، فقد تم إخراج هذا الرقم من سياقه بشكل كبير.
لم تعلن DeepSeek عن المبلغ الذي أنفقته على البيانات والحوسبة لإنتاج DeepSeek-R1. الرقم "6 ملايين دولار أمريكي" التي تم التداول به على نطاق واسع يخص تحديدًا نموذج DeepSeek-V3.
علاوة على ذلك، فإن الاستشهاد بالتكلفة النهائية للتشغيل قبل التدريب فقط أمر مضلل. وكما قالت Kate Soule، مديرة إدارة المنتجات التقنية لـ Granite في IBM ، في حلقة من بودكاست مزيج الخبراء: "هذا مثل القول إذا كنت سأخوض ماراثونًا، فإن المسافة الوحيدة التي سأركضها هي 26.2 ميلًا فقط.. الحقيقة هي أنك ستتدرب لأشهر، وتمارس، وتجري مئات أو آلاف الأميال، وصولًا إلى ذلك السباق الواحد."
حتى مستند DeepSeek-V3 يوضح أن 5.576 مليون دولار أمريكي ليست سوى تقدير لتكلفة التدريب النهائي من حيث متوسط أسعار الإيجار لوحدات معالجة الرسومات NVIDIA H800. ويستثني جميع تكاليف البحث والتجريب والبيانات السابقة. كما أنه يستثني البنية التحتية التدريبية الفعلية الخاصة بهم—يقدر تقرير من SemiAnalysis أن DeepSeek استثمرت أكثر من 500 مليون دولار أمريكي في وحدات معالجة الرسومات (GPUs) منذ عام 2023—بالإضافة إلى رواتب الموظفين، والمرافق، ونفقات الأعمال النموذجية الأخرى.
للتوضيح، إن إنفاق 5.576 مليون دولار أمريكي فقط على عملية تدريب أولي لنموذج بهذا الحجم والقدرة لا يزال أمرًا مثيرًا للإعجاب. للمقارنة، يشير نفس تقرير SemiAnalysis إلى أن نموذج Claude 3.5 Sonnet— الخاص بشركة Anthropic—وهو منافس آخر لأقوى نموذج لغوي كبير في العالم (حتى أوائل عام 2025)—قد تكلف عشرات الملايين من الدولارات الأمريكية للتدريب المسبق. كما أن كفاءة التصميم نفسها تتيح أيضًا تشغيل DeepSeek-V3 بتكاليف (وزمن انتقال) أقل بكثير من منافسيها.
لكن الفكرة القائلة بأننا وصلنا إلى نقلة نوعية جذرية، أو أن مطوري الذكاء الاصطناعي الغربيين أنفقوا مليارات الدولارات دون سبب، وأن النماذج الجديدة التي يمكن تطويرها الآن مقابل تكاليف منخفضة من 7 أرقام هي فكرة مضللة.
DeepSeek-R1 مثير للإعجاب، لكنه في النهاية نسخة من DeepSeek-V3، وهو نموذج ضخم. وعلى الرغم من كفاءته، إلا أنه في العديد من حالات الاستخدام لا يزال كبيرًا جدًا ويستهلك الكثير من ذاكرة الوصول العشوائي.
بدلاً من تطوير إصدارات أصغر من DeepSeek-V3 ثم ضبط تلك النماذج، اتبعت DeepSeek نهجًا أكثر مباشرة وقابلية للتكرار: باستخدام تقطير المعرفة على نماذج مصدر مفتوح أصغر من عائلات نماذج Qwen و Llama لجعلها تتصرف مثل DeepSeek-R1. أطلقوا على هذه النماذج اسم "Deepseek-R1-distill".
يعد تقطير المعرفة، في جوهره، شكلاً مجردًا من أشكال ضغط النماذج. وبدلاً من مجرد تدريب نموذج مباشرةً على بيانات التدريب، يقوم التقطير المعرفي بتدريب "نموذج الطالب" على محاكاة الطريقة التي يعالج بها "نموذج المعلم" الأكبر تلك البيانات التدريبية. يتم تعديل معلمات نموذج الطالب لإنتاج ليس فقط نفس المخرجات النهائية التي ينتجها نموذج المعلم، ولكن أيضًا نفس عملية التفكير —العمليات الحسابية الوسيطة أو التنبؤات أو خطوات سلسلة الأفكار—مثل المعلم.
على الرغم من أسمائهم ، فإن نماذج "DeepSeek-R1-Distill" ليست في الواقع DeepSeek-R1. إنها نسخ من نماذج Llama و Qwen تم ضبطها بدقة لتعمل مثل DeepSeek-R1. في حين أن مقطرات R1 مثيرة للإعجاب بالنسبة لحجمها، إلا أنها لا تتطابق مع DeepSeek-R1 "الحقيقي".
لذا، إذا ادعت منصة معينة أنها تقدم أو تستخدم "R1"، فمن الحكمة التأكد من "R1" التي يتحدثون عنها.
ما بين الاهتمام العام منقطع النظير والتفاصيل التقنية غير المألوفة، أدت الضجة حول DeepSeek ونماذجه في بعض الأحيان إلى تحريف كبير لبعض الحقائق الأساسية.
على سبيل المثال، ظهرت في أوائل فبرايرمجموعة من القصص حول كيفية قيام فريق من جامعة كاليفورنيا في بيركلي على ما يبدو "بإعادة إنشاء" أو "استنساخ" DeepSeek-R1 مقابل 30 دولارًا أمريكيًا فقط.iii iv v هذا عنوان مثير للاهتمام للغاية مع آثار لا تصدق إذا كان صحيحًا—ولكنه غير دقيق بشكل أساسي من نواحٍ متعددة:
وباختصار، لم يقم فريق جامعة كاليفورنيا في بيركلي بإعادة إنشاء DeepSeek-R1 مقابل 30 دولارًا أمريكيًا. لقد أظهروا ببساطة أن نهج الضبط الدقيق التجريبي لـ DeepSeek القائم على التعلم المعزز فقط، R1-Zero، يمكن استخدامه لتعليم نماذج صغيرة لحل مسائل رياضية معقدة. عملهم مثير للاهتمام، ومبهر، ومهم. ولكن بدون فهم مفصل إلى حد ما لعروض نموذج DeepSeek— والتي لا يتوفر لدى العديد من القراء (والكتاب) المشغولين الوقت لها—فمن السهل الحصول على فكرة خاطئة.
نظرا لأن المطورين والمحللين يقضون المزيد من الوقت مع هذه النماذج، فمن المحتمل أن يهدأ الضجيج قليلًا. وبنفس الطريقة التي لا يعتبر بها اختبار الذكاء وحده وسيلة مناسبة لتوظيف الموظفين، فإن النتائج المعيارية الأولية ليست كافية لتحديد ما إذا كان أي نموذج هو "الأفضل" لحالة الاستخدام الخاصة بك. النماذج، مثل الناس، لديهن نقاط قوة وضعف غير ملموسة تستغرق وقتًا لفهمها.
سيستغرق الأمر بعض الوقت لتحديد الفعالية والتطبيق العملي على المدى الطويل لنماذج DeepSeek الجديدة هذه في بيئة رسمية. كما ذكرت WIRED في يناير، كان أداء DeepSeek-R1 ضعيفًا في اختبارات الأمان وكسر الحماية. من المحتمل أن تحتاج هذه المخاوف إلى المعالجة لجعل R1 أو V3 آمنًا لمعظم استخدام المؤسسات.
وفي الوقت نفسه، ستصل نماذج جديدة وستستمر في دفع عجلة التطور. ضع في اعتبارك أن GPT-4o و Claude 3.5 Sonnet، وهما النموذجان الرائدان ذوا المصادر المغلقة اللذان تُقارَن بهما نماذج DeepSeek، قد تم إصدارهما لأول مرة في الصيف الماضي: أي منذ زمن طويل بمقاييس الذكاء الاصطناعي التوليدي. عقب إطلاق نموذج R1، أعلنت شركة Alibaba عن قرب إطلاق نموذج مزيج الخبراء (MoE) الضخم مفتوح المصدر الخاص بها، Qwen2.5-Max، الذي تزعم أنه يتفوق على نموذج DeepSeek-V3 في جميع المجالات.vi من المرجح أن يحذو المزيد من المزودين حذوها.
والأهم من ذلك، سيختبر مجتمع الصناعات ومجتمع المصدر المفتوح الأفكار الجديدة والمثيرة التي جلبها DeepSeek، ودمجها أو تكييفها مع نماذج وتقنيات جديدة. جمال الابتكار مفتوح المصدر يكمن في أن المد الصاعد يرفع جميع القوارب.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
[i] “Large language models are zero-shot reasoners,” arXiv, 24 May 2022
[ii] "Introducing Llama 3.1: Our most capable models to date," Meta, 24 July 2024
[iii] “Team Says They’ve Recreated DeepSeek’s OpenAI Killer for Literally $30," Futurism, 30 January 2025
[iv] “DeepSeek AI replicated for just $30 using Countdown game," The Independent, 3 February 2025
[v] "Berkeley Research Replicate DeepSeek R1’s Core Tech for Just $30," XYZ Labs, 26 January 2025
[vi] "Qwen2.5-Max: Exploring the Intelligence of Large-Scale MoE Model," Qwen, 28 January 2025