بعد ما يقرب من عام من إصدار نموذج R1 منخفض التكلفة وعالي الأداء من DeepSeek الذي هز كل من وادي السيليكون ووول ستريت، يستعد مختبر الذكاء الاصطناعي الصيني لهز صناعة الذكاء الاصطناعي مرة أخرى. هذه المرة، أصدر DeepSeek إطار عمل جديد يمكن أن يجعل تدريب النماذج اللغوية الكبيرة (LLMs) أكثر كفاءة واستقرارًا وقابلية للتوسع. ولعل الأهم من ذلك كله، أن هذا يقلل من تكلفة التدريب المسبق، ما يفتح المجال أمام الشركات الصغيرة والمطورين الأفراد للاستفادة من إمكانات النماذج اللغوية الكبيرة.
قال المهندس المتميز Chris Hay من IBM في مقابلة مع IBM Think: "مع هذا الابتكار، تقول DeepSeek 'كيف أحصل على قيمة أكبر مقابل ما أدفعه في أثناء التدريب المسبق؟'" "تدريب النموذج هو الجزء المكلف."
اختبر باحثو DeepSeek هذه البنية الجديدة، المسماة بالروابط الفائقة المقيدة بالتشعبات (mHC)، على نماذج تحتوي على ثلاثة مليارات وتسعة مليارات و 27 مليار معلمة. ووجدوا أن النماذج قد تم توسيع نطاقها من دون إضافة عبء حسابي كبير أو عدم استقرار، وكلاهما عادة ما يزداد بالتزامن مع التوسع.
تقول Kaoutar El Maghraoui، عالمة أبحاث رئيسية في IBM، خلال الحلقة الأخيرة من بودكاست Mixture of Experts: "عادة ما تعتمد مختبرات الذكاء الاصطناعي الرائدة على "القوة الغاشمة" لتحسين الذكاء الاصطناعي وهذا يعني أن "إضافة المزيد من البيانات، والمزيد من قوة الحوسبة، والمزيد من المعلمات". لكن هذا النهج "تتراجع كفاءته مع الوقت ولا يتحمل تكلفته إلا عدد قليل من الشركات الكبيرة."
وأكدت El Maghraoui على أن بنية mHC في DeepSeek يمكن أن تحدث ثورة في التدريب المسبق للنماذج. وقالت: "إنها عملية توسيع نطاق الذكاء الاصطناعي بطريقى أكثر ذكاءً بدلاً من مجرد جعله أكبر حجمًا". "إنها طريقة أكثر ذكاءً لتصميم هذه النماذج التي من شأنها أيضًا أن تعمل على نحو أفضل مع الأجهزة." وقال El Maghraoui إن روابط mHC يمكنها أيضًا أن تتكامل بسهولة مع الأجهزة المخصصة للشركة، ما يجعله خيارًا جذابًا محتملاً للشركات التي تبحث عن ذكاء اصطناعي فعال من حيث التكلفة. كمثال، أشارت إلى مسرعات الأجهزة المتخصصة من IBM، المصممة لتسريع أحمال تشغيل الذكاء الاصطناعي والتعلم الآلي والتعلم العميق لعملاء المؤسسات في البيئات المحلية.
في منشور على LinkedIn، اقترح Pierre-Carl Langlais، المؤسس المشارك لشركة الذكاء الاصطناعي الفرنسية الناشئة Pleias، أن الأهمية الحقيقية للورقة البحثية تتجاوز إثبات قابلية التوسع لتقنية mHC. وكتب أن "الإمكانات الفعلية" تكمن في قدرة DeepSeek على إعادة هندسة كل بُعد من أبعاد بيئة التدريب. "هذا ما يجعل [DeepSeek] مختبرًا رائدًا."
بالنسبة إلى Hay، فإن حقيقة أن شركة DeepSeek تواصل إتاحة مصادر عملها الجديد أمر جدير بالملاحظة لأنه يجعل الذكاء الاصطناعي في متناول جمهور أوسع. وقال: "أنا أقدر أنهم يتوصلون إلى الابتكارات، ويتيحونها للعالم، ويسمحون للناس بتجربتها، ثم يطورون المجال بأكمله معهم".
بينما يتعامل قادة الذكاء الاصطناعي في المؤسسات الصغيرة مع تعقيدات تنفيذ حلول الذكاء الاصطناعي الاقتصادية، فإن الابتكارات مثل إطار عمل mHC من DeepSeek تسهل عليهم الوصول إلى نماذج أساسية قوية كانت متاحة سابقًا للشركات التي تملك محافظًا أكبر بكثير فقط. من خلال تقليل تكلفة التدريب المسبق للنماذج اللغوية الكبيرة بصورة كبيرة وجعل الذكاء الاصطناعي أكثر سهولة، من المتوقع أن تحدث إنجازات DeepSeek ثورة في مشهد الشركات الصغيرة والمتوسطة.
