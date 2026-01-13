بعد ما يقرب من عام من إصدار نموذج R1 منخفض التكلفة وعالي الأداء من DeepSeek الذي هز كل من وادي السيليكون ووول ستريت، يستعد مختبر الذكاء الاصطناعي الصيني لهز صناعة الذكاء الاصطناعي مرة أخرى. هذه المرة، أصدر DeepSeek إطار عمل جديد يمكن أن يجعل تدريب النماذج اللغوية الكبيرة (LLMs) أكثر كفاءة واستقرارًا وقابلية للتوسع. ولعل الأهم من ذلك كله، أن هذا يقلل من تكلفة التدريب المسبق، ما يفتح المجال أمام الشركات الصغيرة والمطورين الأفراد للاستفادة من إمكانات النماذج اللغوية الكبيرة.

قال المهندس المتميز Chris Hay من IBM في مقابلة مع IBM Think: "مع هذا الابتكار، تقول DeepSeek 'كيف أحصل على قيمة أكبر مقابل ما أدفعه في أثناء التدريب المسبق؟'" "تدريب النموذج هو الجزء المكلف."

اختبر باحثو DeepSeek هذه البنية الجديدة، المسماة بالروابط الفائقة المقيدة بالتشعبات (mHC)، على نماذج تحتوي على ثلاثة مليارات وتسعة مليارات و 27 مليار معلمة. ووجدوا أن النماذج قد تم توسيع نطاقها من دون إضافة عبء حسابي كبير أو عدم استقرار، وكلاهما عادة ما يزداد بالتزامن مع التوسع.