نموذج IBM Granite 4.0 Tiny Preview: لمحة عن الجيل القادم من نماذج Granite

2 مايو 2025

مؤلف

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Writer, AI Models

IBM

يسرُّنا تقديم IBM Granite 4.0 Tiny Preview، النسخة الأولية من أصغر نموذج في عائلة Granite 4.0 القادمة من النماذج اللغوية، إلى مجتمع المصادر المفتوحة.

يتميز نموذج Granite 4.0 Tiny Preview بصغر حجمه وكفاءته العالية في الحسابات: بدقة FP8، يمكن تشغيل عدة جلسات متزامنة تقوم بمهام سياق طويل (128 ألفًا) على أجهزة عادية للمستهلكين، بما في ذلك وحدات معالجة الرسومات المتوفرة عادةَ بأسعار تقل عن 350 دولارًا أمريكيًا.1

على الرغم من أن النموذج مدرَّب جزئيًا فقط -حيث تلقى 2.5 تريليون من أصل 15 تريليون أو أكثر من رموز التدريب المخطط لها- فإنه يقدِّم أداءً يضاهي أداء IBM Granite 3.3 2B Instruct رغم قلة المعاملات النشطة وانخفاض في متطلبات الذاكرة بحوالي 72%.2 نتوقع أن يكون أداء Granite 4.0 Tiny مكافئًا لأداء Granite 3.3 8B Instruct بحلول الوقت الذي ينهي فيه التدريب وفي مرحلة ما بعد التدريب.

كما يوحي اسمه، سيكون Granite 4.0 Tiny من أصغر النماذج ضمن عائلة نماذج Granite 4.0. وسيتم إصداره رسميًا هذا الصيف كجزء من مجموعة النماذج التي تضم أيضًا Granite 4.0 Small وGranite 4.0 Medium. تمثّل Granite 4.0 التزام IBM الراسخ بجعل الكفاءة والعملية أساس تطوير النماذج اللغوية الكبيرة للمؤسسات.

يتوفر هذا الإصدار الأوَّلي من Granite 4.0 Tiny الآن على منصة Hugging Face -رغم أننا لا نوصي بعد باستخدام نسخة المعاينة في البيئات المؤسسية- بموجب ترخيص Apache 2.0 القياسي. هدفنا هو تمكين المطورين الذين يفتقرون إلى وحدات معالجة رسومات قوية من تجربة النموذج والتعديل عليه باستخدام وحدات معالجة رسومات من فئة المستهلكين. البنية الجديدة للنموذج قيد الانتظار للحصول على دعم في مكتبات Hugging Face Transformers وvLLM، ونتوقع أن يكتمل هذا الدعم قريبًا لكِلا المشروعين. من المتوقع أن يتوفر الدعم الرسمي لتشغيل هذا النموذج محليًا عبر شركاء المنصة مثل Ollama وLMStudio بحلول موعد الإصدار الكامل للنموذج في وقت لاحق من هذا الصيف.

أداء مؤسسي على الأجهزة الاستهلاكية

غالبًا ما يتم ذكر متطلبات الذاكرة للنماذج اللغوية الكبيرة حرفيًا ومجازيًا دون توفير السياق المناسب. ليس كافيًا أن تعرف أن النموذج يمكن تحميله بنجاح على وحدات معالجة الرسومات الخاصة بك، بل يجب أن تعرف أن أجهزتك قادرة على التعامل مع النموذج عند أطوال السياق التي تتطلبها حالة الاستخدام لديك.

علاوةً على ذلك، تتطلب العديد من حالات الاستخدام في المؤسسات تنفيذ استدلال دفعي لعدة نماذج متزامنة، وليس نشر نموذج واحد فقط. لذلك، تسعى IBM إلى قياس وتقديم تقارير عن متطلبات الذاكرة مع أخذ السياقات الطويلة والجلسات المتزامنة بعين الاعتبار.

يُعَد Granite 4.0 Tiny واحدًا من أكثر النماذج اللغوية كفاءة في استهلاك الذاكرة المتوفرة حاليًا. حتى مع السياقات الطويلة جدًا، يمكن تشغيل عدة نسخ متزامنة من Granite 4.0 Tiny بسهولة على وحدة معالجة رسومات متوسطة للمستهلكين.

بنية مزيج الخبراء (MoE) الهجينة الجديدة كليًّا

في حين أن الأجيال السابقة من نماذج Granite LLMs استخدمت بنية المحول التقليدية، فإن جميع النماذج في عائلة Granite 4.0 تستخدِم بنية هجينة جديدة تجمع بين Mamba-2 والمحول، ما يوفر سرعة وكفاءة Mamba مع دقة آلية الانتباه الذاتي المعتمدة على المحول. يُعَد Granite 4.0 Tiny-Preview نموذجًا هجينًا دقيق التخصيص من نوع "مزيج من الخبراء (MoE) ويحتوي على 7 مليارات من المُعاملات الإجمالية، في حين لا يُستخدم منها إلا مليار واحد أثناء وقت الاستدلال.

جاء العديد من الابتكارات التي تقوم عليها بنية Granite 4 نتيجةً لتعاون IBM Research مع مبتكري Mamba الأصليين في مشروع Bamba، وهو نموذج هجين تجريبي مفتوح المصدر، وقد تم إصدار خليفته (Bamba v2) في وقت سابق من هذا الأسبوع.

نبذة تاريخية موجزة عن نماذج Mamba

Mamba (ملف PDF) هو نوع من نماذج فضاء الحالة (SSM)، وقد تم تقديمه في عام 2023 - أي بعد نحو 6 سنوات من ظهور المحولات لأول مرة في عام 2017.

تشبه نماذج SSM من حيث المفهوم الشبكات العصبية المتكررة (RNNs) التي كانت تهيمن على معالجة اللغة الطبيعية (NLP) قبل ظهور المحولات. تم تصميمها في الأصل للتنبؤ بالحالة التالية لتسلسل مستمر (مثل الإشارة الكهربائية) باستخدام معلومات فقط من الحالة الحالية والحالة السابقة ونطاق الاحتمالات (مساحة الحالة). على الرغم من استخدامها في عدة مجالات لعقود، إلا إن نماذج SSM تشترك مع الشبكات العصبية المتكررة (RNNs) في بعض العيوب التي قلَّلت من قدرتها على نمذجة اللغة حتى فترة قريبة.

على عكس آلية الانتباه الذاتي في المحولات، لا تمتلك نماذج SSM القدرة الفطرية على التركيز الانتقائي أو تجاهل أجزاء معينة من المعلومات السياقية. في عام 2023، قدم Albert Gu من جامعة كارنيغي ميلون وTri Dao من جامعة برينستون نوعًا من الشبكات العصبية المسماة "تسلسل فضاء الحالة الهيكلي" (S4) التي تضيف آلية اختيار وطريقة مسح (لزيادة الكفاءة الحسابية) -ويُختصر هذا النموذج باسم "S6"- وقد حقَّق نتائج في نمذجة اللغة تنافِس المحولات. أطلقوا على نموذجهم اسم "Mamba" لأن جميع حروف S في اسمه تبدو كهمس ثعبان، من بين أسباب أخرى.

في عام 2024، أصدر Gu وDao نموذج Mamba-2، وهو تنفيذ مبسط ومحسَّن لبنية Mamba. وبالقدر نفسه من الأهمية، أوضح بحثهم الفني (PDF) مدى التوافق بين نماذج SSM وآلية الانتباه الذاتي.

مقارنة بين Mamba-2 والمحولات

تركِّز مزايا Mamba الرئيسية على الكفاءة والسرعة مقارنةً بالنماذج المعتمدة على المحولات.

للمحولات نقطة ضعف حاسمة: متطلبات الحوسبة لآلية الانتباه الذاتي تزداد بمعدل تربيعي مع طول السياق. بعبارة أخرى، في كل مرة يتضاعف فيها طول السياق، لا تستهلك آلية الانتباه ضعف الموارد فقط، بل تستهلك أربعة أضعاف الموارد. هذا "العنق الزجاجي التربيعي" يبطئ السرعة والأداء بشكل متزايد مع زيادة حجم نافذة السياق (ومخزن KV-cache المرتبط بها).

على العكس من ذلك، تتزايد احتياجات Mamba الحاسوبية بشكل خطي: إذا ضاعفنا طول تسلسل الإدخال، فإن Mamba يستهلك فقط ضعف الموارد. بينما يتعين على آلية الانتباه الذاتي حساب صلة كل رمز سابق مع كل رمز جديد بشكل متكرر، يحتفظ Mamba ببساطة "بملخص" مضغوط وثابت الحجم للسياق السابق من الرموز السابقة. عندما "يقرأ" النموذج كل رمز جديد، يحدد مدى صلته ثم يُحدِّث (أو لا يُحدِّث) الملخص وفقًا لذلك. بشكل أساسي، بينما يحتفظ الانتباه الذاتي بكل قطعة من المعلومات ثم يزِن تأثير كل منها بناءً على أهميتها، يحتفظ Mamba بشكل انتقائي فقط بالمعلومات ذات الصلة.

ومع ذلك، فإن طريقة المحولات التي تتطلب ذاكرة أكبر وحسابات متكررة لها مزاياها الخاصة. على سبيل المثال، أظهرت الأبحاث (PDF) أن المحولات لا تزال تتفوق على كل من Mamba وMamba-2 في المهام التي تتطلب التعلم ضمن السياق (مثل التحفيز بعدد قليل من الأمثلة)، والنسخ، أو الاستدلال على السياق الطويل.

أفضل ما في كِلا العالمين

لحسن الحظ، لا تتعارض نقاط القوة الخاصة بالمحولات وMamba مع بعضها. في ورقة Mamba-2 الأصلية، اقترح المؤلفان داو وجو أن النموذج الهجين قد يتجاوز أداء المحول النقي أو نموذج الفضاء الحيّ، وهو مفهوم أكدته أبحاث NVIDIA من العام الماضي (PDF). لاستكشاف هذا الأمر بشكل أعمق، تعاونت IBM Research مع كل من Dao وGu، إلى جانب Minjia Zhang من جامعة إلينوي في إربانا-شامبين (UIUC)، في تطوير Bamba وBamba V2. بدوره، ألهم Bamba العديد من العناصر المعمارية في Granite 4.0.

تستخدِم بنية Granite 4.0 MoE تسع كتل من Mamba مقابل كل كتلة واحدة من المحول. في الأساس، تلتقط آليات الاختيار في كتل Mamba السياق العام بكفاءة، ثم يتم تمرير هذا السياق إلى كتل المحول التي تُتيح تحليلًا أدق للسياق المحلي. والنتيجة هي انخفاض كبير في استخدام الذاكرة وزمن الانتقال دون أي تضحية ملحوظة في الأداء.

يعزِّز Granite 4.0 Tiny مكاسب الكفاءة هذه من خلال تطبيقها ضمن إطار عمل مدمج ودقيق بنظام الخبراء المتعددين (MoE)، يتألف من 7 مليارات من المعاملات الكلية و64 خبيرًا، ما يؤدي إلى تفعيل مليار مَعلمة فقط أثناء وقت الاستدلال. تتوفر تفاصيل إضافية في بطاقة نموذج Granite 4.0 Tiny Preview على منصة Hugging Face.

طول السياق غير المقيد

من أبرز ما يميز النماذج اللغوية المبنية على SSM هو إمكانيتها النظرية في التعامل مع تسلسلات طويلة بلا حدود. لكن بسبب القيود العملية، عادةً ما تحمل كلمة "نظري" عبئًا كبيرًا في هذا السياق.

أحد هذه القيود، لا سيما في نماذج SSM الهجينة، يأتي من الترميز الموضعي (PE) المستخدَم لتمثيل معلومات ترتيب الكلمات. يضيف الترميز الموضعي خطوات حسابية، وقد أظهرت الأبحاث أن النماذج التي تستخدِم تقنيات الترميز الموضعي مثل الترميز الموضعي الدوراني (RoPE) تواجه صعوبة في التعميم على تسلسلات أطول من تلك التي تدربت عليها.3

تعتمد بنية Granite 4.0 على عدم استخدام الترميز الموضعي (NoPE). تُظهر اختباراتنا بشكل واضح أن هذا لم يؤثِّر سلبًا في أداء التعامل مع السياقات الطويلة. في الوقت الحاضر، تم التحقق من أداء Tiny Preview في التعامل مع سياقات طويلة تصل إلى 128 ألف رمز على الأقل، ونتوقع التحقق من أداء مماثل على سياقات أطول بكثير بحلول انتهاء تدريب النموذج وما بعده. من الجدير بالذكر أن التحدي الرئيسي في التحقق النهائي من الأداء في مهام تتعلق بسياق بحجم مليون رمز هو ندرة مجموعات البيانات المناسبة.

القيد العملي الآخر على طول سياق Mamba هو القدرة الحاسوبية. يُعَد التوسع الخطي أفضل من التوسع التربيعي، لكنه مع ذلك يتراكم في النهاية. وهنا مرة أخرى، يتمتع Granite 4.0 Tiny بميزتين رئيسيتين:

  • على عكس الترميز الموضعي (PE)، لا يضيف عدم استخدام الترميز الموضعي (NoPE) أي عبء حسابي إضافي على آلية الانتباه في طبقات المحول بالنموذج.
  • يتميز Granite 4.0 Tiny بصغر حجمه وكفاءته العالية، ما يوفر مساحة كافية في الأجهزة للتوسع الخطي. 

ببساطة، بنية Granite 4.0 MoE نفسها لا تفرض أي قيود على طول السياق. ويمكنه التوسع حتى الحد الذي تسمح به قدرات جهازك.

ما الذي سيحدث بعد ذلك؟

نحن متحمسون لمواصلة تدريب Granite 4.0 Tiny مسبقًا، نظرًا لهذه النتائج الواعدة في مراحل مبكرة من العملية. ونحن متحمسون أيضًا لتطبيق ما تعلمناه من مرحلة ما بعد تدريب Granite 3.3، خاصةً فيما يتعلق بقدرات الاستدلال واتباع التعليمات المعقدة، على النماذج الجديدة. ومثل إصداراته السابقة Granite 3.2 وGranite 3.3، يقدِّم Granite 4.0 Tiny Preview خاصية التبديل القابلة للتفعيل.thinking on وthinking off (على الرغم من أن وظيفة ما بعد التدريب التي تركِّز على المنطق غير مكتملة إلى حد كبير).

سيتم تقديم المزيد من المعلومات حول التطورات الجديدة في سلسلة Granite خلال مؤتمر IBM Think 2025، وكذلك في الأسابيع والأشهر القادمة.

اطلع على Granite 4.0 Tiny Preview على Hugging Face →

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

حلول ذات صلة
IBM Granite

تحقيق وفورات في التكاليف تزيد على 90% مع نماذج Granite مفتوحة أصغر، مصممة لتعزيز كفاءة المطورين.تقدِّم هذه النماذج الجاهزة للاستخدام المؤسسي أداءً استثنائيًا في معايير السلامة وعلى نطاق واسع من المهام المؤسسية من الأمن الإلكتروني إلى التوليد المعزز بالاسترجاع (RAG).

استكشف Granite
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai استكشف نماذج الذكاء الاصطناعي من IBM Granite
الحواشي

1. على سبيل المثال، يُعَد الاستهلاك النظري للذاكرة العشوائية (RAM) لخمس جلسات متزامنة بطول سياق يصل إلى 128 ألفًا مناسبًا لبطاقة NVIDIA GeForce RTX 3060 بسعة 12 جيجابايت من الذاكرة، والتي،اعتبارًا من 29 أبريل 2025، يبدأ سعرها من 329 دولارًا أمريكيًا. (المصدر: NVIDIA).
2. تم حساب تقليل الذاكرة عند طول سياق 128 ألفًا وخمس عشرة جلسة متزامنة.
3. "The Impact of Positional Encoding on Length Generalization in Transformers," arXiv, 6 November 2023