ما المقصود بنماذج Mamba؟

المؤلفون

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

ما المقصود بنماذج Mamba؟

تُعَد Mamba بنية شبكة عصبية، مشتقة من نماذج الحالة المكانية (SSMs)، ويتم استخدامها في نمذجة اللغة ومهام نمذجة التسلسل الأخرى. السرعة العالية للاستدلال وكفاءة الحساب في بنية Mamba، خصوصًا مع التسلسلات الطويلة، تجعلها أول بديل تنافسي لبنية المحوِّل للنماذج اللغوية الكبيرة (LLMs) ذاتية الانحدار.

قد تكون نماذج Mamba أول بنية تعلم عميق تضاهي فعلية نماذج المحوِّل في المهمة التي اشتهرت بها بنية المحوِّل في الأصل: نمذجة اللغة. والأمر الأكثر أهمية، أن بنية Mamba أظهرت القدرة على معادلة أداء نماذج المحوِّل ذات الحجم المماثل في تقييمات معايير LLM البارزة، مع كونها غالبًا أكثر كفاءة بشكل كبير من حيث زمن الانتقال ومتطلبات الذاكرة.

تم تقديم بنية Mamba لأول مرة بواسطة Tri Dao وAlbert Gu في ورقة بحثية في عام 2023 بعنوان: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". بعد عام، أتبعوا الورقة البحثية الأصلية لبنية Mamba بورقة أخرى استكشفت العلاقة بين نماذج SSM والمحوِّلات وقدَّمت نسخة محسَّنة وأسرع بشكل ملحوظ من بنية Mamba، أطلقوا عليها اسم Mamba-2.

على الرغم من أن المحوِّلات ظلت التقنية السائدة في النماذج اللغوية الكبيرة خلال العامين التاليين لإصدار الورقة البحثية الأصلية لـ Mamba، فقد تم دمج البنية في عدد متزايد من النماذج مفتوحة المصدر. وبعض النماذج، مثل Codestral Mamba من Mistral AI، هي نماذج Mamba خالصة. والعديد غيرها، بما في ذلك سلسلة Jamba من AI2I وIBM Granite 4.0، هي نماذج هجينة تُدمج بين طبقات الانتباه (المحوِّل) وطبقات SSM ‏(Mamba). بالإضافة إلى فوائدها المتعلقة بالأداء، فإن انتشار النماذج المستندة إلى Mamba يَعِد بتوسيع وصول الذكاء الاصطناعي عبر تشغيلها بسلاسة على أجهزة أقل تكلفة نسبيًا.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

ما المقصود بنماذج الحالة المكانية (State Space)؟

تم تصميم نماذج الحالة المكانية (SSMs) في الأصل للتنبؤ بالحالة التالية لتسلسل مستمر، مثل إشارة كهربائية أو نمط الطقس أو مسار جسم متحرك، استنادًا إلى بعض المدخلات. من الناحية المفاهيمية والرياضية، ترتبط هذه النماذج بالشبكات العصبية المتكررة (RNNs) التي سيطرت على معالجة اللغة الطبيعية (NLP) قبل إدخال المحوِّلات في عام 2017، بالإضافة إلى خوارزميات التعلم الآلي الأخرى بما في ذلك الشبكات العصبية الالتفافية (CNNs) ونماذج Markov المخفية (HMMs).

كما يُوحي اسمها، تتنبأ نماذج SSM بالحالة التالية في نظام ديناميكي عن طريق نمذجة الحالة المكانية: وهو تمثيل رياضي لكل متغيرات الحالة التي تصف حالة النظام، ونطاق الاحتمالات لكلٍّ من هذه المتغيرات عند أخذها في الاعتبار معًا.

يأخذ نموذج SSM تسلسل مدخلات x(t) ويحوِّله إلى تمثيل كامِن للحالة h(t) -ويُشبه هذا الحالة المخفية في الشبكة العصبية المتكررة (RNN)- لتتمكن من التنبؤ بتسلسل المخرجات y(t). في صميم أي نموذج SSM توجد معادلتان:

  • معادلة الحالة، h(t)=A*h(t)+B*x(t) 
  • معادلة الإخراج، y(t)=C*h(t)+D*x(t) 

المَعلمات الأساسية للنموذج هي A وB وC وD، والتي غالبًا ما تأخذ شكل مصفوفة أوزان. في المجالات التي تُستخدم فيها نماذج SSM بشكل تقليدي، مثل نظرية التحكم، يُفترض غالبًا أن هذه المصفوفات ثابتة: فهي تمثِّل ديناميكيات نظام موجود، ويُستخدم SSM لإيجاد المدخلات x التي تؤدي إلى المخرجات المرغوب فيها y.في التصورات الحديثة لنماذج SSM، تُعَد هذه المصفوفات هي نفسها مَعلمات يجب تحسينها من خلال التعلم الآلي. في نماذج التعلم العميق، يتم تمثيل تلك المصفوفات بواسطة الأوزان القابلة للتعلم من شبكة عصبية.

معادلة الحالة

تَصِف معادلة الحالة كيفية تغيُّر الحالة. تحدِّد القيم الموجودة في المصفوفة A كيفية تطوُّر كل متغير حالة بمرور الوقت إذا تُرك لنفسه. تحدِّد القيم في المصفوفة B كيفية تأثير الإدخال -مثل الرمز المميز التالي في التسلسل النصي- على كل متغير حالة.

رسم تخطيطي لمعادلة الحالة المكانية في نموذج SSM معادلة الحالة. رسم توضيحي مشتق من "A Visual Guide to Mamba and State Space Models" لـ Maarten Grootendorst.

في نمذجة اللغة، تمثِّل الحالة الحالية سياق تسلسل نصي، يتم تحديثه بعد كل رمز مميز. ويعادل دورها دور ذاكرة التخزين المؤقت KV في نموذج المحوِّل.

معادلة الإخراج

تَصِف معادلة الإخراج كيف تؤثِّر الحالة الحالية في المخرجات (عبر المصفوفة C)، وكذلك كيف تؤثِّر المدخلات مباشرةً في المخرجات (عبر المصفوفة D). نظرا لأن المصفوفة D خارجية بشكل أساسي لنمذجة h(t) نفسها، فغالبًا ما يتم حذفها من المخططات والمناقشات الخاصة بنماذج SSM لصالح التركيز على المصفوفات الأساسية A وB وC.

رسم تخطيطي لمعادلة الإخراج في نماذج SSM معادلة الإخراج. معادلة الحالة. رسم توضيحي مشتق من "A Visual Guide to Mamba and State Space Models" لـ Maarten Grootendorst.

في النموذج اللغوي الكبير القائم على Mamba، يتم استخدام معادلة المخرجات لتوليد الرمز المميز التالي.

نماذج الحالة المكانية المنفصلة

تم تصميم نماذج SSM التقليدية لنمذجة المدخلات المستمرة، بينما تسلسلات النصوص (ومعظم أشكال البيانات الأخرى التي تعالجها نماذج التعلم العميق الحديثة) هي مدخلات منفصلة. يتطلب استخدام SSM لنمذجة تسلسل منفصل وسيلة لتمثيل خطواته الزمنية المميزة كجزء من إشارة مستمرة.

من الناحية المفاهيمية، تعني عملية التقطيع الزمني (discretization) أخذ عينات من قيم دالة مستمرة عند لحظات محددة. وهذا يستلزم إدخال مَعلمة جديدة -حجم الخطوة، والتي يُرمَز إليها بالرمز - والتي تحدِّد مدة أخذ القيمة أو "الاحتفاظ" بها عند كل خطوة زمنية منفصلة t. تشبه التعديلات على التغييرات في الصفات مثل دقة البيانات (لبيانات السلاسل الزمنية) أو معدل الإطارات (لبيانات الفيديو). هناك عدة طرق "للتقطيع الزمني"، لكن معظم نسخ SSM الحديثة (بما في ذلك Mamba) تستخدم الطريقة البسيطة المعروفة باسم طريقة التثبيت الصفري (ZOH).

يُتيح تقطيع نموذج SSM استخدامه مثل RNN في مهام تحويل تسلسل إلى تسلسل. عادةً ما تتم إعادة كتابة مَعلمات ومعادلات SSM ذات القيم المنفصلة للتمييز بينها وبين نظيراتها في الزمن المستمر، باستخدام الترميز بالأسفل (subscript) المعتاد في شبكات RNN. في هذا الترميز، تمثِّل ht الحالة المحدثة التي سينتجها النموذج، بينما تمثِّل ht-1 الحالة السابقة -أي الحالة الحالية للنظام.

 ht=A¯ht-1+B¯xt  
 yt=C¯ht

نماذج الحالة المكانية المنفصلة

تُعَد نمذجة بيانات النصوص باستخدام نماذج SSM المنفصلة التقليدية غير عملية؛ بسبب عدد من العيوب التي تشترك فيها مع شبكات RNN. تمت معالجة اثنين من هذه العيوب من خلال تقديم نماذج تسلسل الحالة المكانية المنظمة (أو "نماذج S4") بواسطة Albert Gu وآخرين في 2021: وهما عدم كفاءة التدريب وصعوبة نمذجة التسلسلات الطويلة.

على الرغم من ذلك، فإن نجاح نماذج S4 ومشتقاتها العديدة، مثل نماذج SSM القطرية (DSS)، وS4 القطرية (S4D)، ونماذج H3، مهَّد مباشرةً الطريق لتطوير نماذج Mamba.

التدريب الفعَّال باستخدام الالتفافات

الفائدة من كون نماذج SSM المنفصلة مكافئة لحالة محددة من RNN هي أن شبكات RNN سريعة جدًا في الاستدلال. الجانب السلبي، مع ذلك، هو أن شبكات RNN بطيئة جدًا في التدريب.

لحسن الحظ، تتميز نماذج SSM المنفصلة بصفة مهمة تميّزها عن غيرها من شبكات RNN: فهي تمثِّل فقط الاعتماديات الخطية. بمعنى آخر، تستخدم عمليات الضرب والجمع البسيطة والمباشرة. وكما توضح الورقة البحثية حول S4، يمكن لهذه التكرارات الخطية البسيطة والمتكررة والمترابطة أن تُعدِّل في نواة التفافية ذات بُعد واحد، والتي تقوم مباشرةً بتعيين الإدخال x إلى الإخراج y في خطوة واحدة: يمكن حساب ذلك بكفاءة عالية باستخدام تحويل Fourier السريع (FFT).

"الشرط" الوحيد هو أن هذا ممكن فقط عندما تكون كل خطوة من خطوات التسلسل الكامل للمدخلات معروفة. وهذا غير ممكن أثناء الاستدلال، لكنه متاح أثناء التدريب. لذلك، يتمتع SSM المنظم بأفضل ما في العالمين: أثناء التدريب يمكن تشغيله بكفاءة عالية كنموذج CNN، وأثناء الاستدلال يمكن تشغيله بكفاءة عالية كنموذج RNN.

نمذجة التسلسلات الطويلة من خلال المصفوفات المنظمة

مثل معظم شبكات RNN، فإن نماذج SSM القياسية ضعيفة بطبيعتها في نمذجة التبعيات على المدى الطويل. بمعنى آخر، فهي غير قادرة على فهم العلاقة بين الخطوات المتباعدة في التسلسل، مثل الكلمات في بداية ونهاية فقرة - ما يجعلها ضعيفة في نمذجة التسلسلات الطويلة بشكل عام.

لحل هذه المشكلة، استخدَم Gu وزملاؤه (من بينهم Tri Dao) تقنية تُسمَّى HiPPO -اختصارًا لـ High-order Polynomial Projection Operators- لتحديد سلوك مصفوفتَي A وB عن طريق هيكلة قيمهما الابتدائية باستخدام صيغة مستمدة من كثيرات الحدود المتعامدة. يتناقض هذا مع ممارسات التعلم الآلي القياسية، حيث تتم تهيئة أوزان النموذج بشكل عشوائي في بداية تدريب النموذج. بالنسبة إلى S4، اقترح Dao وGu مخططات التهيئة المشتقة من كثيرات الحدود Legendre. استكشفوا معادلات إضافية في ورقة متابعة بعنوان "How to Train Your HiPPO".1

تُشير ورقة S4 إلى أن "تعديل SSM من مصفوفة A عشوائية إلى [مصفوفة HiPPO] حسَّن أداءَه على معيار MNIST التسلسلي من 60% إلى 98%"، ما أدى فعليًا إلى حل مشكلة الذاكرة الطويلة الأمد في نماذج SSM. لاحقًا، تستخدم نسخ SSM المنظمة مثل DSS وS5 وMamba مخططات تهيئة مختلفة (وغالبًا أبسط) للمصفوفات A وB، لكنها تحتفظ في الوقت نفسه بالمبادئ الأساسية لـ HiPPO: تنفيذ هيكل قطري يضمن تحديثات مستقرة ويحقق قدرًا من الاستقلالية لكل قيمة داخل المصفوفة.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

كيف تعمل نماذج Mamba؟

في جوهر بنية Mamba يكمن ابتكاران أساسيان. الأول هو نموذج الحالة المكانية الانتقائي، الذي يزوِّد Mamba بقدرة حاسمة كانت حكرًا على نماذج المحولات سابقًا: القدرة على التركيز انتقائيًا على أجزاء معينة من تاريخ المدخلات السابقة أو تجاهلها بناءً على أهميتها الحالية. والآخر هو المسح المتوازي المدرك للأجهزة، وهو خوارزمية تحسِّن طريقة تعامل وحدة معالجة الرسومات (GPU) مع عمليات النموذج في تسلسل الذاكرة لزيادة السرعة والكفاءة الحسابية.

في المحولات، يتم توفير هذه القدرة عبر آلية الانتباه التي تضبط أوزان الانتباه لتحديد مدى تأثير كل رمز سابق وفق أهميته للرمز الحالي. تم تصميم نماذج SSM العادية صراحةً لربط المدخلات بالمخرجات باستخدام سجل المدخلات بأكمله.وهذا أمر مقبول أو حتى مرغوب فيه في بعض مهام نمذجة التسلسل، لكنه يمثِّل عائقًا كبيرًا لمعظم مهام نمذجة اللغة المتقدمة.

ولمعالجة هذا العجز عن إغفال أو إبراز أجزاء محددة من تاريخ المدخلات ديناميكيًا، اقترح Dao وGu فئة جديدة من نماذج الحالة المكانية تحتوي على ما يُعرف باسم "المسح الانتقائي". في ورقة Mamba، يذكر المؤلفون أنهم "يقصرون أحيانًا اسم النماذج الانتقائية SSM إلى نماذج S6، لأنها نماذج S4 مزودة بـآلية اختيار ومحسوبة عبر مسح". أطلقوا على بنيتهم المستندة إلى S6 اسم "Mamba"؛ لأن جميع حروف S في اسمه تبدو كهمس ثعبان، من بين أسباب أخرى.

يمكن فهم Mamba على أفضل نحو باعتبارها بنية شبكة عصبية تحتوي على نموذج الحالة المكانية الانتقائي في جوهرها. لمقارنة بسيطة، يمكن تشبيه Mamba بالنسبة إلى نماذج SSM الانتقائية مثل نموذج المحوِّل بالنسبة إلى آلية الانتباه.

كيفية عمل نماذج الحالة المكانية الانتقائية (S6)

يحتوي نموذج SSM التقليدي على ديناميكيات ثابتة: القواعد التي تحكم كيفية تطوُّر الحالة المخفية من خطوة إلى أخرى -مَعلمات النموذج- هي نفسها لكل إدخال وفي كل خطوة في التسلسل. تُعرف هذه الخاصية باسم الثبات الزمني الخطي (LTI). لمنح نماذج SSM القدرة على إعطاء أولوية انتقائية أو تقليل أهمية معلومات سابقة محددة بناءً على السياق الحالي، أعاد Dao وGu تكوين نموذجهم بحيث تختلف قيم المَعلمات الرئيسية للنموذج باختلاف المدخلات.

وبشكل أكثر تحديدًا، تجعل نماذج SSM الانتقائية حجم الخطوة t والمصفوفات Bt وCt وظائف مباشرة للرمز المميز الحالي للمدخل xt. ويتم تحقيق ذلك أولًا عن طريق تمرير تمثيل المتجه لـ xt عبر ثلاث طبقات إسقاط خطية متوازية - بمعنى آخر، طبقات شبكة عصبية أمامية قياسية (أو طبقات MLP). وهذا يعادل الطريقة التي يتم بها توليد الرؤوس المتوازية لكلٍّ من query وkey وvalue متجهات Q وK وV الخاصة بالمدخل في نموذج المحوِّل.

رسم تخطيطي لنموذج المكانة الحالية الانتقائي نموذج الحالة المكانية الانتقائي وتخصيص ذاكرة الوصول العشوائي (RAM) على وحدة معالجة الرسومات (GPU). مقتبس من الورقة الأصلية "Mamba: Linear Time-Sequence Modeling with Selective State Spaces".

يؤدي ضرب تضمين المتجه لـ xt في أوزان وانحيازات تلك الشبكة الخطية إلى إنتاج القيم النهائية لـ ∆t وBt وCt. يتم تعلُّم أوزان وانحيازات طبقات الإسقاط الخطية نفسها أثناء التدريب المسبق على مجموعات بيانات كبيرة من عينات النصوص، ثم يتم (اختياريًا) تحسينها من خلال ضبط دقيق لاحق.

  • تحدِّد قيمة t مدى تأثير xt في ذاكرة النموذج للسياق الذي رآه حتى الآن: بمعنى آخر، على مقدار التحديث من الحالة المخفية ht-1 إلى ht. تؤدي زيادة حجم الخطوة t إلى تغييرات أكبر وتسريع تلاشي -بمعنى آخر، "نسيان"- المعلومات القديمة الموجودة ضمن الحالة. وعلى العكس من ذلك، يؤدي حجم الخطوة الأصغر إلى تحديث أصغر. عند حجم الخطوة الصغير جدًا، لن يكون للمدخل الحالي أي تأثير في الحالة المخفية على الإطلاق.

  • تحدِّد التغييرات في المصفوفة Bk كيف يقوم الرمز الحالي بتحديث الحالة المخفية. على سبيل المثال، إذا كان xt رمزًا مميزًا للكلمة "yesterday"، فقد يتم تعديل Bt بطريقة تجعل الحالة تعكس أن السياق التالي على الأرجح متعلق بالماضي.

  • تحدد التغييرات في المصفوفة Ct كيفية ترجمة هذه المعلومات السياقية لتؤثِّر في مخرجات النموذج yt. متابعةً للمثال الذي يكون فيه xk رمزًا مميزًا لكلمة "yesterday"، قد تتأثر Ck بطريقة تجعل أي أفعال يتم إنتاجها لاحقًا من قبل النموذج تُصاغ بصيغة الماضي.

ومن الجدير بالذكر أنه لا يتم إجراء أي تعديلات تعتمد على المدخلات على المصفوفة A. ويظل دورها كما في نماذج S4: حفظ كل تاريخ المدخلات السابقة بكفاءة. يتمثل دور تحديد أي أجزاء من ذلك التاريخ يجب استخدامها في لحظة معينة في المصفوفات B وC.

المسح المتوازي

لكن بمجرد أن يصبح النموذج غير ثابت زمنيًا، لن يعد بإمكانه استخدام الاختصار القائم على الالتفاف أثناء التدريب؛ لأن نواة الانتقال لم تعد ثابتة: جوهر آلية الانتقائية هو أن الانتقال من ht-1 إلى ht أصبح الآن معتمدًا على السياق.

وبدلًا من ذلك، يستخدم Mamba حلًا ذكيًا لتحقيق فوائد موازاة مماثلة. وبما أن SSM يستخدم فقط الضرب والجمع، فإن حساباته تخضع لخاصية التجميع المعروفة في الرياضيات: يمكن ترتيب العمليات بطرق مختلفة دون أن يتغير الناتج النهائي. يُتيح ذلك تقسيم العديد من العمليات الحسابية المتسلسلة إلى أجزاء صغيرة ومستقلة يمكن معالجتها بالتوازي على GPU عبر مسح مجموعات أولية متوازية.

علاوةً على ذلك، يتم دمج النتائج بطريقة هرمية محددة تستفيد بأقصى كفاءة من أنواع الذاكرة المختلفة على وحدات معالجة الرسومات، باستخدام مبادئ مشابهة لتقنيات FlashAttention -التي طورها أيضًا Tri Dao- والتي أصبحت شائعة في النماذج اللغوية الكبيرة الحديثة. 

كتلة Mamba

داخل بنية Mamba، يعمل نموذج S6 كوحدة ضمن "كتلة Mamba" الأكبر، تمامًا كما تعمل آلية الانتباه كوحدة ضمن "كتلة الانتباه" الأكبر. ويجمع بين وحدة S6 وبنية الشبكة العصبية المزوَّدة بالبوابات. عادةً ما تتألف نماذج Mamba من عدة كتل Mamba -أي سلسلة من طبقات Mamba المتتالية في الشبكة العصبية- قبل طبقة الإخراج التي تولِّد التنبؤ النهائي للنموذج.

رسم تخطيطي لكتلة Mamba-2 كتلة Mamba. يشير الرمز "x" بعد نموذج SSM الانتقائي إلى الضرب حسب العنصر، وليس الضرب القياسي للنقاط.

قبل دخول كتلة Mamba، يتم إرسال نسخة من المدخل مباشرة إلى النهاية كاتصال متبقٍ.الهدف من عمل كتلة Mamba الداخلي ليس فقط تحديد أي أجزاء من السياق الأكبر ذات صلة بالإدخال، بل أيضًا تحديد مدى تأثير تلك المعلومات السياقية في المعنى الأصلي للإدخال.

داخل كتلة Mamba، تتم معالجة متجه الإدخال الأصلي على النحو التالي:

  • أولًا، يتم تمرير الإدخال عبر طبقة خطية ضِعف عرض المتجه الأصلي للإدخال، حيث يتم إسقاطه إلى فضاء أبعاده أكبر. على سبيل المثال، إذا كان النموذج يمثِّل كل رمز إدخال x في الأصل كتضمين متجه ذي 512 بُعدًا، فإن ضرب x في أوزان طبقة الإسقاط الخطي يوسِّعه إلى متجه ذي 1024 بُعدًا.

  • بعد ذلك، يتم تقسيم المتجه الموسَّع إلى قسمين. يتم تمرير نصف المتجه (الذي سنسميه xproj) في المسار الذي يمر عبر SSM، بينما يتم تمرير النصف الآخر (الذي سنسميه zproj) عبر مسار منفصل يمر بآلية بوابة. للتوضيح، عادةً ما يتم تصوير خطوة التوسيع السابقة على أنها تتم بواسطة طبقتين خطيتين متوازيتين.

  • قبل أن يصل xproj إلى SSM، يتم تمريره عبر طبقة التفاف أحادية البعد. تستخرج طبقة الالتفاف هذه أنماطًا محلية (مثل التبعيات بين الرموز المميزة المجاورة، مثل أزواج الأفعال والفاعلين البسيطة). يُتيح ذلك لنموذج الحالة المكانية "التركيز" على الفهم السياقي للتبعيات العالمية بعيدة المدى.

  • يعمل ناتج طبقة الالتفاف كإدخال لدالة تفعيل غير خطية. يُعَد إدخال اللاخطية سمة مميزة لجميع الشبكات العصبية، ما يُتيح لها اكتشاف أنماط أكثر تعقيدًا. تستخدم ورقة Mamba الوحدة الخطية السينيّة (SiLU). سنقوم بتسمية المتجه الناتج xact.

  • وفي الوقت نفسه، في مسار آلية البوابة المنفصلة، يتم أيضًا إدخال zproj إلى دالة تنشيط غير خطية، ما يؤدي إلى إنتاج zact.

  • في مسار SSM، يتم تمرير xact في ثلاث طبقات إسقاط خطية متوازية لتوليد القيم الخاصة بكل من ∆x وBx وCx على التوالي.

  • يستخدم SSM هذه المعلمات المعتمدة على المدخلات (إلى جانب المصفوفات A وD) لحساب تحديث الحالة المكانية ومخرجات y لنموذج SSM.

  • يتم الآن ضرب متجه مخرجات y لنموذج SSM حسب العنصر في متجه مخرجات مسار البوابة zact. بشكل أساسي، يعمل كل عنصر في zact مثل مقبض الصوت في لوحة مزج الصوت: إذا كان عنصر معين من zact قريبًا من الصفر، فإن ضربه بالجزء المقابل من y سيعطي قيمة أقرب إلى الصفر ويَقِلُّ تأثيره. بالمقابل، إذا كان عنصر معين من zact كبيرًا، فإن ضربه في y سيزيد من تأثير المعلومات السياقية الخاصة به.

  • يتم إسقاط المتجه الناتج مرة أخرى إلى حجمه الأصلي. يمكن فهمه على أنه متجه من التحديثات السياقية المرجحة (أو غير المرجحة) لكل عنصر من عناصر متجه الإدخال الأصلي.

  • أخيرًا، تتم إضافة متجه التحديثات هذا إلى نسخة متجه الإدخال الأصلي الذي تم إرساله مباشرةً إلى نهاية الكتلة كاتصال متبقٍ.

  • تم الآن تحديث متجه الإدخال الأصلي ليعكس الفهم السياقي الذي يوفره SSM الانتقائي. يمكن الآن إرسالها إلى طبقة Mamba التالية أو، في الطبقات النهائية للنموذج، أن تُستخدم كمدخل لدالة softmax التي تنتج الاحتمالية الخاصة بكل كلمة في قاموس النموذج بالنسبة للمتجه المحدَّث بالكامل.

نموذج Mamba-2

بعد عام من نشر ورقة Mamba الأصلية، تبعها Dao و Gu بورقة بعنوان "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality". وقدَّمت ورقة المتابعة هذه ثلاث مساهمات رئيسية:

  • استكشاف الروابط النظرية بين Mamba والمحوِّلات والمفردات المشتركة بين البنيتين.
  • سلسلة من التوضيحات والاستكشافات لخيارات التصميم المختلفة لنماذج Mamba.
  • بنية معدلة، Mamba-2، مستنيرة ومحسَّنة من خلال استكشافات التصميم هذه.

خوارزمية Mamba-2 أسرع بكثير وأسهل في التطبيق من Mamba الأصلية: حيث قدَّم المؤلفون قاعدة كود "SSD minimal" التي تنفِّذ SSM الانتقائي في حوالي 25 سطرًا من التعليمات البرمجية.2 تُتيح هذه الكفاءة لنموذج Mamba-2 استخدام أبعاد حالة مخفية أكبر بكثير دون إبطاء النموذج، ما يسمح ببناء نماذج أكبر وأكثر قوة وتعبيرًا باستخدام هذه البنية. في الاختبارات، تفوقت نماذج Mamba-2 أو تعادلت بشكل حاسم مع نماذج Mamba والمحوِّلات المماثلة في الحجم في سلسلة من المهام الفرعية.

الاتصالات بالمحوِّلات

كما جاء في مقدمة الورقة، كان الهدف الرئيسي لكلٍّ من Dao وGu هو "تطوير مجموعة غنية من الروابط النظرية بين نماذج SSM المنظمة وأشكال مختلفة من الانتباه". أدى هذا إلى ظهور إطار مفاهيمي جديد يوحِّد بين الاثنين، أطلقوا عليه اسم "ازدواجية الحالة المكانية" (SSD).3 وبذلك، مهَّدوا الطريق أمام Mamba للاستفادة من عدة سنوات من الاستكشاف والتحسين في بنية المحوِّلات.

إحدى الفوائد الملحوظة كانت تطوير ما يعادل آلية الانتباه متعدد الرؤوس (MHA) في Mamba، حيث يمكن تقسيم كتلة Mamba إلى عدة "رؤوس Mamba" مشابهة لـ "رؤوس الانتباه" المتعددة في المحوِّلات. أحد أشكال هذا النهج، الذي اعتبروه مماثلًا للانتباه الاستعلامي المجمع، يُتيح كفاءة أكبر من خلال التوازي على مستوى التنسورات في وحدات معالجة الرسومات.

بنية Mamba-2

في كتلة Mamba-2 -التي يسمونها كتلة Mamba المتوازية (على عكس كتلة Mamba "التتابعية" الأصلية)- يتم توليد المَعلمات المعتمدة على المدخلات ∆ وB وC بشكل متوازٍ في طبقة الإسقاط الأولية. يتم اشتقاق B وC على وجه الخصوص عن طريق نسخ أجزاء من xproj ببساطة، بدلًا من ضرب xproj عبر طبقات خطية مخصصة. بالإضافة إلى تبسيط وتقليل مَعلمات النموذج الإجمالية، يُتيح هذا التوازي تدريبًا أكثر كفاءة على نطاق واسع.4

رسم تخطيطي لكتلة Mamba-2 كتلة Mamba-2. يشير الرمز "x" بعد نموذج SSM الانتقائي إلى الضرب حسب العنصر، وليس الضرب القياسي للنقاط.

مقارنة بين Mamba والمحوِّلات

لكلٍّ من Mamba والمحوِّلات نقاط قوة خاصة بهما، لكن النماذج المبنية على Mamba تتفوق عمومًا في كل ما يتعلق باستخدام الذاكرة والسرعة: وفقًا لورقة Mamba، توفِّر Mamba معدل معالجة أكبر بخمس مرات مقارنةً بالمحوِّلات المكافئة.

تُعَد المحوِّلات دقيقة ومرنة للغاية، لكنها أيضًا تتطلب موارد حاسوبية كبيرة جدًا. خلال مرحلة التدريب المسبق (والضبط الدقيق)، تتضاعف متطلبات الذاكرة للانتباه الذاتي بشكل تربيعي مع طول التسلسل: إذا ضاعفت طول السياق لتسلسل ما، تستخدم آلية الانتباه أربعة أضعاف الموارد. يعمل هذا "الاختناق التربيعي" على تقليل السرعة تدريجيًا وتوافر الذاكرة مع زيادة حجم نافذة السياق. أثناء الاستدلال، تتزايد احتياجاتها من الذاكرة بشكل خطي.

أثناء التدريب، يزداد استخدام الذاكرة في نموذج Mamba بشكل خطي فقط. والأهم من ذلك، أن استخدامه للذاكرة أثناء الاستدلال ثابت: بغض النظر عن عدد الرموز التي رآها النموذج، يحتفظ SSM بتمثيل ثابت الحجم لتاريخه من الإدخال. وهذا يسمح بنظرية طول سياق غير محدود، محدود فقط بقدرات الأجهزة.

ومع ذلك، فإن طريقة المحولات التي تتطلب ذاكرة أكبر وحسابات متكررة لها مزاياها الخاصة. على سبيل المثال، أظهرت الأبحاث أن المحوِّلات لا تزال تتفوق على كل من Mamba وMamba-2 في المهام التي تتطلب التعلم ضمن السياق (مثل المطالبة بخطوات قليلة)، أو النسخ، أو الاستدلال على السياق الطويل.

نماذج Mamba الهجينة

لحسن الحظ، لا تتعارض نقاط القوة الخاصة بالمحولات وMamba مع بعضها. تشير ورقة Mamba-2 إلى أن نموذجًا هجينًا قد يتفوق على كل من المحوِّلات أو نماذج SSM النقية - وهي فكرة تم التحقق من صحتها رسميًا بواسطة أبحاث NVIDIA في وقت لاحق من عام 2024.5 بشكل عام، يبدو أن النماذج الهجينة تجمع بين مزايا الكفاءة لنموذج Mamba والدقة وأداء التعلم ضمن السياق الذي توفِّره آلية الانتباه الأكثر استهلاكًا للموارد في المحوِّلات.

لاستكشاف هذا الأمر بشكل أعمق، تعاونت IBM Research مع Dao وGu، إلى جانب Minjia Zhang من جامعة إلينوي في أوربانا-شامبين (UIUC)، على تطوير Bamba وBamba V2. بدوره، ألهم Bamba العديد من العناصر المعمارية في IBM Granite 4.0.

لا يزال البحث في النماذج الهجينة مجالًا للبحث النشط، لا سيما داخل مجتمع المصادر المفتوحة.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا