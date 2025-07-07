قد تكون نماذج Mamba أول بنية تعلم عميق تضاهي فعلية نماذج المحوِّل في المهمة التي اشتهرت بها بنية المحوِّل في الأصل: نمذجة اللغة. والأمر الأكثر أهمية، أن بنية Mamba أظهرت القدرة على معادلة أداء نماذج المحوِّل ذات الحجم المماثل في تقييمات معايير LLM البارزة، مع كونها غالبًا أكثر كفاءة بشكل كبير من حيث زمن الانتقال ومتطلبات الذاكرة.

تم تقديم بنية Mamba لأول مرة بواسطة Tri Dao وAlbert Gu في ورقة بحثية في عام 2023 بعنوان: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". بعد عام، أتبعوا الورقة البحثية الأصلية لبنية Mamba بورقة أخرى استكشفت العلاقة بين نماذج SSM والمحوِّلات وقدَّمت نسخة محسَّنة وأسرع بشكل ملحوظ من بنية Mamba، أطلقوا عليها اسم Mamba-2.

على الرغم من أن المحوِّلات ظلت التقنية السائدة في النماذج اللغوية الكبيرة خلال العامين التاليين لإصدار الورقة البحثية الأصلية لـ Mamba، فقد تم دمج البنية في عدد متزايد من النماذج مفتوحة المصدر. وبعض النماذج، مثل Codestral Mamba من Mistral AI، هي نماذج Mamba خالصة. والعديد غيرها، بما في ذلك سلسلة Jamba من AI2I وIBM Granite 4.0، هي نماذج هجينة تُدمج بين طبقات الانتباه (المحوِّل) وطبقات SSM ‏(Mamba). بالإضافة إلى فوائدها المتعلقة بالأداء، فإن انتشار النماذج المستندة إلى Mamba يَعِد بتوسيع وصول الذكاء الاصطناعي عبر تشغيلها بسلاسة على أجهزة أقل تكلفة نسبيًا.