لكلٍّ من Mamba والمحوِّلات نقاط قوة خاصة بهما، لكن النماذج المبنية على Mamba تتفوق عمومًا في كل ما يتعلق باستخدام الذاكرة والسرعة: وفقًا لورقة Mamba، توفِّر Mamba معدل معالجة أكبر بخمس مرات مقارنةً بالمحوِّلات المكافئة.
تُعَد المحوِّلات دقيقة ومرنة للغاية، لكنها أيضًا تتطلب موارد حاسوبية كبيرة جدًا. خلال مرحلة التدريب المسبق (والضبط الدقيق)، تتضاعف متطلبات الذاكرة للانتباه الذاتي بشكل تربيعي مع طول التسلسل: إذا ضاعفت طول السياق لتسلسل ما، تستخدم آلية الانتباه أربعة أضعاف الموارد. يعمل هذا "الاختناق التربيعي" على تقليل السرعة تدريجيًا وتوافر الذاكرة مع زيادة حجم نافذة السياق. أثناء الاستدلال، تتزايد احتياجاتها من الذاكرة بشكل خطي.
أثناء التدريب، يزداد استخدام الذاكرة في نموذج Mamba بشكل خطي فقط. والأهم من ذلك، أن استخدامه للذاكرة أثناء الاستدلال ثابت: بغض النظر عن عدد الرموز التي رآها النموذج، يحتفظ SSM بتمثيل ثابت الحجم لتاريخه من الإدخال. وهذا يسمح بنظرية طول سياق غير محدود، محدود فقط بقدرات الأجهزة.
ومع ذلك، فإن طريقة المحولات التي تتطلب ذاكرة أكبر وحسابات متكررة لها مزاياها الخاصة. على سبيل المثال، أظهرت الأبحاث أن المحوِّلات لا تزال تتفوق على كل من Mamba وMamba-2 في المهام التي تتطلب التعلم ضمن السياق (مثل المطالبة بخطوات قليلة)، أو النسخ، أو الاستدلال على السياق الطويل.