Baik Mamba maupun transformator memiliki kekuatannya masing-masing, tetapi model berbasis Mamba secara umum lebih unggul dalam segala hal yang berkaitan dengan penggunaan memori dan kecepatan: menurut makalah Mamba, Mamba menawarkan throughput 5 kali lebih besar daripada transformator yang setara.
Transformator sangat presisi dan serbaguna, tetapi juga sangat menuntut sumber daya komputasi. Selama pra-pelatihan (dan fine-tuning), persyaratan memori skala perhatian diri secara kuadratik dengan panjang urutan: jika Anda menggandakan panjang konteks sekuens, mekanisme perhatian menggunakan sumber daya empat kali lipat. “Hambatan kuadrat” ini semakin membatasi kecepatan dan ketersediaan memori seiring bertambahnya jendela konteks. Selama inferensi, memori mereka perlu diskalakan secara linier.
Selama pelatihan, penggunaan memori model Mamba hanya berskala secara linier selama pelatihan. Lebih penting lagi, penggunaan memori selama inferensi konstan: terlepas dari berapa banyak token yang dilihat model, SSM mempertahankan representasi ukuran tetap dari riwayat input. Hal ini memungkinkan panjang konteks yang tidak terbatas secara teoritis, dibatasi hanya oleh batasan perangkat keras.
Karena itu, metode transformator yang membutuhkan banyak memori dan redundan secara komputasi memiliki kelebihannya sendiri. Misalnya, penelitian telah menunjukkan bahwa transformator masih mengungguli Mamba dan Mamba-2 pada tugas-tugas yang membutuhkan pembelajaran dalam konteks (seperti prompting dengan beberapa contoh), penyalinan, atau penalaran konteks panjang.