I modelli Mamba sono forse la prima architettura di deep learning a rivaleggiare con l'efficacia dei modelli trasformativi nell'attività che ha originariamente reso celebri i trasformatori, ovvero la modellazione del linguaggio. In particolare, l'architettura Mamba ha dimostrato la capacità di eguagliare trasformatori di dimensioni equivalenti in importanti valutazioni di benchmark LLM, risultando spesso significativamente più efficiente in termini di latenza e requisiti di memoria.

L'architettura Mamba è stata introdotta per la prima volta da Tri Dao e Albert Gu nel documento del 2023 "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". Un anno dopo, hanno fatto seguito all'articolo originale su Mamba con un altro articolo che esplorava le connessioni tra SSM e trasformatori e presentava una versione più sofisticata e notevolmente più veloce dell'architettura Mamba, chiamata Mamba-2.

Sebbene i trasformatori siano rimasti la modalità dominante degli LLM nei due anni successivi al rilascio del documento originale su Mamba, l'architettura è stata incorporata in un numero crescente di modelli open source. Alcuni, come il Codestral Mamba di Mistral AI, sono modelli Mamba puri. Molti altri, tra cui la serie Jamba di AI2I e IBM Granite 4.0, sono modelli ibridi che incorporano sia livelli di attenzione (trasformatore) che livelli SSM (Mamba). Oltre ai benefici basati sulle prestazioni, la proliferazione di modelli basati su Mamba promette di democratizzare l'accesso all'AI in virtù del funzionamento ottimale su hardware relativamente poco costoso.