Den Kern der Mamba-Architektur bilden zwei Innovationen. Das erste ist das selektive Zustandsraummodell, das Mamba eine entscheidende Funktion verleiht, die bisher nur Transformer-Modelle besaßen: die Funktion, sich selektiv auf bestimmte Teile der vergangenen Eingabe zu konzentrieren oder diese zu ignorieren, basierend auf ihrer gegenwärtigen Relevanz. Der andere ist der hardwarebewusste parallele Scan, ein Algorithmus, der die Art und Weise optimiert, wie eine Grafikverarbeitungseinheit (GPU) die Berechnungen des Modells in ihrer Speicherhierarchie verarbeitet, um Geschwindigkeit und Recheneffizienz zu maximieren.
Bei Transformern wird diese Fähigkeit durch den Aufmerksamkeitsmechanismus bereitgestellt, der die Aufmerksamkeitsgewichtungen anpasst, die den Einfluss jedes vorherigen Tokens betonen oder abschwächen, basierend auf seiner Relevanz für das aktuelle Eingabe-Token. Gewöhnliche SSMs sind explizit so konzipiert, dass sie die Eingabe der Ausgabe unter Verwendung des gesamten Eingabeverlaufs zuordnen. Dies ist für einige Aufgaben der Sequenzmodellierung akzeptabel oder sogar wünschenswert, aber ein erhebliches Handicap für die meisten fortgeschrittenen Aufgaben der Sprachmodellierung.
Um dem Unvermögen entgegenzuwirken, bestimmte Teile ihrer Eingabe dynamisch wegzulassen oder hervorzuheben, schlugen Dao und Gu eine neue Klasse von Zustandsraummodellen mit einem „selektiven Scan“ vor. In dem Mamba-Artikel bemerken die Autoren, dass sie „selektive SSMs manchmal als S6-Modelle abkürzen, weil es sich um S4-Modelle mit einem Auswahlmechanismus handelt, die mit einem Scan berechnet werden“. Sie gaben ihrer auf S6 basierenden Architektur den Spitznamen „Mamba“, unter anderem, weil die vielen „S“ wie das Zischen einer Schlange klingen.
Mamba kann am besten als Neural Networks-Architektur verstanden werden, deren Kern das selektive Zustandsraummodell ist. Als Analogie: Mamba verhält sich zu selektiven SSMs wie das Transformer-Modell zum Aufmerksamkeitsmechanismus.