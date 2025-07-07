Mamba-Modelle sind vielleicht die erste Deep-Learning-Architektur, die mit der Effizienz von Transformer-Modellen bei der Aufgabe mithalten kann, für die Transformer ursprünglich bekannt wurden: Sprachmodellierung. Vor allem hat die Mamba-Architektur bei prominenten LLM-Benchmark-Bewertungen die Fähigkeit unter Beweis gestellt, Transformer gleicher Größe abzugleichen, während sie in Bezug auf Latenz und Speicheranforderungen oft deutlich effizienter ist.

Die Mamba-Architektur wurde erstmals von Tri Dao und Albert Gu in dem Artikel „Mamba: Linear-Time Sequence Modeling with Selective State Spaces“ aus dem Jahr 2023 vorgestellt. Ein Jahr später ergänzten sie das ursprünglichen Mamba-Paper mit einem weiteren Paper, das sowohl die Verbindungen zwischen SSMs und Transformern erkundete als auch eine verfeinerte, deutlich schnellere Version der Mamba-Architektur vorstellte, die sie Mamba-2 nannten.

Zwar sind Transformer in den zwei Jahren nach der Veröffentlichung des ursprünglichen Mamba-Papers die vorherrschende Art von LLM geblieben, jedoch wurde die Architektur in eine wachsende Anzahl von Open-Source-Modellen integriert. Einige, wie z. B. Codestral Mamba von Mistral KI, sind reine Mamba-Modelle. Viele weitere, einschließlich der Jamba-Serie von AI2I und IBM Granite 4.0, sind hybride Modelle, die sowohl Aufmerksamkeitsschichten (Transformer) als auch SSM-Schichten (Mamba) enthalten. Zusätzlich zu ihren Vorteilen hinsichtlich der Leistung verspricht die Verbreitung von Mamba-basierten Modellen eine Demokratisierung des Zugangs zur KI, da sie auf vergleichsweise preiswerter Hardware reibungslos laufen.