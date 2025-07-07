Les modèles Mamba sont probablement les premiers modèles de deep learning capables de rivaliser avec les transformers sur la tâche qui a fait leur renommée : la modélisation du langage. Plus précisément, l’architecture Mamba a démontré une capacité à égaler les transformers de taille équivalente sur les principaux benchmarks LLM, tout en étant nettement plus efficace en termes de latence et d’utilisation de la mémoire.

L’architecture Mamba a été introduite pour la première fois par Tri Dao et Albert Gu dans l’article de 2023, « Mamba: Linear-Time Sequence Modeling with Selective State Spaces ». Un an plus tard, ils ont publié un second article explorant davantage les liens entre SSM et transformers et présentant une version affinée et nettement plus rapide de cette architecture : Mamba-2.

Même si les transformers sont restés le paradigme dominant dans les LLM pendant les deux années ayant suivi la sortie de l’article Mamba original, l’architecture a été intégrée à un nombre croissant de modèles open source. Certains, comme le Codestral Mamba de Mistral AI, sont des modèles 100 % Mamba. D’autres, comme la série Jamba (AI21) ou Granite 4.0 (IBM), sont des modèles hybrides combinant des couches d’attention (transformer) et des couches SSM (Mamba). En plus de leurs avantages en termes de performances, la prolifération des modèles Mamba contribue à démocratiser l’accès à l’IA, puisqu’ils peuvent tourner de manière fluide sur du matériel beaucoup moins coûteux.