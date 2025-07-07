Mamba 模型或是首个在语言建模任务中（Transformer 成名领域）媲美 Transformer 效能的深度学习架构。最显著的是，在主流 LLM 基准测试中，Mamba 架构展现出与同等规模 Transformer 相当的性能，同时延迟与内存需求往往显著降低。

Mamba 架构由 Tri Dao 与 Albert Gu 在 2023 年论文《Mamba：基于选择性状态空间的线性时间序列建模》中首次提出。一年后，二人发表续作论文，既探索了 SSM 与 Transformer 的关联性，又提出性能显著增强的 Mamba 架构升级版——Mamba-2。

尽管 Transformer 在 Mamba 问世后的两年内仍是 LLM 主导架构，但 Mamba 已被日益增多的开源模型集成。其中如 Mistral AI 的 Codestral Mamba 采用纯 Mamba 架构。而 AI2I 的 Jamba 系列及 IBM Granite 4.0 等更多模型则融合了注意力 (Transformer) 层与 SSM (Mamba) 层的混合架构。除性能优势外，基于 Mamba 的模型浪潮有望通过低成本硬件流畅运行，显著降低 AI 使用门槛。