Os modelos Mamba são talvez a primeira arquitetura de deep learning a rivalizar com a eficácia dos modelos transformadores na tarefa pela qual os transformadores originalmente ganharam reputação: modelagem de linguagem. Principalmente a arquitetura Mamba demonstrou a capacidade de combinar transformadores de tamanho equivalente em avaliações de benchmark de LLM, sendo muitas vezes consideravelmente mais eficiente em termos de requisitos de latência e memória.

A arquitetura Mamba foi introduzida pela primeira vez por Tri Dao e Albert Gu no artigo de 2023, “Mamba: Linear-Time Sequence Modeling with Selective State Spaces”. Um ano depois, seguiram o artigo original do Mamba com outro artigo que explorou as conexões entre SSMs e transformadores e apresentou uma versão refinada e consideravelmente mais rápida da arquitetura Mamba que eles chamaram de Mamba-2.

Embora os transformadores tenham permanecido como o modo dominante de LLM nos dois anos seguintes ao lançamento do documento original do Mamba, a arquitetura foi incorporada a um número cada vez maior de modelos de código aberto. Alguns, como o Codestral Mamba da Mistral IA, são modelos Mamba puros. Muitos outros, incluindo a série Jamba da AI2I e o IBM Granite 4.0, são modelos híbridos que incorporam camadas de atenção (transformador) e camadas SSM (Mamba). Além de seus benefícios baseados no desempenho, a proliferação de modelos baseados no Mamba promete democratizar o acesso à IA em virtude da execução sem problemas em um hardware comparativamente barato.