Tanto o Mamba quanto os transformadores têm seus próprios pontos fortes, mas os modelos baseados em Mamba são geralmente superiores em todas as questões relacionadas ao uso de memória e velocidade: de acordo com o artigo do Mamba, o Mamba oferece uma taxa de transferência cinco vezes maior do que os transformadores equivalentes.
Os transformadores são incrivelmente precisos e versáteis, mas também incrivelmente exigentes em recursos computacionais. Durante o pré-treinamento (e ajuste fino), os requisitos de memória da autoatenção escalam quadraticamente com o comprimento da sequência: se você dobrar o comprimento do contexto de uma sequência, o mecanismo de atenção utilizará o quádruplo dos recursos. Esse "gargalo quadrático" limita cada vez mais a velocidade e a disponibilidade de memória à medida que a janela de contexto cresce. Durante a inferência, suas necessidades de memória são dimensionadas de forma linear.
Durante o treinamento, o uso de memória de um modelo Mamba escala apenas de forma linear durante o treinamento. Mais importante ainda, seu uso de memória durante a inferência é constante: independentemente de quantos tokens o modelo tenha visto, o SSM mantém uma representação de tamanho fixo de seu histórico de entrada. Isso permite um comprimento de contexto teoricamente ilimitado, restrito apenas por limitações de hardware.
Dito isso, o método com uso mais intenso de memória e computacionalmente redundante dos transformadores tem suas próprias vantagens. Por exemplo, a pesquisa demonstrou que os transformadores ainda superam o Mamba e o Mamba-2 em tarefas que exigem aprendizado no contexto (como prompt few-shot), cópia ou raciocínio de contexto longo.