Sia Mamba che i trasformatori hanno i rispettivi punti di forza, tuttavia i modelli basati su Mamba sono generalmente superiori in tutte le questioni relative all'utilizzo e alla velocità della memoria: secondo il documento su Mamba, Mamba offre un throughput 5 volte maggiore rispetto ai trasformatori equivalenti.
I trasformatori sono incredibilmente precisi e versatili, ma anche estremamente esigenti in termini di risorse computazionali. Durante la fase di pre-addestramento (e di messa a punto), i requisiti di memoria dell'autoattenzione aumentano quadraticamente con la lunghezza della sequenza: se si raddoppia la lunghezza del contesto di una sequenza, il meccanismo di attenzione utilizza il quadruplo delle risorse. Questo “collo di bottiglia quadratico” limita sempre di più la velocità e la disponibilità di memoria via via che la finestra di contesto cresce. Durante l'inferenza, la loro memoria deve essere scalata in modo lineare.
L'utilizzo della memoria di un modello Mamba scala solo linearmente durante l'addestramento. Ancora più importante, l'utilizzo della memoria durante l'inferenza è costante: indipendentemente dal numero di token che il modello ha visto, l'SSM mantiene una rappresentazione a dimensione fissa della cronologia degli input. Ciò consente di avere una lunghezza del contesto teoricamente illimitata, vincolata solo dalle limitazioni a livello di hardware.
Detto questo, il metodo dei trasformatori, più impegnativo dal punto di vista della memoria e ridondante dal punto di vista computazionale, offre dei vantaggi. Ad esempio, la ricerca ha dimostrato che i trasformatori superano ancora sia Mamba che Mamba-2 nelle attività che richiedono l'apprendimento contestuale (come la generazione di prompt few-shot), la copia o il ragionamento contestuale ampio.