Tanto Mamba como los transformadores tienen sus respectivos puntos fuertes, pero los modelos basados en Mamba son generalmente superiores en todo lo relacionado con el uso de memoria y la velocidad: según el documento de Mamba, Mamba ofrece un rendimiento 5 veces mayor que los transformadores equivalentes.
Los transformadores son increíblemente precisos y versátiles, pero también increíblemente exigentes en cuanto a recursos computacionales. Durante el preentrenamiento (y el refinamiento), los requisitos de memoria de la autoatención se escalan cuadráticamente con la longitud de la secuencia: si duplica la longitud del contexto de una secuencia, el mecanismo de atención utiliza el cuádruple de recursos. Este “cuello de botella cuadrático” limita cada vez más la velocidad y la disponibilidad de memoria a medida que crece la ventana de contexto. Durante la inferencia, sus necesidades de memoria escalan linealmente.
Durante el entrenamiento, el uso de memoria de un modelo Mamba se escala solo linealmente durante el entrenamiento. Más importante aún, su uso de memoria durante la inferencia es constante: independientemente de cuántos tokens el modelo ha visto, el SSM mantiene una representación de tamaño fijo de su historial de entrada. Esto permite una longitud de contexto teóricamente ilimitada, limitada solo por limitaciones de hardware.
Dicho esto, el método más intensivo en memoria y computacionalmente redundante de los transformadores tiene sus propias ventajas. Por ejemplo, la investigación ha demostrado que los transformadores siguen superando tanto a Mamba como a Mamba-2 en tareas que requieren aprendizaje en contexto (como las instrucciones de pocas tomas), la copia o el razonamiento de contexto largo.