Tanto Mamba como los transformadores tienen sus propios puntos fuertes, pero los modelos basados en Mamba son generalmente superiores en todos los aspectos relacionados con el uso de la memoria y la velocidad: según el documento de Mamba, Mamba ofrece un rendimiento cinco veces mayor que los transformadores equivalentes.
Los transformadores son increíblemente precisos y versátiles, pero también increíblemente exigentes en cuanto a recursos computacionales. Durante el preentrenamiento (y el fine-tuning), los requisitos de memoria de la autoatención se escalan cuadráticamente con la longitud de la secuencia: si duplica la longitud del contexto de una secuencia, el mecanismo de atención utiliza el cuádruple de recursos. Este “cuello de botella cuadrático” limita cada vez más la velocidad y la disponibilidad de memoria a medida que crece la ventana de contexto. Durante la inferencia, sus necesidades de memoria escalan linealmente.
Durante el entrenamiento, el uso de memoria de un modelo Mamba solo se escala linealmente durante el entrenamiento. Más importante aún, su uso de memoria durante la inferencia es constante: independientemente de cuántos tokens el modelo ha visto, el SSM mantiene una representación de tamaño fijo de su historial de entrada. Esto permite una longitud de contexto teóricamente ilimitada, limitada únicamente por limitaciones de hardware.
Dicho esto, el método más intensivo en memoria y computacionalmente redundante de los transformadores tiene sus propias ventajas. Por ejemplo, la investigación ha demostrado que los transformadores siguen superando tanto a Mamba como a Mamba-2 en tareas que requieren aprendizaje en contexto (como few-shot prompting), la copia o el razonamiento de contexto largo.