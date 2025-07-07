Los modelos Mamba son quizás la primera arquitectura de deep learning que rivaliza con la eficacia de los modelos transformadores en la tarea por la que los transformadores ganaron originalmente su fama: el modelado del lenguaje. En particular, la arquitectura Mamba ha demostrado la capacidad de hacer coincidir transformadores de tamaño equivalente en importantes evaluaciones de referencia de LLM, a la vez que a menudo es significativamente más eficiente en términos de latencia y requisitos de memoria.

La arquitectura Mamba fue presentada por primera vez por Tri Dao y Albert Gu en el documento de 2023, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". Un año después, continuaron el artículo original de Mamba con otro artículo que exploraba las conexiones entre los SSM y los transformadores y presentaba una versión refinada y significativamente más rápida de la arquitectura Mamba, a la que llamaron Mamba-2.

Aunque los transformadores han seguido siendo el modo dominante de LLM en los dos años posteriores al lanzamiento del artículo original de Mamba, la arquitectura se ha incorporado a un número creciente de modelos de código abierto. Algunos, como Codestral Mamba de Mistral AI, son modelos puros de Mamba. Muchos más, como la serie Jamba de AI2I e IBM® Granite 4.0, son modelos híbridos que incorporan capas de atención (transformador) y capas SSM (Mamba). Además de sus beneficios basados en el rendimiento, la proliferación de modelos basados en Mamba promete democratizar el acceso a la IA en virtud de funcionar sin problemas en hardware comparativamente económico.