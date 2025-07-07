Los modelos Mamba son quizás la primera arquitectura de aprendizaje profundo que compite con la eficacia de los modelos de transformadores en la tarea por la que los transformadores ganaron originalmente su fama: el modelado del lenguaje. En particular, la arquitectura Mamba ha demostrado la capacidad de igualar a transformadores de tamaño equivalente en destacadas evaluaciones de punto de referencia de LLM, que suele ser significativamente más eficiente en términos de latencia y requisitos de memoria.

La arquitectura Mamba fue introducida por primera vez por Tri Dao y Albert Gu en el artículo de 2023 "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". Un año más tarde, tras el artículo original sobre Mamba, publicaron otro en el que exploraban las conexiones entre los SSM y los transformadores, y presentaban una versión refinada y mucho más rápida de la arquitectura Mamba, a la que bautizaron como Mamba-2.

Aunque los transformadores han seguido siendo el modo dominante de LLM en los 2 años posteriores al lanzamiento del documento original de Mamba, la arquitectura se ha incorporado a un número creciente de modelos de código abierto. Algunos, como Codestral Mamba de Mistral AI, son modelos puros de Mamba. Muchos más, incluida la serie Jamba de AI2I e IBM Granite 4.0, son modelos híbridos que incorporan capas de atención (transformador) y capas SSM (Mamba). Además de sus beneficios basados en el rendimiento, la proliferación de modelos basados en Mamba promete democratizar el acceso a la IA en virtud de su funcionamiento sin problemas en hardware comparativamente económico.