Mamba et les transformers ont chacun leurs forces propres, mais les modèles basés sur Mamba sont généralement supérieurs pour tout ce qui touche à l’utilisation de la mémoire et à la vitesse : selon l’article, Mamba offre un débit 5 fois supérieur à celui des transformers équivalents.
Les transformers, eux, restent extrêmement précis et polyvalents, mais aussi très coûteux en ressources de calcul. Pendant le pré-entraînement (et le réglage fin), les besoins en mémoire du mécanisme d’auto-attention augmentent de manière quadratique avec la longueur de la séquence : doubler la taille du contexte d’une séquence quadruple la consommation de ressources. C’est ce « goulot d’étranglement quadratique » qui limite de plus en plus la vitesse et la disponibilité de la mémoire à mesure que la fenêtre de contexte grandit. En inférence, les besoins en mémoire évoluent de manière linéaire.
L’utilisation de la mémoire d’un modèle Mamba évolue de manière linéaire uniquement pendant l’entraînement. Plus important encore, son utilisation de la mémoire en inférence est constante : quel que soit le nombre de tokens vus par le modèle, le SSM maintient une représentation de taille fixe de l’historique de ses entrées. Cela ouvre la voie à des fenêtres de contexte théoriquement illimitées, uniquement freinées par les limitations matérielles.
Cela dit, la méthode des transformers, plus gourmande en mémoire et computationnellement redondante, présente aussi ses avantages propres. Par exemple, des recherches ont montré que les transformers restent supérieurs à Mamba et Mamba-2 pour certaines tâches requérant un apprentissage en contexte (comme l’apprentissage few-shot), les tâches de copie ou encore le raisonnement sur de très longs contextes.