Comme les RNN classiques, les SSM discrets conventionnels sont intrinsèquement peu performants pour la modélisation des dépendances à longue distance. En d’autres termes, ils ne sont pas capables de comprendre la relation entre les étapes d’une séquence très éloignées les unes des autres, comme les mots au début et à la fin d’un paragraphe, ce qui les rend incapables de modéliser de longues séquences (telles que des données textuelles).
Pour remédier à cela, Gu et al. ont proposé une technique appelée HiPPO (High-order Polynomial Projection Operators) pour définir le comportement des matrices A et B.
Les fonctions polynomiales combinent un ou plusieurs termes. Chaque terme est composé d’un coefficient et d’une fonction de base. Par exemple, 3x2 est un terme dont le coefficient est 3 et dont la base est x2. « L’ordre » d’un polynôme est déterminé par la puissance la plus élevée de l’une de ses bases : 3x2 + 5x est un « polynôme d’ordre 2 ». Plus l’ordre d’un polynôme est élevé, plus il peut capturer de détails complexes dans ses courbes.
Les polynômes orthogonaux sont des familles particulières de polynômes, couvrant plusieurs ordres, dans lesquelles chaque polynôme est mathématiquement indépendant des autres. Cela garantit qu’il n’y a pas de redondance ni de dépendance informationnelle entre eux. Ils sont également très robustes face aux petites erreurs d’arrondi, ce qui les rend utiles pour approximer des fonctions complexes. Les familles de polynômes orthogonaux sont générées à l’aide d’une formule de récurrence à trois termes. La méthode HiPPO utilise précisément ce type de formules pour construire les matrices A et B.
Concrètement, à chaque mise à jour de l’état ht via l’équation d’état , les éléments du vecteur d’état ht servent de coefficients pour des polynômes qui approximent les entrées d’origine. Les entrées anciennes sont approximées à l’aide de polynômes d’ordre faible, qui capturent les grandes tendances et les composantes basse fréquence (long terme). Les entrées récentes sont approximées à l’aide de polynômes d’ordre élevé, qui capturent les détails fins, à haute fréquence (court terme). Comme les polynômes choisis sont orthogonaux, aucune information n’est répétée. Autrement dit, cette structure oblige l’espace d’état à « mémoriser » l’ensemble de l’historique des entrées en le « compressant » efficacement dans un vecteur de coefficients de taille fixe.
L’article S4 indique que « le simple fait de remplacer une matrice A aléatoire par [la matrice HiPPO] a permis de faire passer la performance sur le benchmark MNIST séquentiel de 60 % à 98 % », résolvant ainsi le problème de mémoire à long terme des SSM. Des variantes ultérieures des SSM structurés, comme DSS, S5 ou Mamba, utilisent d’autres schémas (souvent plus simples) d’initialisation pour A et B, tout en conservant les principes fondamentaux de la méthode HiPPO.