Al igual que las RNN estándar, los SSM discretos convencionales son inherentemente débiles para modelar dependencias de larga distancia. En otras palabras, no sirven para comprender la relación entre los pasos de una secuencia que están muy separados, como las palabras al principio y al final de un párrafo, lo que los hace débiles para modelar secuencias largas (como datos de texto) en conjunto.
Para resolver esto, Gu et al propusieron el uso de una técnica llamada HiPPO (abreviatura de High-order Polynomial Projection Operators) para definir la manera en que se comportan las matrices A y B.
Las funciones polinomiales combinan uno o más términos. Cada término comprende un coeficiente y una función base de alguna variable. Por ejemplo, 3x2 es un término cuyo coeficiente es 3 y cuya base es x2. El “orden” de un polinomio está determinado por la potencia más alta de cualquier base que contenga: 3x2 + 5x es un “polinomio de segundo orden”. Cuanto mayor sea el orden de un polinomio, más detalles intrincados se pueden capturar en sus curvas.
Las funciones polinómicas ortogonales son “familias” especiales de polinomios, que abarcan múltiples órdenes, en las que cada polinomio es matemáticamente independiente de los demás, lo cual asegura que no haya superposición redundante ni dependencias informacionales entre ellos. También son muy resistentes a errores de redondeo menores, lo que las hace útiles para aproximar funciones más complejas. Las familias de polinomios ortogonales se generan mediante una regla llamada fórmula de recurrencia de tres términos. El método HiPPO utiliza dichas fórmulas de recurrencia para construir las matrices A y B.
En esencia, cada vez que el estado ht se actualiza mediante la ecuación de estado , los elementos del vector de estado ht actúan como coeficientes de expresiones polinómicas que se aproximan a la entrada original. Las entradas más antiguas se aproximan mediante polinomios de orden inferior que captan detalles amplios y de baja frecuencia (a largo plazo) y las entradas más recientes se aproximan mediante polinomios de orden superior que captan detalles finos y de alta frecuencia (a corto plazo). Dado que los polinomios elegidos son ortogonales, no se repite ninguna información. En esencia, esta estructura obliga al espacio de estados a "memorizar" todo el historial de entrada "comprimiéndolo" de manera eficiente en un vector de coeficientes de tamaño fijo.
El documento S4 señala que “simplemente modificar un SSM de una matriz aleatoria A a [la matriz HiPPO] mejoró su rendimiento en el punto de referencia secuencial MNIST del 60 % al 98 %”, lo cual resolvió de manera efectiva el problema de memoria a largo plazo de los SMS. Las variaciones posteriores de SSM estructurados, como DSS, S5 y Mamba, utilizan esquemas de inicialización diferentes (a menudo más simples) para A y B, pero conservan los principios centrales de HiPPO.