Al igual que las RNN estándar, los SSM discretos convencionales son intrínsecamente débiles a la hora de modelar dependencias a larga distancia. En otras palabras, no se les da bien entender la relación entre pasos de una secuencia que están muy separados, como las palabras al principio y al final de un párrafo, lo que hace que no se les dé bien modelar secuencias largas (como datos de texto) en general.
Para resolver esto, Gu et al propusieron el uso de una técnica llamada HiPPO (abreviatura de High-order Polynomial Projection Operators) para definir el comportamiento de las matrices A y B.
Las funciones polinomiales combinan uno o más términos. Cada término comprende un coeficiente y una función base de alguna variable. Por ejemplo, 3x2 es un término cuyo coeficiente es 3 y cuya base es x2. El “orden” de un polinomio está determinado por la potencia más alta de cualquier base que contenga: 3x2 + 5x es un “polinomio de segundo orden”. Cuanto mayor sea el orden de un polinomio, más detalles intrincados se pueden capturar en sus curvas.
Las funciones polinómicas ortogonales son "familias" especiales de polinomios, que abarcan varios órdenes, en las que cada polinomio es matemáticamente independiente de los demás, lo que garantiza que no haya superposiciones redundantes ni dependencias informativas entre ellos. También son muy resistentes a errores de redondeo menores, lo que las hace útiles para aproximar funciones más complejas. Las familias de polinomios ortogonales se generan mediante una regla llamada fórmula de recurrencia de tres términos. El método HiPPO utiliza estas fórmulas de recurrencia para construir las matrices A y B.
En esencia, cada vez que el estado ht se actualiza mediante la ecuación de estado , los elementos del vector de estado ht actúan como coeficientes de expresiones polinómicas que se aproximan a la entrada original. Las entradas más antiguas se aproximan mediante polinomios de orden inferior que capturan detalles amplios y de baja frecuencia (a largo plazo) y las entradas más recientes se aproximan mediante polinomios de orden superior que capturan detalles detallados y de alta frecuencia (a corto plazo). Dado que los polinomios elegidos son ortogonales, no se repite ninguna información. Básicamente, esta estructura obliga al espacio de estados a "memorizar" todo el historial de entrada "comprimiéndolo" de manera eficiente en un vector de coeficientes de tamaño fijo.
El documento de S4 señala que "simplemente modificar un SSM de una matriz aleatoria A a [la matriz HiPPO] mejoró su rendimiento en el punto de referencia secuencial MNIST del 60 % al 98 %", resolviendo eficazmente el problema de memoria a largo plazo de los SSM. Las variaciones posteriores de SSM estructurados, como DSS, S5 y Mamba, utilizan esquemas de inicialización diferentes (a menudo más simples) para A y B, pero conservan los principios básicos de HiPPO.