Come le RNN standard, anche gli SSM discreti convenzionali sono intrinsecamente deboli nella modellazione delle dipendenze a lunga distanza. In altre parole, non sono in grado di comprendere la relazione tra passaggi di una sequenza molto distanti, come le parole all'inizio e alla fine di un paragrafo, il che li rende complessivamente deboli nella modellazione di sequenze lunghe (come i dati di testo).
Per risolvere questo problema, Gu et al hanno proposto l'uso di una tecnica chiamata HiPPO (abbreviazione di High-order Polynomial Projection Operators) per definire il comportamento delle matrici A e B.
Le funzioni polinomiali combinano uno o più termini. Ogni termine comprende un coefficiente e una funzione di base di una variabile. Ad esempio, 3x2 è un termine il cui coefficiente è 3 e la cui base è x2. L'ordine di un polinomio è determinato dalla potenza più alta di qualsiasi base che contiene: 3x2 + 5x è un "polinomio del secondo ordine". Più alto è l'ordine di un polinomio, più dettagli intricati possono essere catturati nelle sue curve.
Le funzioni polinomiali ortogonali sono "famiglie" speciali di polinomi, che si estendono su più ordini, in cui ogni polinomio è matematicamente indipendente dagli altri, così che non vi siano sovrapposizioni ridondanti o dipendenze informative tra di loro. Sono anche molto robusti per errori di arrotondamento minori, il che li rende utili per approssimare funzioni più complesse. Le famiglie di polinomi ortogonali sono a loro volta generate da una regola chiamata formula di ricorrenza a tre termini. Il metodo HiPPO utilizza tali formule di ricorrenza per costruire le matrici A e B.
In sostanza, ogni volta che lo stato ht viene aggiornato dall'equazione di stato , gli elementi del vettore di stato ht agiscono come coefficienti di espressioni polinomiali che approssimano l'input originale. Gli input più vecchi sono approssimati tramite polinomi di ordine inferiore che catturano dettagli ampi a bassa frequenza (a lungo termine), mentre gli input più recenti sono approssimati tramite polinomi di ordine superiore che acquisiscono dettagli a grana fine e ad alta frequenza (a breve termine). Poiché i polinomi scelti sono ortogonali, nessuna informazione viene ripetuta. In sostanza, questa struttura costringe lo spazio di stato a "memorizzare" l'intera cronologia degli input "comprimendola" in modo efficiente in un vettore di coefficienti di dimensioni fisse.
Il documento S4 rileva che "la semplice modifica di un SSM da una matrice casuale A a [la matrice HiPPO] ne ha migliorato le prestazioni nel benchmark sequenziale MNIST dal 60% al 98%", risolvendo efficacemente il problema della memoria a lungo termine degli SSM. Varianti successive di SSM strutturati, come DSS, S5 e Mamba, utilizzano schemi di inizializzazione diversi (spesso più semplici) per A e B, pur mantenendo i principi HiPPO di base.