Wie Standard-RNNs sind herkömmliche diskrete SSMs von Natur aus schwach darin, Abhängigkeiten über große Entfernungen zu modellieren. Mit anderen Worten: Sie sind nicht gut darin, die Beziehung zwischen weit voneinander entfernten Schritten in einer Sequenz zu verstehen, z. B. Wörter am Anfang und am Ende eines Absatzes. Somit sind sie nicht gut darin, lange Sequenzen (z. B. Textdaten) insgesamt zu modellieren .
Um dieses Problem zu lösen, schlugen Gu et al. die Verwendung einer Technik namens HiPPO (kurz für High-order Polynomial Projection Operators) vor, um das Verhalten der A- und B-Matrizes zu definieren.
Polynomfunktionen kombinieren einen oder mehrere Begriffe. Jeder Term besteht aus einem Koeffizienten und einer Basisfunktion einer Variablen. Beispielsweise ist 3x2 ein Term, dessen Koeffizient 3 ist und dessen Basis x2 ist. Die „Ordnung“ eines Polynoms wird durch die höchste Potenz aller darin enthaltenen Basis bestimmt: 3x2 + 5x ist ein „Polynom zweiter Ordnung“. Je höher die Ordnung eines Polynoms ist, desto mehr komplizierte Details können in seinen Kurven erfasst werden.
Orthogonale Polynomfunktionen sind spezielle „Familien“ von Polynomen, die sich über mehrere Ordnungen erstrecken, in denen jedes Polynom mathematisch unabhängig von den anderen ist, sodass es keine redundanten Überschneidungen oder Informationsabhängigkeiten zwischen ihnen gibt. Sie sind auch sehr robust gegenüber kleineren Rundungsfehlern, was sie für die Approximation komplexerer Funktionen nützlich macht. Familien orthogonaler Polynome werden selbst durch eine Regel erzeugt, die als Drei-Term-Wiederholungsformel bezeichnet wird. Die HiPPO-Methode verwendet solche Wiederholungsformeln, um die A- und B-Matrizes zu erstellen.
Jedes Mal, wenn der Zustand ht durch die Zustandsgleichung aktualisiert wird, fungieren die Elemente des Zustandsvektors ht als Koeffizienten von Polynomausdrücken, die sich der ursprünglichen Eingabe annähern. Ältere Eingaben werden durch Polynome niedrigerer Ordnung angenähert, die breite, niedrigfrequente (langfristige) Details erfassen, und neuere Eingaben werden durch Polynome höherer Ordnung angenähert, die feinkörnige hochfrequente (kurzfristige) Details erfassen. Da die gewählten Polynome orthogonal sind, wird keine Information wiederholt. Im Wesentlichen zwingt diese Struktur den Zustandsraum dazu, sich den gesamten Eingabeverlauf zu „merken“, indem sie ihn effizient in einen Vektor von Koeffizienten fester Größe „komprimiert“.
Im S4-Artikel wird darauf hingewiesen, dass „die einfache Modifizierung eines SSM von einer Zufallsmatrix A zu [der HiPPO-Matrix] seine Leistung beim sequenziellen MNIST-Benchmark von 60 % auf 98 % verbesserte“, wodurch das Problem mit dem „Langzeitgedächtnis“ von SSMs effektiv gelöst wird. Spätere Varianten strukturierter SSMs wie DSS, S5 und Mamba verwenden unterschiedliche (oft einfachere) Initialisierungsschemata für A und B, behalten aber die zentralen HiPPO-Prinzipien bei.