Seperti RNN standar, SSM diskret konvensional secara inheren lemah dalam memodelkan dependensi jarak jauh. Dengan kata lain, mereka tidak pandai memahami hubungan antara langkah-langkah dalam urutan yang berjauhan, seperti kata-kata di awal dan akhir paragraf-yang membuat mereka lemah dalam memodelkan urutan yang panjang (seperti data teks) secara keseluruhan.
Untuk mengatasi hal ini, Gu dkk mengusulkan penggunaan teknik yang disebut HiPPO (kependekan dari High-order Polynomial Projection Operators) untuk menentukan cara matriks A dan B berperilaku.
Fungsi polinomial menggabungkan satu atau beberapa suku .Setiap suku terdiri dari koefisien dan fungsi dasar dari beberapa variabel. Sebagai contoh, 3x2 adalah suku yang koefisiennya adalah 3 dan basisnya adalah x2. "Orde" polinomial ditentukan oleh pangkat tertinggi dari basis yang dikandungnya: 3x2 + 5x adalah "polinomial tingkat dua". Semakin tinggi urutan polinomial, semakin detail rumit dapat ditangkap dalam kurvanya.
Fungsi polinomial ortogonal adalah "keluarga" polinomial khusus, yang mencakup beberapa urutan, di mana setiap polinomial secara matematis independen dari yang lain, memastikan tidak ada tumpang tindih yang berlebihan atau ketergantungan informasi di antara mereka. Mereka juga sangat kuat untuk kesalahan pembulatan kecil, membuatnya berguna untuk mendekati fungsi yang lebih kompleks. Keluarga polinomial ortogonal sendiri dihasilkan oleh aturan yang disebut rumus perulangan tiga suku. Metode HiPPO menggunakan rumus pengulangan tersebut untuk membangun matriks A dan B.
Pada hakikatnya, setiap kali keadaan ht diperbarui oleh persamaan keadaan , elemen-elemen vektor keadaan ht bertindak sebagai koefisien ekspresi polinomial yang mendekati input asli. Input yang lebih lama diperkirakan melalui polinomial orde rendah yang menangkap detail yang luas dan frekuensi rendah (jangka panjang) dan input yang lebih baru diperkirakan melalui polinomial orde lebih tinggi yang menangkap detail yang halus dan frekuensi tinggi (jangka pendek). Karena polinomial yang dipilih bersifat ortogonal, tidak ada informasi yang diulang. Intinya, struktur ini memaksa ruang keadaan untuk "mengingat" seluruh riwayat input dengan "mengompres" secara efisien ke dalam vektor koefisien berukuran tetap.
Makalah S4 mencatat bahwa "hanya dengan memodifikasi SSM dari matriks acak A ke [Matriks HiPPO] meningkatkan kinerjanya pada tolok ukur MNIST berurutan dari 60% menjadi 98%," secara efektif memecahkan masalah memori jangka panjang SSM. Variasi selanjutnya dari SSM terstruktur, seperti DSS, S5, dan Mamba, menggunakan skema inisialisasi yang berbeda (seringkali lebih sederhana) untuk A dan B, tetapi tetap menggunakan prinsip inti HiPPO.