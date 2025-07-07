標準的なRNNと同様に、従来型の離散SSMは長距離依存関係のモデリングが本質的に苦手です。言い換えれば、段落の冒頭と末尾の単語のように、系列内で離れたステップ間の関係を理解するのが苦手であり、そのため長い系列（テキスト・データなど）のモデリング全体に弱いのです。

この課題を解決するために、Gu氏らはHiPPO（High-order Polynomial Projection Operatorsの略）と呼ばれる手法を用いて、A行列とB行列の挙動を定義することを提案しました。

多項式関数は、1つ以上の項を組み合わせたものです。各項は、ある変数の係数と基底関数で構成されます。例えば、3x²は係数が3で、基底がx²である項です。 多項式の「次数」は、その中に含まれる基底の最高次の指数によって決まります。例えば、3x² + 5x は「2次多項式」です。多項式の次数が高いほど、その曲線でより複雑な細部を表現できます。

直交多項式関数は、複数の次数にわたる特別な「族」の多項式であり、それぞれの多項式が数学的に互いに独立しているため、冗長な重なりや情報的な依存関係が生じないようになっています。また、小さな丸め誤差に対しても非常に強く、より複雑な関数を近似するのに役立ちます。直交多項式の族は、それ自体が三項間漸化式と呼ばれる規則によって生成されます。HiPPO手法は、このような漸化式を用いてA行列とB行列を構築します。

本質的には、各時刻において状態h t が状態方程式によって更新されるたびに、 A ¯ h t - 1 + B ¯ x t 状態ベクトルh t の要素が、多項式表現の係数として機能し、元の入力を近似します。古い入力は、広範で低周波（長期的）な特徴を捉える低次の多項式によって近似され、より新しい入力は、きめ細かく高周波（短期的）な特徴を捉える高次の多項式によって近似されます。選択された多項式は直交しているため、情報が重複することはありません。本質的には、この構造により状態空間は入力履歴全体を効率的に「圧縮」し、固定サイズの係数ベクトルにまとめることで「記憶」することを強いられます。

S4論文では、「単にSSMのランダム行列Aを[HiPPO行列] に変更するだけで、Sequential MNISTベンチマークにおける性能が60％から98％に向上し、SSMの長期記憶の問題を事実上解決した」と記されています。DSS、S5、Mambaといった後発の構造化SSMのバリエーションでは、AとBに対して異なる（多くの場合より単純な）初期化方式を採用していますが、HiPPOの基本原則は維持されています。