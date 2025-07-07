ほとんどのRNNと同様に、標準的なSSMは長距離依存関係のモデル化が本質的に苦手です。言い換えれば、段落の冒頭と末尾の単語のように系列内で離れたステップ間の関係を理解するのが苦手で、そのため長い系列全体のモデル化にも弱い傾向にあります。

この問題を解決するために、Gu氏とその共同執筆者（その1人がTri Dao氏）は、HiPPO（High-order Polynomial Projection Operatorsの略）と呼ばれる手法を用いました。これは、直交多項式から導かれた数式を用いて初期値を構造化することで、行列AとBの挙動を定義するものです。これは、モデルの重みを学習開始時にランダムに初期化するという標準的な機械学習の慣習とは対照的です。S4において、Dao氏とGu氏はルジャンドル多項式に基づく初期化手法を提案しました。彼らは続編となる論文「How to Train Your HiPPO」1で、追加の数式を探求しました。

S4論文では、「単にSSMのランダム行列Aを\[HiPPO行列]に変更しただけで、逐次MNISTベンチマークにおける性能が60％から98％に向上し、SSMの長期記憶問題を実質的に解決した」と記されています。DSS、S5、Mambaといった構造化SSMの後続の派生モデルでは、行列AとBに対して異なる（多くの場合より単純な）初期化手法が用いられていますが、それでもHiPPOの基本原則は保持されています。すなわち、安定した更新を可能にし、行列内の各値の間にある程度の独立性を持たせる対角構造を実装しています。