Assim como os RNNs padrão, os SSMs discretos convencionais são inerentemente fracos na modelagem de dependências de longa distância. Em outras palavras, não são bons na compreensão da relação entre as etapas de uma sequência que estão distantes, como palavras no início e no fim de um parágrafo, o que os torna fracos na modelagem de sequências longas (como dados de texto).
Para resolver isso, Gu et al propuseram o uso de uma técnica chamada HiPPO (abreviação de High-order Polynomial Projection Operators, ou Operadores de Projeção Polinomial de Alta Ordem) para definir a forma como as matrizes A e B se comportam.
As funções polinomiais combinam um ou mais termos. Cada termo compreende um coeficiente e uma função base de alguma variável. Por exemplo, 3x2 é um termo cujo coeficiente é 3 e cuja base é x2. A “ordem” de um polinômio é determinada pela maior potência de qualquer base que ele contenha: 3x2+5x é um “polinômio de segunda ordem”. Quanto maior a ordem de um polinômio, mais detalhes intrincados podem ser capturados em suas curvas.
As funções polinomiais ortogonais são “famílias” especiais de polinômios, abrangendo várias ordens, nas quais cada polinômio é matematicamente independente dos outros, garantindo que não haja sobreposição redundante ou dependências informacionais entre eles. São também muito robustos com pequenos erros de arredondamento, o que os torna úteis para aproximar funções mais complexas. As próprias famílias de polinômios ortogonais são geradas por uma regra chamada fórmula de recorrência de três termos. O método HiPPO utiliza essas fórmulas de recorrência para construir as matrizes A e B.
Em resumo, toda vez que o estado ht é alterado pela equação de estado , os elementos do vetor de estado ht atuam como coeficientes de expressões polinomiais que aproximam a entrada original. Entradas mais antigas são aproximadas por meio de polinômios de ordem inferior que capturam detalhes amplos e de baixa frequência (longo prazo), e inputs mais recentes são aproximadas por meio de polinômios de ordem superior que capturam detalhes finos e de alta frequência (curto prazo). Como os polinômios escolhidos são ortogonais, nenhuma informação é repetida. Em essência, essa estrutura força o espaço de estado a “memorizar” todo o histórico de entrada, “comprimindo-o” eficientemente em um vetor de coeficientes de tamanho fixo.
O artigo S4 observa que a "simples modificação de um SSM de uma matriz aleatória A para [a Matriz HiPPO] melhorou seu desempenho no benchmark sequencial MNIST de 60% para 98%", resolvendo efetivamente o problema de memória de longo prazo dos SSMs. Variações posteriores de SSMs estruturados, como DSS, S5 e Mamba, utilizam esquemas de inicialização diferentes (geralmente mais simples) para A e B, mas mantêm os principais princípios do HiPPO.