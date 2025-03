A desvantagem da atenção multi-título padrão não reside tanto em algum defeito crucial, mas na ausência de qualquer otimização. A MHA foi o primeiro algoritmo do gênero e representa a execução mais complexa do seu mecanismo geral de cálculo de atenção.

A maior parte da ineficiência da MHA decorre da abundância de cálculos e parâmetros do modelo. Na MHA padrão, cada cabeça de consulta, de chave e de valor em cada bloco de atenção possui sua própria matriz de pesos. Assim, por exemplo, um modelo com 8 cabeças de atenção em cada camada, muito menos do que a maioria dos modernos LLMs, exigiria 24 matrizes de pesos únicas apenas para as cabeças Q, K e V da camada, implicando um enorme número de cálculos intermediários em cada camada.

Uma consequência dessa configuração é que ela é computacionalmente cara. Os requisitos computacionais para a MHA aumentam de forma quadrática em relação ao comprimento da sequência: dobrar o número de tokens em uma sequência de entrada exige quatro vezes a complexidade. Isso impõe limites práticos rígidos ao tamanho das janelas de contexto.

A MHA também impõe uma grande demanda à memória do sistema. As GPUs não dispõem de muita memória interna para armazenar as saídas da enorme quantidade de cálculos intermediários que precisam ser acessados a cada etapa subsequente do processamento. Esses resultados intermediários são, em vez disso, armazenados em memória de alta largura de banda (HBM), que não está localizada no próprio chip da GPU. Isso implica uma pequena latência sempre que as chaves e os valores precisam ser lidos da memória. À medida que os modelos transformer passaram a escalar para muitos bilhões de parâmetros, o tempo e o poder de computação necessários para treinar e executar a inferência tornaram-se um gargalo no desempenho do modelo.

Progressos adicionais exigiram métodos para reduzir o número de etapas computacionais sem diminuir a capacidade dos transformadores de aprender e reproduzir padrões linguísticos intrincadamente complexos. Foi nesse contexto que a MQA e, posteriormente, a GQA foram introduzidas.