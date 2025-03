Equipar um modelo com uma grande janela de contexto tem um custo, tanto de forma figurativa quanto literal. Os requisitos de processamento aumentam quadraticamente com o comprimento de uma sequência: por exemplo, se o número de tokens de entrada dobrar, o modelo precisará de quatro vezes mais poder de processamento para lidar com isso.

De forma semelhante, aumentar o comprimento do contexto também pode desacelerar as saídas. Cada vez que o modelo prevê de forma autorregressiva o próximo token em uma sequência, ele calcula as relações entre aquele token e todos os tokens anteriores na sequência. A inferência pode ser relativamente rápida no início de uma sequência ou conversa, mas progressivamente tornar-se mais lenta à medida que o comprimento do contexto aumenta. Isso é problemático para casos de uso que exigem inferência quase instantânea em tempo real.

Avanços recentes no comprimento médio do contexto para modelos de linguagem foram parcialmente possibilitados por novas técnicas para aumentar a velocidade e a eficiência da inferência o bastante para compensar suficientemente essas contrapartidas inerentes. Essas técnicas de otimização permitiram que até mesmo pequenos LLMs modernos de código aberto oferecessem janelas de contexto exponencialmente maiores do que as do modelo GPT-3.5 original que lançou o ChatGPT da OpenAI no final de 2022.