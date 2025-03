DeepSeek-R1 é um modelo de raciocínio criado pelo ajuste fino de um LLM (DeepSeek-V3) para gerar um extenso processo de cadeia de pensamento (CoT) passo a passo antes de determinar o "resultado" final que ele fornece ao usuário. Outros modelos de raciocínio incluem o o1 da OpenAI (baseado no GPT-4o) e o o3, o Gemini Flash 2.0 Thinking do Google (baseado no Gemini Flash) e o QwQ aberto do Alibaba ("Qwen com perguntas"), baseado no seu modelo Qwen2.5.

A intuição por trás dos modelos de raciocínio vem de pesquisas iniciais que demonstram que a simples adição da frase "pense passo a passo" melhora significativamente as produções do modelo.i Pesquisas subsequentes do Google DeepMind teorizaram que o aumento da computação em tempo de teste (a quantidade de recursos usados para gerar uma produção) poderia melhorar o desempenho do modelo tanto quanto o aumento da computação em tempo de treinamento (os recursos usados para treinar um modelo).

Embora os modelos de raciocínio sejam mais lentos e caros, você ainda precisa gerar (e pagar por) todos os tokens usados para "pensar" na resposta final, e esses tokens consomem sua janela de contexto disponível – eles impulsionaram a vanguarda do desempenho de última geração desde o lançamento do o1 pela OpenAI. Em especial, a ênfase no treinamento de modelos para priorizar o planejamento e a previsão os tornou hábeis em determinadas tarefas que envolvem problemas complexos de matemática e raciocínio, antes inacessíveis aos LLMs.

Para saber mais sobre modelos de raciocínio, consulte este excelente guia visual da Maarten Grootendorst.