Em vez de gerar imediatamente uma resposta direta à entrada de um usuário, os modelos de raciocínio são treinados para primeiro gerar "etapas de raciocínio" intermediárias antes de chegar à resposta final fornecida ao usuário. Alguns LLMs de raciocínio mostram aos usuários seus traços de raciocínio, enquanto outros apenas resumem ou ocultam completamente essas saídas intermediárias.
Simplificando, os LLMs de raciocínio são treinados para passar mais tempo "pensando" antes de responder. Foi demonstrado empiricamente que a adição desse "processo de raciocínio" produz grandes avanços no desempenho do LLM em tarefas de raciocínio complexas. Esse sucesso expandiu os casos de uso do mundo real e os domínios aos quais os modelos de IA podem ser aplicados, marcando um importante ponto de inflexão no desenvolvimento contínuo da IA generativa e dos agentes de IA.
Vale a pena notar, no entanto, que termos antropomórficos como "processo de pensamento" de um modelo são mais convenientes do que literais. Como todos os modelos de aprendizado de máquina, os modelos de raciocínio estão, em última análise, apenas aplicando algoritmos sofisticados para fazer previsões (como qual a palavra que deve vir a seguir) que refletem padrões aprendidos com os dados de treinamento. Os LLMs de raciocínio não demonstraram consciência ou outros sinais de inteligência artificial geral (AGI). A pesquisa de IA publicada pela Apple em junho de 2025 lança dúvidas sobre se as habilidades atuais de raciocínio dos modelos podem ser dimensionadas para um raciocínio verdadeiramente "generalizável".1
Talvez seja mais preciso dizer que os LLMs de raciocínio são treinados para "mostrar seu trabalho", gerando uma sequência de tokens (palavras) que se assemelha a um processo de pensamento humano — e que esse ato de "verbalizar" pensamentos parece liberar recursos de raciocínio latentes que os LLMs aprendem implicitamente com seu enorme corpus de dados de treinamento (que contém exemplos de indivíduos articulando direta e indiretamente seus próprios processos).
O conceito de um "modelo de raciocínio" foi introduzido pelo o1-preview (e o o1-mini) da OpenAI em setembro de 2024,2 seguido pelo "Qwen with Questions" (QwQ-32B-preview) da Alibaba em novembro e pelo Gemini 2.0 Flash Experiment do Google em dezembro. Um marco no desenvolvimento de LLMs de raciocínio foi o lançamento em janeiro de 2025 do modelo de código aberto DeepSeek-R1. Considerando que os processos de treinamento usados para ajuste fino dos modelos de raciocínio anteriores eram segredos cuidadosamente guardados, a DeepSeek lançou um artigo técnico detalhado que forneceu um blueprint para outros desenvolvedores de modelos. IBM Granite, Anthropic e Mistral AI, entre outros, lançaram desde então seus próprios LLMs de raciocínio.