O que é um modelo de raciocínio?

Autora

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

O que é um modelo de raciocínio?

Um modelo de raciocínio é um grande modelo de linguagem (LLM) que recebeu ajuste fino para dividir problemas complexos em etapas menores, geralmente chamadas de "traços de raciocínio", antes de gerar uma saída final. Meios cada vez mais sofisticados de treinamento de modelos para empregar raciocínio em cadeia de pensamento e outras estratégias de tomada de decisão em várias etapas têm produzido desempenho de ponta, particularmente em benchmarks para tarefas orientadas por lógica, como matemática e programação.

Em vez de gerar imediatamente uma resposta direta à entrada de um usuário, os modelos de raciocínio são treinados para primeiro gerar "etapas de raciocínio" intermediárias antes de chegar à resposta final fornecida ao usuário. Alguns LLMs de raciocínio mostram aos usuários seus traços de raciocínio, enquanto outros apenas resumem ou ocultam completamente essas saídas intermediárias.

Simplificando, os LLMs de raciocínio são treinados para passar mais tempo "pensando" antes de responder. Foi demonstrado empiricamente que a adição desse "processo de raciocínio" produz grandes avanços no desempenho do LLM em tarefas de raciocínio complexas. Esse sucesso expandiu os casos de uso do mundo real e os domínios aos quais os modelos de IA podem ser aplicados, marcando um importante ponto de inflexão no desenvolvimento contínuo da IA generativa e dos agentes de IA.

Vale a pena notar, no entanto, que termos antropomórficos como "processo de pensamento" de um modelo são mais convenientes do que literais. Como todos os modelos de aprendizado de máquina, os modelos de raciocínio estão, em última análise, apenas aplicando algoritmos sofisticados para fazer previsões (como qual a palavra que deve vir a seguir) que refletem padrões aprendidos com os dados de treinamento. Os LLMs de raciocínio não demonstraram consciência ou outros sinais de inteligência artificial geral (AGI). A pesquisa de IA publicada pela Apple em junho de 2025 lança dúvidas sobre se as habilidades atuais de raciocínio dos modelos podem ser dimensionadas para um raciocínio verdadeiramente "generalizável".1

Talvez seja mais preciso dizer que os LLMs de raciocínio são treinados para "mostrar seu trabalho", gerando uma sequência de tokens (palavras) que se assemelha a um processo de pensamento humano — e que esse ato de "verbalizar" pensamentos parece liberar recursos de raciocínio latentes que os LLMs aprendem implicitamente com seu enorme corpus de dados de treinamento (que contém exemplos de indivíduos articulando direta e indiretamente seus próprios processos). 

O conceito de um "modelo de raciocínio" foi introduzido pelo o1-preview (e o o1-mini) da OpenAI em setembro de 2024,2  seguido pelo "Qwen with Questions" (QwQ-32B-preview) da Alibaba em novembro e pelo Gemini 2.0 Flash Experiment do Google em dezembro. Um marco no desenvolvimento de LLMs de raciocínio foi o lançamento em janeiro de 2025 do modelo de código aberto DeepSeek-R1. Considerando que os processos de treinamento usados para ajuste fino dos modelos de raciocínio anteriores eram segredos cuidadosamente guardados, a DeepSeek lançou um artigo técnico detalhado que forneceu um blueprint para outros desenvolvedores de modelos. IBM Granite, Anthropic e Mistral AI, entre outros, lançaram desde então seus próprios LLMs de raciocínio.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Por que os modelos de raciocínio funcionam?

A adição de um "processo de pensamento" às saídas do modelo mitiga muitas das falhas inerentes à inferência do LLM padrão, ajudando o modelo a evitar atalhos cognitivos prejudiciais e revelar conhecimentos potencialmente mais relevantes que foi aprendido com dados de treinamento.

No contexto dos LLMs de raciocínio, a literatura de pesquisa em IA frequentemente faz referência ao pensamento do Sistema 1” e “Sistema 2, termos cunhados pelo economista comportamental vencedor do Prêmio Nobel, Daniel Kahneman, em seu seminal Thinking, Fast and Slow. O pensamento do Sistema 1 é rápido, inconsciente e intuitivo, depende de heurística e envolve pouco ou nenhum esforço. O pensamento do Sistema 2 é lento, deliberado e lógico, exigindo esforço concentrado. Os LLMs autorregressivos são, por padrão, inclinados ao pensamento do Sistema 1.3

Para algumas tarefas, o pensamento do Sistema 1 é eficaz e eficiente computacionalmente. Mas, para muitas outras, o pensamento impulsivo do Sistema 1 é insuficiente. Por exemplo, um artigo de 2023 dos pesquisadores da Meta Jason Weston e Sainbayar Sukhbaatar observou como os LLMs são facilmente influenciados pela presença de contexto irrelevante ou detalhes subjetivos no prompt de entrada.

Exemplos de LLMs Exemplo de como LLMs que não raciocinam são frequentemente "distraídos" por informações irrelevantes. Retirado do artigo "System 2 Attention (is something you might need too)."

Eles propuseram uma classe de técnicas que apelidaram de "Atenção ao Sistema 2" (S2A), na qual o modelo é instruído a gerar primeiro uma versão reescrita do prompt de entrada, privada de contexto irrelevante, e então responder a esse prompt reescrito. Em experimentos, o S2A superou a inferência padrão em uma variedade de tarefas, aumentando a precisão e diminuindo a bajulação.

Exemplos de LLMs S2A, um método de escalonamento da inferência inicial. Ao adicionar etapas entre a entrada e a resposta (nesse caso, para reescrever o prompt), o modelo melhora sua saída final. Retirado do artigo "System 2 Attention (is something you might need too)."

Conceitualmente falando, o objetivo implícito das abordagens de raciocínio pode ser entendido como a implementação de um comportamento de modelo semelhante ao Sistema 2 que explora, avalia e refina suas saídas potenciais.

Como etapa essencial, veio das pesquisas iniciais de LLMs demonstrando que simplesmente adicionar a frase "pense passo a passo" (chamada de cadeia de prompts de pensamento) melhora significativamente as saídas do modelo.4,5 Um artigo de 2024 do Google DeepMind fez uma asserção ainda mais ampla: ampliar a computação em tempo de teste (os recursos usados para gerar uma saída) aumenta o desempenho do modelo tanto quanto ampliar a computação em tempo de treinamento (os recursos usados para treinar um modelo).6 Os prompts da CoT são apenas uma de muitas dessas técnicas de escalonamento de inferência, assim como o S2A.

Os LLMs de raciocínio modernos vão além: em vez de depender do projeto dos prompts, eles usam novas técnicas de ajuste fino e fluxos de trabalho sofisticados para aumentar intrinsecamente a quantidade de computação que o modelo usa no tempo de inferência. A otimização de um modelo de raciocínio envolve o desafio técnico de desenvolver algoritmos e dados de treinamento e o desafio filosófico de projetar um "processo de pensamento" ideal.

Como funcionam os modelos de raciocínio

Os estágios iniciais do raciocínio de treinamento de LLMs refletem os de LLMs convencionais. Assim como os LLMs padrão, os modelos de raciocínio obtêm sua instalação linguística geral e conhecimento de mundo a partir de pré-treinamento autossupervisionado em grande escala, seguido por uma certa quantidade de ajuste fino supervisionado (SFT) para adaptá-los às tarefas posteriores (como o uso de chatbot conversacional). A inovação central é a aplicação de novas técnicas de aprendizado por reforço (RL), que incentivam o modelo a gerar etapas de raciocínio intermediárias no tempo de inferência antes de produzir uma saída final.

Anos de pesquisa e experimentação produziram uma variedade de abordagens de raciocínio em expansão exponencial, mas todas elas compartilham o objetivo fundamental de aumentar a computação em tempo de teste. Além do LLM de base (ou ajustado por instruções) que serve como seu fundamento, os modelos de raciocínio são diferenciados pelas estratégias de tomada de decisão específicas as quais são treinados para empregar e pelos algoritmos específicos usados para incentivar esse comportamento.

Em termos gerais, existem dois métodos principais para aumentar a computação usada no tempo de inferência. O objetivo de ajustar um modelo de raciocínio é treiná-lo para empregar uma (ou ambas) dessas amplas abordagens por meio de vários algoritmos de aprendizado.

  • Gere saídas mais longas: o modelo aprende a gerar sequências de saída mais longas por meio de estratégias que incluem cadeia de pensamento longa , backtracking e autorrefinamento.

  • Gere múltiplas saídas: em vez de gerar uma única saída em resposta a um prompt, o modelo gera múltiplas iterações de sua saída e chega à sua resposta final por meio de um processo de busca, rejeição e agregação de possíveis saídas.  

A natureza dos paradigmas de aprendizado que produzem modelos de raciocínio normalmente envolve treinamento e avaliação em problemas cujas soluções são verificáveis por natureza, como tarefas de programação ou problemas matemáticos. As métricas de benchmarks usadas para avaliar o desempenho do modelo de raciocínio, portanto, normalmente se concentram nessas áreas. Consideravelmente menos pesquisas foram conduzidas sobre o impacto do raciocínio em domínios mais subjetivos, como a escrita criativa.

Ajuste fino por reforço

O avanço do ajuste fino baseado em RL tem sido fundamental para o surgimento dos LLMs de raciocínio, abrangendo tanto RL baseado em regras quanto RL baseado em deep learning ("RL profundo") em contextos de LLMs. Enquanto os aprendizados supervisionado e autossupervisionado exigem tarefas de treinamento estáticas e bem definidas, o RL é adequado para o tipo de tarefas dinâmicas, abertas e complexas, para as quais o raciocínio multietapas é mais útil.

O uso de RL para ajuste fino de LLMs de uma maneira que proporcione qualidades abstratas não é exclusivo dos modelos de raciocínio. Por exemplo, o pipeline de treinamento padrão para que um LLM seja usado em configurações de chatbots é o seguinte:

  1. Pré-treinamento autossupervisionado, no qual o modelo aprende os padrões linguísticos e o conhecimento de base a serem aplicados às tarefas posteriores.

  2. Ajuste fino supervisionado (SFT), no qual o modelo aprende como formatar adequadamente suas respostas às entradas do usuário.

  3. Ajuste de instruções, no qual o modelo aprende como seguir instruções e realizar tarefas específicas.

  4. Aprendizado por reforço a partir do feedback humano (RLHF), no qual o modelo é ajustado com base nos dados de preferências humanas para transmitir qualidades subjetivas como utilidade, inofensividade, veracidade e tom ideal.

Os LLMs de raciocínio normalmente passam por esses mesmos estágios de treinamento, com a adição (em algum momento) de um estágio de aprendizado por reforço que instila um processo produtivo de raciocínio baseado em CoT. Isso é alcançado definindo os objetivos desse processo de raciocínio (os comportamentos específicos do modelo a serem "recompensados", como a geração de traços de raciocínio de CoT antes de uma saída final) e, então, otimizando os pesos do modelo de uma forma que maximize a recompensa.

Como é difícil ou até mesmo impossível projetar uma função de recompensa explícita para uma tarefa tão abstrata e complexa como um processo de raciocínio que será eficaz para todas as soluções de problemas complexos, esse sinal de recompensa geralmente vem de um modelo de recompensa separado usado durante o treinamento. No RLHF, esse modelo de recompensa é treinado com base no feedback humano e aprende a prever uma pontuação numérica para o quanto um ser humano preferiria uma determinada resposta.

No contexto de RL para modelos de raciocínio, os sinais de recompensa podem ser divididos em categorias: modelos de recompensa de resultados (ORMs), modelos de recompensa de processos (PRMs) e sistemas de recompensa baseados em regras.

Modelos de recompensa de resultados (ORMs)

Os ORMs, como seu nome sugere, verificam a precisão da saída final do modelo de raciocínio e fornecem sinais de recompensa que são usados para otimizar os pesos do modelo adequadamente. Isso é superficialmente semelhante ao papel de uma função de perda no aprendizado supervisionado , embora a mecânica seja geralmente mais complexa.

Enquanto uma função de perda normalmente mede a divergência token por token entre a saída do modelo e a verdade absoluta, um ORM eficaz deve ser capaz de reconhecer uma resposta correta para um problema matemático mesmo quando apresentado de forma muito diferente da resposta de verdade absoluta disponível, o que ocorre frequentemente, dada a alta variabilidade de saídas de CoT longas. Da mesma forma, a maioria dos problemas de programação do mundo real tem várias soluções: avaliar de forma holística a saída do código geralmente requer um pipeline de dados que executa e verifica com eficiência a eficácia dos trechos de código. Outras qualidades de saída, como se segue formatação ou instruções prescritas, podem usar um LLM padrão como verificador.

Embora os ORMs sejam uma solução relativamente direta e computacionalmente eficiente, eles podem recompensar situações em que etapas de raciocínio falhas levam a uma resposta final correta, resultando no modelo aprendendo processos de raciocínio abaixo do ideal.

Modelos de recompensa de processos (PRMs)

Os PRMs pontuam e recompensam (ou penalizam) cada etapa de raciocínio individual de forma isolada, em vez de se concentrarem apenas na precisão da resposta final. Isso fornece sinais de recompensa mais refinados e ajustes de modelo subsequentes, produzindo modelos com um processo de raciocínio mais robusto e interpretável.

No entanto, os PRMs são mais caros e demorados para treinar e implementar. As abordagens iniciais influentes dos PRMs dependiam quase inteiramente da rotulagem trabalhosa de dados de anotadores humanos.7 Outras abordagens automatizam esse processo inferindo a validade de uma etapa de raciocínio com base na frequência com que ela tem resultados corretos.8

Sistemas de recompensa baseados em regras

Para evitar os custos e as complicações dos modelos de recompensa, algumas abordagens de ajuste fino baseadas em RL projetam as tarefas de treinamento de uma forma que simplifica o ato de avaliar as saídas do modelo. Por exemplo, as técnicas DeepSeek-R1 e R1-Zero usam um prompt para os modelos formatarem suas respostas finais em uma caixa separada, permitindo que a precisão seja verificada sem um modelo de recompensa especializado que deve analisar toda a resposta. Outros sistemas de recompensa baseados em regras incentivam microações específicas, como adicionar “espere” ao fim de uma resposta para incentivar mais exploração e autocorreção, que pode ser facilmente verificada.9

DeepSeek-R1-Zero: RL puro

Uma técnica de ajuste fino por reforço simples, ilustrativa e altamente influente foi pioneira por parte da DeepSeek no treinamento de seu modelo de raciocínio experimental de código aberto R1-Zero.

Utilizando o DeepSeek-V3 como base, a DeepSeek passou diretamente do pré-treinamento para um esquema de aprendizado por reforço baseado em regras extremamente simples:

  • Consulta ao modelo: faça uma pergunta ao modelo. Solicite que ele produza um processo de pensamento entre "<think> " e "</think> " tokens e produza sua resposta final entre "<answer> " e "</answer> ” tokens.

  • Recompensas de precisão: recompense o modelo pela qualidade de sua resposta final, como por exemplo, a qualidade da execução do código gerado.

  • Recompensas de formato: recompense o modelo por usar corretamente o <think> </think> " e "<answer> </answer> ” formato nas respostas.

Surpreendentemente, sem qualquer instrução explícita para fazê-lo, o DeepSeek-R1-Zero aprendeu a gerar cadeias de pensamento complexas e a empregar estratégias de raciocínio que produziram um desempenho impressionante em tarefas matemáticas e de raciocínio. Em outras palavras, dado apenas o mandato de "pense" antes de produzir uma resposta final e maximizar a precisão das respostas finais, o modelo naturalmente explorou e "descobriu" padrões de raciocínio ideais.

Na prática, essa abordagem simplificada teve falhas importantes: como explica o artigo técnico, "o DeepSeek-R1-Zero encontra desafios como repetição interminável, baixa legibilidade e mistura de idiomas". No entanto, essa abordagem pura de RL serviu de base para uma metodologia mais refinada que resultou no imensamente popular modelo DeepSeek-R1,

Abordagens baseadas em pesquisas e amostras

Enquanto a maioria dos paradigmas de RL baseados em CoT visa otimizar a eficácia de uma única saída do modelo, outros métodos geram múltiplas saídas finais ou intermediárias, com o objetivo de identificar e incentivar as melhores etapas de raciocínio.

Muitas dessas abordagens dependem de algoritmos de otimização baseados em pesquisa, como a busca em árvore de Monte Carlo (MCTS), para gerar e explorar múltiplas possíveis próximas etapas de raciocínio e avaliá-las com base na qualidade das etapas subsequentes e das respostas finais às quais elas podem levar. A recompensa é, então, retropropagada de forma iterativa pelos caminhos de raciocínio que levaram a resultados desejáveis, e os pesos são otimizados de forma a aumentar a probabilidade dessas etapas de raciocínio. Isso é particularmente útil para tarefas de raciocínio com uma gama muito grande de decisões potenciais ou que exigem um planejamento extenso de longo prazo para ter chance de chegar a uma resposta final precisa.

Outra abordagem é a autoconsistência, também chamada de votação por maioria. Cada tarefa começa com prompts de cadeia de pensamento. Várias respostas, cada uma com seus próprios caminhos de raciocínio, são amostradas do decodificador do modelo. A resposta final que aparece de forma mais consistente entre as saídas amostradas é determinada como a resposta ideal. Isso pode ser usado como uma estratégia em tempo de inferência para minimizar a aleatoriedade e a alucinação ou como um meio de gerar dados de raciocínio de alta qualidade para métodos baseados em SFT.

A principal desvantagem desses métodos é o aumento da latência e a sobrecarga computacional que eles introduzem. No entanto, algumas pesquisas indicam que modelos menores que empregam algoritmos de inferência baseados em pesquisas ou amostras podem oferecer uma troca de eficiência de desempenho superior à de modelos maiores usados convencionalmente.10

SFT, destilação de conhecimento e abordagens de autoaperfeiçoamento

Entre as maneiras mais conceitualmente simples de ajuste fino de modelos para raciocínio está simplesmente usar o aprendizado supervisionado em um conjunto de dados que compreende prompts de entrada desafiadores e saídas correspondentes baseadas em CoT.

Embora o uso de métodos convencionais para montar um conjunto de dados de treinamento "à mão" por meio de exemplos escritos por seres humanos seja proibitivamente demorado e trabalhoso, a proliferação de modelos de raciocínio e técnicas de escalonamento de inferência facilitou significativamente a geração de dados de treinamento sintéticos adequados.  Uma pesquisa conduzida pela Stanford University e pelo Allen Institute for A1 descobriu que, após o ajuste fino do modo do Qwen2.5-32B-Instruct em um conjunto de dados selecionado de apenas 1.000 pares de perguntas e traços de raciocínio, seu modelo “s1” superou a o1-preview da OpenAI em problemas matemáticos de competição.

A destilação de conhecimento também pode ser usada para ensinar modelos menores a emular os processos de pensamento de modelos de raciocínio maiores, ajustando-os por meio de SFT diretamente nas saídas geradas pelo modelo "professor" maior. A DeepSeek usou a destilação de conhecimento, com o DeepSeek-R1 como professor, para criar versões com ajuste fino por raciocínio de vários tamanhos dos modelos Qwen e Llama.

Outros métodos visam o bootstrapping de um conjunto de dados de prompts e saídas longas de CoT correspondentes por meio de um processo de "autoaprimoramento" do modelo. O Self-Taught Reasoner (STaR) apresenta exemplos few-shot de traços de raciocínio eficazes e, em seguida, solicita a um modelo para gerar respostas e lógicas para um número maior de perguntas de amostra. O modelo, então, recebe um ajuste fino em lógicas que, em última análise, produziram respostas corretas, após o que o processo é repetido iterativamente.11 O autotreinamento reforçado (ReST) aplica uma abordagem conceitual semelhante para ajustar o sinal de recompensa (ou "política") usado para o ajuste fino de reforço.12 Ambos produziram uma série de metodologias derivadas.

AI Academy

Escolha o modelo de IA certo para seu caso de uso

Tamanho nem sempre é documento quando falamos de modelos de IA. Aprenda a encontrar a solução correta para suas necessidades de negócios. E, em seguida, use o guia como um auxílio para entrar em ação.

Desafios dos modelos de raciocínio

Apesar de seus muitos pontos fortes e benefícios, os LLMs de raciocínio também têm suas desvantagens.

Excesso de pensamento

Os modelos de raciocínio (especialmente aqueles com relativamente poucos parâmetros) são propensos ao excesso de pensamento. Um estudo da Tencent descobriu que modelos de raciocínio consomem uma média de 1.953% mais tokens do que modelos convencionais para chegar à mesma resposta.13 Outro estudo, conduzido por pesquisadores de várias universidades, descobriu que, em ambientes agênticos, os modelos de raciocínio têm uma tendência a se envolver em raciocínio circular estendido em vez de interagir com ferramentas externas e fontes de informações.14

Limitações do escalonamento de inferência

Uma pesquisa publicada pela Anthropic em julho de 2025 afirmou que esse pensamento excessivo não é apenas uma preocupação de eficiência: o artigo explora “casos em que o raciocínio mais longo deteriora o desempenho, exibindo uma relação inversa entre a computação em tempo de teste e a precisão.” Embora tenha sido comprovado empiricamente que aumentar a computação em tempo de teste possa muitas vezes melhorar o desempenho do modelo, sua pesquisa demonstrou vários cenários nos quais um raciocínio mais longo amplificava as fraquezas e os problemas de alinhamento do modelo, desafiando "a suposição de que mais raciocínio melhora universalmente as saídas do modelo".15

Uma pesquisa relacionada da Apple no início de 2025 demonstrou uma série de tarefas de baixa complexidade em que os modelos padrão superavam os modelos de raciocínio, bem como tarefas de alta complexidade em que ambos os tipos de modelos falharam completamente. Nas explorações da Apple, os modelos de raciocínio "não conseguem desenvolver recursos generalizáveis de resolução de problemas para tarefas de planejamento, com o desempenho colapsando para zero além de um certo limite de complexidade".1

Degradação em domínios fora do raciocínio

Embora o ajuste fino do raciocínio geralmente produza grandes melhorias em tarefas complexas em domínios lógicos, como matemática e programação, ele também pode levar a quedas de desempenho em outros setores. Por exemplo, em comparação com seus equivalentes originais, as versões do Llama 3.1 e Qwen2.5 que foram ajustadas por meio da destilação de conhecimento no DeepSeek-R1 demonstraram regressão no ArenaHard e Alpaca-Eval-2, benchmarks populares que medem a capacidade do modelo de pensar em qual caminho seguir por meio de instruções difíceis. Dito isso, técnicas de raciocínio mais direcionadas, como a otimização de preferências de pensamento (TPO), usadas para ajuste fino do IBM Granite 3.2,melhoram significativamente o acompanhamento de instruções (embora sem um impacto significativo no desempenho em matemática ou programação).

Avaliações de LLMs O ajuste fino dos modelos Llama e Qwen para emular o processo de raciocínio do DeepSeek-R1 aumentou o desempenho em domínios lógicos específicos, mas diminuiu o seguimento geral de instruções.

Maior custo e latência

Os usuários devem pagar (e esperar) por todos os tokens que o modelo gera enquanto "pensa", e esses tokens de pensamento consomem a janela de contexto disponível. Alguns casos de uso justificam esse tempo e computação extras, mas para outros, isso é um desperdício de recursos. No entanto, mudar constantemente de um modelo de raciocínio para um modelo "padrão", tarefa por tarefa, prompt por prompt, geralmente não é prático.

Modelos de esforço de raciocínio e raciocínio híbrido

Uma solução são os "modelos de raciocínio híbrido". Em fevereiro, o IBM Granite 3.2 se tornou o primeiro LLM a oferecer um modo de “pensamento” alternável, permitindo que os usuários aproveitem o raciocínio quando necessário e priorizem a eficiência quando não for o caso.3 O Claude 3.7 Sonnet da Anthropic seguiu o exemplo no final do mesmo mês, adicionando a capacidade para usuários de APIs controlarem de forma detalhada por quanto tempo o modelo “pensa”.4 O Google lançou um recurso semelhante para ajustar o "orçamento de pensamento" dos modelos Gemini.18 Da mesma forma, o "esforço de raciocínio" dos modelos de raciocínio o1 e o3 da OpenAI pode ser definido como "baixo", "médio" ou "alto".

Interpretabilidade

Ostensivamente, revelar a cadeia de pensamento do modelo ao usuário ajuda a entender exatamente como um LLM chega às suas respostas finais, proporcionando maior interpretabilidade do que normalmente é possível com um modelo padrão. Mas a pesquisa da Anthropic sugere que os modelos de raciocínio nem sempre dizem o que realmente pensam. Em uma série de tarefas especialmente projetadas, os pesquisadores descobriram que tanto o Claude 3.7 Sonnet quanto o DeepSeek-R1 não explicavam fielmente seu raciocínio: por exemplo, quando recebiam dicas da resposta correta, suas respostas raramente mencionavam essas dicas ao descrever sua alegada lógica.19

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Conheça o watsonx.ai Conheça os modelos de IA do IBM® Granite
Notas de rodapé

Todos os links são externos a ibm.com, salvo indicação em contrário.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity," Apple Machine Learning Research, junho de 2025
2. "Introducing OpenAI o1-preview," OpenAI, 12 de setembro de 2024
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models," arXiv, 24 de fevereiro de 2025 
4. "Large Language Models are Zero-Shot Reasoners," arXiv, 24 de maio de 2022
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models," arXiv, 30 de novembro de 2022
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters," arXiv, 6 de agosto de 2024
7. "Let's Verify Step by Step," arXiv, 31 de maio de 2023
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations," arXiv, 14 de dezembro de 2023
9. "s1: Simple test-time scaling," arXiv, 31 de janeiro de 2025
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models," arXiv, 1 de agosto de 2024
11. "STaR: Bootstrapping Reasoning With Reasoning," arXiv, 28 de março de 2022
12. "Reinforced Self-Training (ReST) for Language Modeling," arXiv, 17 de agosto de 2023
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs," arXiv, 30 de dezembro de 2024
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks," arXiv, 12 de fevereiro de 2025
15. "Inverse Scaling in Test-Time Compute," arXiv, 19 de julho de 2025
16. "Bringing reasoning to Granite," IBM Research, 7 de fevereiro de 2025
17.  "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 de fevereiro de 2025
18. "Generative AI on Vertex AI: Thinking," Google
19. "Reasoning models don't always say what they think," Anthropic, 3 de abril de 2025