O funcionamento interno de grandes modelos de linguagem (LLMs) tem sido tradicionalmente opaco. Um modelo receberia um prompt e geraria uma resposta, sem revelar suas etapas de raciocínio interno.

O raciocínio híbrido muda essa dinâmica expondo o processo de pensamento passo a passo de um modelo. Quando ativados, sistemas como o Granite 3.2 mostram seu trabalho, tornando visíveis os caminhos lógicos que seguem.

"Nossa decisão de tornar o processo de raciocínio de Claude visível reflete a consideração de vários fatores. Um desses fatores inclui melhor experiência do usuário e transparência de confiança no processo de raciocínio de Claude", disse o porta-voz da Anthropic. "Isso fornece aos usuários uma insight sobre como as conclusões são alcançadas, promovendo níveis adequados de confiança e compreensão. Os usuários geralmente confiam mais nas produções quando podem observar a cadeia de pensamento. Esperamos que essa visibilidade permita que os usuários avaliem melhor a qualidade e a abrangência do raciocínio de Claude e ajude os usuários a entender melhor os recursos de Claude. Além disso, esperamos que usuários e desenvolvedores possam criar prompts melhores lendo a produção de pensamento de Claude e fornecendo feedback sobre etapas de raciocínio específicas.

"Poder expor o pensamento real do modelo é ótimo para a explicabilidade", diz Daniels. "Antes de conseguir demonstrar o raciocínio da cadeia de pensamento (CoT), era realmente apenas a próxima probabilidade de token. Então, meio que uma caixa-preta."

Essas tecnologias têm aplicações de negócios que se estendem por muitos setores. "Finanças e jurídico são ajustes naturais porque lidam com documentação estruturada", diz Daniels, acrescentando que "qualquer setor regulamentado pode obter um valor enorme" com esses modelos de pensamento avançados.

Mas o raciocínio híbrido pode ser especialmente útil em domínios que exigem análises complexas.

"Matemática e código são realmente os dois pontos de foco que observei em termos de benchmark para raciocínio", diz Daniels. Para o desenvolvimento de software, os benefícios podem ser substanciais: "Usar um modelo de pensamento seria capaz de enquadrar como deve ser o escopo do projeto, dados os requisitos que você estabeleceu", diz ele.

LLMs padrão geram respostas prevendo a próxima palavra mais provável com base em padrões em seus dados de treinamento. Essa abordagem funciona bem para muitas tarefas, mas esses modelos podem ter dificuldades com problemas de raciocínio em várias etapas.

Modelos de raciocínio híbrido podem mudar para um modo computacionalmente intensivo, gerando explicitamente etapas de raciocínio intermediárias antes de fornecer uma resposta final. O modelo usa essas etapas para resolver problemas complexos, semelhante à forma como os humanos escrevem etapas intermediárias ao resolver problemas matemáticos complexos.

A arquitetura que permite o raciocínio híbrido baseia-se no que os pesquisadores chamam de "test-time compute," que envolve a dedicação de recursos computacionais durante a inferência e não apenas durante o treinamento.

"Muitas vezes, tradicionalmente, todo o seu poder seria usado para treinar o modelo, e então a inferência do modelo seria relativamente leve em termos de requisitos computacionais", diz Daniels.

Mas, à medida que os sistemas de IA ficam mais complexos, o desafio não será apenas o poder de processamento - mas também saber quando usá-lo de forma eficiente. É por isso que a próxima fronteira para o raciocínio híbrido, diz Daniels, será a autorregulação mais inteligente: ensinar à IA quando ativar seu modo de pensamento mais profundo por conta própria, sem que os humanos peçam para fazer isso.

"O próximo passo em termos de modelos de raciocínio, ou modelos de raciocínio híbridos, é como podemos entender melhor ou fazer uma melhor triagem das inputs dentro da computação de tempo de teste, ou dentro do framework", diz ele.