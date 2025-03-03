O novo Claude 3.7 Sonnet da Anthropic agora pode ligar e desligar seu modo de pensamento profundo como um interruptor, respondendo perguntas simples instantaneamente enquanto reserva o trabalho computacional pesado para problemas complexos que precisam.
Essa abordagem de raciocínio híbrido marca uma mudança na inteligência artificial que, segundo especialistas, pode reduzir custos e aumentar os recursos, com os modelos Granite da IBM também adotando funcionalidades semelhantes com base na complexidade da tarefa. Essa evolução ocorre em um momento em que organizações de todo o mundo enfrentam dificuldades com as realidades financeiras da IA avançada, o que pode tornar raciocínios sofisticados mais acessíveis e conservar valiosos recursos computacionais.
"A estrutura de custos dos modelos de raciocínio é importante; nem todas as perguntas exigem uma pausa de 32 segundos para que o modelo as analise", afirma Maya Murad, Gerente de Produto de IA da IBM pesquisa, em um episódio recente do podcast Mixture of Experts . "Esse recurso permite que as empresas usem recursos inteligentemente, aplicando computação extensiva apenas quando o problema exige, criando sistemas de IA que melhor correspondem à forma como os humanos abordam diferentes tarefas cognitivas."
O raciocínio híbrido sinaliza uma mudança no foco do setor de IA de simplesmente construir sistemas mais poderosos para criar sistemas práticos de usar, explica Abraham Daniels, gerente sênior de programa da IBM Research, ao IBM Think. Para as empresas, essa mudança pode ser crucial, já que o custo de operar uma IA sofisticada tornou-se uma consideração importante.
Os modelos consomem significativamente mais recursos computacionais — e, portanto, custam mais dinheiro — durante o raciocínio profundo do que quando fornecem respostas simples. O raciocínio híbrido permite que as empresas otimizem os gastos com IA, combinando os níveis de computação com a complexidade da tarefa.
A Anthropic lançou recentemente o Claude 3.7 Sonnet com "modo de pensamento estendido", permitindo que os usuários solicitem uma análise mais aprofundada quando necessário. Da mesma forma, a IBM equipou seus modelos Granite com recursos "toggling", oferecendo aos usuários controle sobre quando ativar o raciocínio intensivo.
"Construímos um raciocínio híbrido com uma filosofia diferente de outros modelos de raciocínio no mercado", disse um porta-voz da Anthropic ao IBM Think. "Nossa abordagem é baseada em como o cérebro humano funciona. Como humanos, não temos dois cérebros separados para pensamento rápido versus pensamento profundo — e na Anthropic, consideramos o raciocínio como algo que precisa ser profundamente integrado aos recursos de todos os nossos modelos versus uma funcionalidade separada. Essa abordagem é baseada em como vemos o Claude se integrando aos nossos clientes em todas as aplicações. Enquanto algumas interações exigem respostas rápidas, como brainstorming de materiais de marketing, outras, como análises financeiras complexas ou pesquisa do setor, exigem uma reflexão mais profunda e longa. Queríamos tornar essas duas funcionalidades o mais simples e econômicas possível para nossos clientes acessarem e usarem."
O processo de pensamento da IA se torna mais transparente com essa abordagem. “O modelo em si ainda é uma caixa-preta, mas pelo menos na produção você pode ver como o modelo chegou a essa conclusão”, diz Daniels. Essa visibilidade pode melhorar os resultados e lidar com preocupações de explicabilidade, o que é particularmente importante para setores regulamentados, diz ele.
Daniels e outros especialistas veem esse desenvolvimento como uma necessidade prática: lidar com uma sobrecarga computacional desnecessária para perguntas simples.
"Você não precisa de uma tonelada de raciocínio para todas as tarefas, e isso lhe dá a capacidade de, basicamente, quando você tem coisas mais complicadas, pagar mais, tanto em termos de latência quanto de custo", diz Kate Soule, Diretora de Gerenciamento de Produto Técnico da IBM Research, no podcast.
O funcionamento interno de grandes modelos de linguagem (LLMs) tem sido tradicionalmente opaco. Um modelo receberia um prompt e geraria uma resposta, sem revelar suas etapas de raciocínio interno.
O raciocínio híbrido muda essa dinâmica expondo o processo de pensamento passo a passo de um modelo. Quando ativados, sistemas como o Granite 3.2 mostram seu trabalho, tornando visíveis os caminhos lógicos que seguem.
"Nossa decisão de tornar o processo de raciocínio de Claude visível reflete a consideração de vários fatores. Um desses fatores inclui melhor experiência do usuário e transparência de confiança no processo de raciocínio de Claude", disse o porta-voz da Anthropic. "Isso fornece aos usuários uma insight sobre como as conclusões são alcançadas, promovendo níveis adequados de confiança e compreensão. Os usuários geralmente confiam mais nas produções quando podem observar a cadeia de pensamento. Esperamos que essa visibilidade permita que os usuários avaliem melhor a qualidade e a abrangência do raciocínio de Claude e ajude os usuários a entender melhor os recursos de Claude. Além disso, esperamos que usuários e desenvolvedores possam criar prompts melhores lendo a produção de pensamento de Claude e fornecendo feedback sobre etapas de raciocínio específicas.
"Poder expor o pensamento real do modelo é ótimo para a explicabilidade", diz Daniels. "Antes de conseguir demonstrar o raciocínio da cadeia de pensamento (CoT), era realmente apenas a próxima probabilidade de token. Então, meio que uma caixa-preta."
Essas tecnologias têm aplicações de negócios que se estendem por muitos setores. "Finanças e jurídico são ajustes naturais porque lidam com documentação estruturada", diz Daniels, acrescentando que "qualquer setor regulamentado pode obter um valor enorme" com esses modelos de pensamento avançados.
Mas o raciocínio híbrido pode ser especialmente útil em domínios que exigem análises complexas.
"Matemática e código são realmente os dois pontos de foco que observei em termos de benchmark para raciocínio", diz Daniels. Para o desenvolvimento de software, os benefícios podem ser substanciais: "Usar um modelo de pensamento seria capaz de enquadrar como deve ser o escopo do projeto, dados os requisitos que você estabeleceu", diz ele.
LLMs padrão geram respostas prevendo a próxima palavra mais provável com base em padrões em seus dados de treinamento. Essa abordagem funciona bem para muitas tarefas, mas esses modelos podem ter dificuldades com problemas de raciocínio em várias etapas.
Modelos de raciocínio híbrido podem mudar para um modo computacionalmente intensivo, gerando explicitamente etapas de raciocínio intermediárias antes de fornecer uma resposta final. O modelo usa essas etapas para resolver problemas complexos, semelhante à forma como os humanos escrevem etapas intermediárias ao resolver problemas matemáticos complexos.
A arquitetura que permite o raciocínio híbrido baseia-se no que os pesquisadores chamam de "test-time compute," que envolve a dedicação de recursos computacionais durante a inferência e não apenas durante o treinamento.
"Muitas vezes, tradicionalmente, todo o seu poder seria usado para treinar o modelo, e então a inferência do modelo seria relativamente leve em termos de requisitos computacionais", diz Daniels.
Mas, à medida que os sistemas de IA ficam mais complexos, o desafio não será apenas o poder de processamento - mas também saber quando usá-lo de forma eficiente. É por isso que a próxima fronteira para o raciocínio híbrido, diz Daniels, será a autorregulação mais inteligente: ensinar à IA quando ativar seu modo de pensamento mais profundo por conta própria, sem que os humanos peçam para fazer isso.
"O próximo passo em termos de modelos de raciocínio, ou modelos de raciocínio híbridos, é como podemos entender melhor ou fazer uma melhor triagem das inputs dentro da computação de tempo de teste, ou dentro do framework", diz ele.
