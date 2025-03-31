Enquanto modelos de raciocínio como o o1 da OpenAI, o DeepSeek-R1 e o Gemini 2.5 do Google competem pelos principais benchmarks de inteligência de IA, as empresas que buscam integrar a IA estão ficando cada vez mais cautelosas com algo chamado "inchaço do modelo", o fenômeno pelo qual os modelos se tornam desnecessariamente grandes ou complexos, impulsionando custos computacionais e tempo de treinamento do modelo, diminuindo a velocidade com que eles podem fornecer as respostas de que as empresas precisam.
O o1 da OpenAI e o DeepSeek-R1 utilizam o raciocínio em cadeia de pensamento (CoT) para dividir problemas complexos em etapas, alcançando um desempenho sem precedentes e maior precisão do que os modelos anteriores. Mas a CoT também exige recursos computacionais substanciais durante a inferência, levando a saídas demoradas e maior latência, diz Volkmar Uhlig, Vice-presidente e Líder de Portfólio de Infraestrutura de IA da IBM, em entrevista à IBM Think.
Entre em uma nova classe de técnicas de engenharia de prompt, descritas em vários novos artigos, que vão desde átomo de pensamento (AoT) até cadeia de rascunho (CoD), buscando aumentar a eficiência e precisão da CoT ajudando os modelos a resolver problemas mais rapidamente, reduzindo assim nos custos e na latência.
O cientista de IA e fundador de startups, Lance Elliott, vê os novos desdobramentos da cadeia de pensamento como variações no toolkit de um engenheiro de prompt. "Seu toolkit de trabalho manual típico pode ter um martelo comum — isso seria CoT", ele diz à IBM Think. "O AOT seria semelhante ao uso de um martelo especializado usado para situações envolvendo cortar e ajustar paredes de gesso. Você poderia usar um martelo comum para trabalhar com drywall, mas seria aconselhável usar um martelo para drywall se você tivesse um e soubesse como usá-lo adequadamente."
Vyoma Gajjar, Arquiteta de Soluções Técnicas de IA da IBM, vê potencial nesses novos primos da CoT, especialmente para empresas "que buscam maneiras mais econômicas de prompt pequenos modelos para obter respostas precisas para seus casos de uso específicos", diz ela.
Em contraste com a cadeia de pensamento, que resolve problemas complexos dividindo-os em etapas sequenciais e detalhadas, o AoT usa uma estratégia de divisão para conquistar. Especificamente, a AoT divide as etapas de um problema em "questões atômicas" que são processadas em paralelo, como explicam os autores de um artigo da Universidade de Ciência de Hong Kong e da Universidade de Renmin da China, e depois reúne as soluções individuais para chegar a uma resposta final. .
O AoT pode funcionar tanto como um framework independente quanto como um aprimoramento de plug-in. Quando os autores usaram o AoT com o GPT-4o mini da OpenAI, ele superou vários modelos de raciocínio em seis benchmarks, incluindo o3-mini em 3,4% e DeepSeek-R1 em 10,6% no conjunto de dados.
Gajjar vê potencial no AoT para aplicações empresariais que buscam equilibrar o desempenho com a manutenção de um determinado perfil de custo. "As tarefas separadas são executadas em paralelo, e então você permite que essas tarefas, ou 'átomos', se comuniquem entre si, para obter a solução mais precisa, como um elétron fala com um próton", diz ela em entrevista à IBM Think.
Os autores do artigo confirmam que o AoT alcança "desempenho competitivo a custos computacionais significativamente menores em comparação com os métodos existentes", acrescentando que "essa eficiência aprimorada pode ser atribuída à nossa representação de estado atômico que preserva apenas as informações necessárias enquanto elimina os cálculos redundantes".
No entanto, o AoT não funciona bem para todos os casos de uso. Elliott, o cientista de IA, diz que o AoT provavelmente será útil “ao usar a IA generativa para obter provas matemáticas, produzir código de programação e para tarefas de raciocínio altamente estruturadas”. E seria menos provável que melhorasse a eficiência com tarefas de escrita criativa e engajamento em conversas, diz ele.
Enquanto isso, o prompt da cadeia de rascunhos lida com o gargalo que pode ocorrer quando os modelos de raciocínio produzem etapas detalhadas e altamente detalhadas que aumentam a latência. Esse fenômeno representa uma diferença fundamental entre modelos de raciocínio e humanos, que tendem a “confiar em rascunhos concisos ou notas estenográficas para capturar insights essenciais sem elaborações desnecessárias”, escrevem os autores da Zoom Communications em um novo artigo sobre CoD.
"O problema da latência muitas vezes foi negligenciado", escrevem os autores do artigo. "No entanto, é crucial que muitas aplicações em tempo real tenham baixa latência e, ao mesmo tempo, mantenham respostas de alta qualidade."
Com os prompt dos CoD, um LLM é incentivado a produzir uma explicação concisa enquanto avança para uma resposta. Por exemplo, o prompt de controle da CoT dizia: “Pense passo a passo para responder à seguinte pergunta. Retorna a resposta no final da resposta após um separador ####.” Em contraste, o prompt do CoD instruiu o modelo a "pensar passo a passo, mas mantenha apenas um rascunho mínimo para cada etapa de pensamento, com no máximo cinco palavras. Retorna a resposta no final da resposta após um separador."
Usando o ChatGPT-4o da OpenAI e o Claude 3.5 Sonnet da Anthropic, os pesquisadores descobriram que o CoD igualava ou superava a CoT em precisão, utilizando 92,4% menos tokens, reduzindo o custo e a latência em várias tarefas de raciocínio.
“Estamos em um mundo totalmente novo de exploração algorítmica”, comenta Uhlig, da IBM. "Se você prompt treinar de forma diferente, poderá reduzir drasticamente o número de tokens. Este é um próximo passo muito natural.”
Embora muitas novas técnicas de engenharia de prompt continuem surgindo, uma chamada de "esqueleto de pensamento" (SoT) é notável por combinar elementos de átomo de pensamento e cadeia de rascunho. Os autores de um artigo que propõe a técnica dizem que foram motivados pelo "processo de escrita e pensamento dos humanos". O prompt do SoT orienta o LLM para gerar o estrutura de uma resposta e, em seguida, conclui o conteúdo de cada ponto do estrutura em paralelo.
Usando o esquema de pensamento, os autores da Universidade de Tsinghua, na China, e da Microsoft Research, conseguiram acelerar o funcionamento de vários LLMs, bem como melhorar a precisão das respostas em diversas categorias. "Mostramos a viabilidade da decodificação paralela de LLMs prontos para uso sem alterações em seu modelo, sistema ou hardware", eles escrevem.
Por exemplo, os pesquisadores fizeram ao modelo a pergunta: "Quais são as estratégias mais eficazes para resolução de conflitos no ambiente de trabalho?" Usando prompts do SoT, os autores diminuíram a latência de 22 segundos para 12 segundos (aceleração de 1,83x) com o Claude, e de 43 segundos para 16 segundos (aceleração de 2,69x) com Vicuna 33B V1,3.
Nenhuma das técnicas de engenharia de prompt funcionará para todos os desafios, a tarefa em questão determinará a opção mais eficiente no toolkit do engenheiro de prompt, diz Elliott. “Saber como a IA generativa funciona nos bastidores é altamente vantajoso”, explica ele. “É como dirigir um carro.” Você não precisa necessariamente conhecer os detalhes intrincados de como um motor ou transmissão funciona, mas pelo menos estar familiarizado com alguns princípios fundamentais pode ajudar muito a controlar melhor um automóvel. Você está mais bem preparado para situações como estradas cobertas de gelo, estradas úmidas, direção em estradas sinuosas e manejo de curvas apertadas.
Aprenda como os CEOs podem equilibrar o valor que a IA generativa pode criar com o investimento que ela exige e os riscos que ela introduz.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.
Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
O IBM® Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.