Uma nova classe de modelos de IA está desafiando o domínio dos sistemas do tipo GPT, prometendo alternativas mais rápidas, baratas e potencialmente mais poderosas.
A Inception Labs, uma startup fundada por pesquisadores de Stanford, lançou recentemente o Mercury, um modelo de linguagem baseado em difusão (dLLM) que refina frases inteiras de uma só vez, em vez de prever palavras individualmente. Ao contrário dos grandes modelos de linguagem (LLMs) tradicionais, que usam uma abordagem autorregressiva, gerando uma palavra de cada vez, com base no texto anterior, os modelos de difusão aprimoram o texto iterativamente, por meio de refinamento.
"Os dLLMs expandem a fronteira de possibilidades", diz Stefano Ermon, professor de ciência da computação da Universidade de Stanford e cofundador da Inception Labs, ao IBM Think. "O Mercury oferece uma velocidade e uma eficiência incomparáveis e, ao aproveitar mais capacidade de computação em tempo de teste, os dLLMs também vão estabelecer um novo patamar de qualidade e elevar a satisfação geral dos clientes em aplicações de edge e corporativas."
O engenheiro de pesquisa da IBM, Benjamin Hoover, já percebe para onde as coisas estão caminhando: "É só uma questão de dois ou três anos até que a maioria das pessoas comece a usar modelos de difusão", diz ele. “Quando vi o modelo da Inception Labs, percebi: 'Isso vai acontecer mais cedo do que tarde'."
Os modelos de difusão não seguem as mesmas regras que a IA tradicional. Os modelos autorregressivos como o GPT constroem frases palavra por palavra, prevendo um token de cada vez. Se um modelo gera a frase "A quem possa interessar", ele prevê "A", depois "quem", depois "possa" e assim por diante, um passo de cada vez. Os modelos de difusão invertem a situação. Em vez de montar o texto pedaço por pedaço, eles começam com uma versão inicial bem crua e ruidosa do trecho inteiro e vão refinando o resultado em várias etapas. Pense nisso como um artista que primeiro faz um esboço geral bem solto e só depois vai ajustando os detalhes, em vez de desenhar cada elemento na ordem, um por um. Ao considerar a frase inteira de uma só vez, os modelos de difusão podem gerar respostas mais rapidamente, frequentemente com mais coerência e precisão do que os LLMs tradicionais.
Hoover vê a tecnologia como uma versão moderna de um conceito antigo. "Os modelos de difusão são, fundamentalmente, mecanismos de correção de erros", afirma ele. "Eles funcionam começando com um input ruidoso e removendo gradualmente o ruído até chegarem à produção desejada."
Os modelos de difusão têm sido amplamente utilizados na geração de imagens, com modelos como DALL·E, Stable Diffusion e Midjourney refinando imagens ruidosas em imagens de alta qualidade. No entanto, aplicar essa abordagem ao texto é mais difícil porque a linguagem exige uma estrita observância da gramática e da sintaxe.
"Muitas tentativas de aplicar modelos de difusão à geração de texto tiveram dificuldades no passado", diz Ermon. "O que permitiu que a Mercury tivesse sucesso onde outras falharam foi a inovação proprietária tanto nos algoritmos de treinamento quanto nos de inferência." Ao contrário das imagens, que podem ser gradualmente aprimoradas até se tornarem reconhecíveis, a linguagem segue regras gramaticais rígidas que tornam o refinamento iterativo mais complexo."
Hoover aponta o Mercury da Inception Labs como um excelente exemplo de como os modelos de difusão estão reduzindo essa lacuna. "Esse modelo provou que a difusão pode se sustentar por si só e é, na verdade, mais rápida e eficiente do que modelos autorregressivos comparáveis."
A eficiência dos LLMs baseados em difusão pode revolucionar a implementação da IA, particularmente em aplicações empresariais onde custo e velocidade são importantes. Os LLMs tradicionais exigem um poder computacional substancial, o que torna sua execução dispendiosa. Os modelos de difusão prometem oferecer um desempenho semelhante ou superior a uma fração do custo. Os modelos de difusão costumam ser mais eficientes porque refinam sequências inteiras paralelamente, em vez de gerar cada palavra passo a passo como os LLMs tradicionais, reduzindo a sobrecarga computacional.
"Nossos clientes e usuários pioneiros estão desenvolvendo aplicações baseadas em dLLMs em áreas como suporte ao cliente, vendas e jogos", diz Ermon. "Eles estão tornando suas aplicações mais responsivas, mais inteligentes e mais baratas."
Hoover prevê um impacto ainda mais amplo. "Atualmente, a IA está limitada pelo consumo de energia", afirma ele. "Os modelos de grande porte consomem grandes quantidades de energia. No entanto, os modelos de difusão funcionam de maneira diferente, permitindo uma eficiência muito maior. No longo prazo, poderemos ver sistemas de IA baseados em difusão funcionando em hardware analógico, reduzindo drasticamente os custos de energia."
A computação analógica que processa informações usando sinais elétricos contínuos em vez de operações binárias tem sido considerada há muito tempo uma solução potencial para o problema energético da IA. Hoover acredita que os modelos de difusão são particularmente adequados para essa abordagem.
"Esses modelos são inerentemente interpretáveis", diz ele. "Isso significa que podemos mapear seus cálculos internos diretamente em circuitos analógicos, algo muito mais difícil de fazer com as arquiteturas tradicionais de deep learning."
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.