Um modelo generativo é um modelo de aprendizado de máquina projetado para criar novos dados semelhantes aos seus dados de treinamento. Os modelos de IA generativa aprendem os padrões e distribuições dos dados de treinamento e, em seguida, aplicam esses entendimentos para gerar novo conteúdo em resposta a novos dados de entrada.
O ato de geração de conteúdo é o que separa os modelos de IA generativa de outros tipos de IA. Os modelos generativos são redes neurais avançadas que imitam a estrutura do cérebro humano e aplicam algoritmos complexos de aprendizado de máquina para processar dados de treinamento e criar novos resultados.
Os modelos de IA generativa e seus desenvolvedores têm sido os principais impulsionadores do zeitgeist da IA nos últimos anos. Esses modelos continuam dominando a cobertura de notícias relacionadas à IA e atraem considerável atenção e investimento.
IA generativa é um tipo de IA que utiliza modelos sofisticados para gerar novos conteúdos de acordo com um prompt de input. O modelo generativo é o programa de computador que emprega dados e algoritmos para facilitar a prática da IA generativa. Os casos de uso de IA generativa incluem resumo de texto, geração de texto e geração de imagem, bem como modelagem 3D e criação de áudio.
Modelos generativos funcionam identificando padrões e distribuições em seus dados de treinamento e aplicando esses achados à geração de novos dados com base nos inputs do usuário. O processo de treinamento ensina o modelo a reconhecer distribuições de probabilidade conjunta das características nos dados de treinamento. Em seguida, o modelo utiliza o que aprendeu para criar novos exemplos de dados semelhantes aos dados de treinamento.
Os modelos generativos são tipicamente treinados com técnicas de aprendizado não supervisionado: quando são alimentados com uma massa de dados não rotulados e os classificam por conta própria. Os modelos descobrem a distribuição dos dados, que é como eles cultivam a lógica interna que utilizam para criar novos dados.
Durante o treinamento, o modelo aplica uma função de perda para medir a lacuna entre os resultados do mundo real e as previsões do modelo. O objetivo do treinamento é minimizar a função de perda, trazendo as produções o mais próximo possível da realidade.
A geração de conteúdo é um processo probabilístico. Os modelos generativos não sabem as coisas da mesma forma que os humanos. Em vez disso, um modelo generativo utiliza equações matemáticas complicadas para prever a produção mais provável com base nas regras aprendidas durante o treinamento.
Os modelos generativos tentam criar novos dados de uma determinada classe. Modelos discriminativos separam itens em grupos conhecidos, enquanto modelos de agrupamento identificam como organizar itens em um conjunto de dados. Modelos preditivos fazem estimativas sobre ocorrências ou estados futuros com base em dados históricos.
Modelos discriminativos são utilizados em tarefas de aprendizado supervisionado nas quais os rótulos ou categories dos dados são conhecidos. Muitos modelos discriminativos são classificadores que tentam identificar as relações entre recursos e rótulos e, então, atribuem rótulos de classe a novos dados com base na probabilidade condicional desses rótulos.
Por exemplo, um modelo discriminativo treinado para diferenciar entre imagens de peixes e pássaros pode adivinhar se é mais provável que as imagens são de peixes ou pássaros. O reconhecimento de imagens, um tipo de classificação em aprendizado de máquina, é uma aplicação comum dos modelos discriminativos.
Enquanto os modelos gerativos e os modelos discriminativos têm diferenças distintas, geralmente trabalham juntos como em uma rede adversária gerativa (GAN).
Modelos de agrupamento são utilizados em tarefas de aprendizado não supervisionado para reunir registros dentro de um conjunto de dados agrupados. Eles podem identificar itens semelhantes e também aprender o que separa esses itens de outros grupos no conjunto de dados.
Os modelos de agrupamento não possuem conhecimento prévio sobre os itens do conjunto de dados, incluindo a quantidade de grupos que podem existir. Um pesquisador de mercado pode utilizar um modelo de clustering para identificar personas de compradores dentro de seus públicos-alvo.
Modelos preditivos processam dados históricos para fazer previsões sobre eventos futuros com aprendizado de máquina e análise estatística. Eles são frequentemente utilizados para ajudar os líderes de negócios a tomarem decisões baseadas em dados. Os modelos preditivos também alimentam serviços de texto preditivo, software de reconhecimento facial, detecção de fraude e soluções de cadeia de suprimentos.
Os modelos generativos recebem dados não rotulados durante o treinamento. Fazem engenharia reversa dos critérios de categorização. Dado um rótulo específico, quais são as características que fazem um ponto de dados receber esse rótulo? Os modelos generativos desejam prever os recursos de um rótulo e, em seguida, utilizar esses recursos para gerar novos exemplos desses dados.
Um modelo generativo treinado para produzir imagens de animais pode tentar criar a imagem de um peixe com base naquilo que considera ser a diferença entre peixe e outros animais. A geração de imagens é uma utilização frequente dos modelos generativos.
Existem muitos tipos de modelos generativos, cada um com sua própria arquitetura de definição: a estrutura do modelo que rege o funcionamento. Modelos generativos profundos são um subtipo de modelos generativos que utilizam estruturas de neural Networks de deep learning, as deep neural networks, para entender relacionamentos complicados e multifacetados entre pontos de dados em um conjunto de dados.
Os modelos autorregressivos preveem o próximo ponto de dados em uma sequência com base em instâncias de dados anteriores. Os transformadores se destacam em tarefas de processamento de linguagem natural (PLN) devido à sua capacidade reforçada de processamento de contexto.
Os modelos de difusão criam novos dados adicionando gradualmente ruído a um conjunto de dados e, em seguida, descobrindo como remover o ruído e gerar saída.
As redes adversárias generativas (GANs) unem um modelo discriminativo e generativo em uma competição com o objetivo de que o gerador crie saída que engane o discriminador.
Os codificadores automáticos variacionais (VAEs) comprimem os dados de input com um codificador e, em seguida, revertem o processo com um decodificador para criar novos dados semelhantes.
Os modelos baseados em fluxo aprendem as relações entre distribuições simples e complexas de dados por meio de operações matemáticas reversíveis.
Os modelos autorregressivos preveem o próximo item de uma sequência com base nos itens anteriores. Eles avaliam os componentes na sequência para determinar a correlação probabilística entre eles e, em seguida, utilizam essas informações para identificar um novo componente que provavelmente viria em seguida.
A autorregressão é um tipo de regressão linear, técnica estatística que prevê o valor de uma variável com base nos valores de uma ou mais variáveis. A autorregressão restringe o foco à variável-alvo, mas considera seus valores ao longo do tempo. A autorregressão também difere da regressão logística na medida em que prevê valores definidos, enquanto a última produz uma chance percentual de ocorrência de um evento específico.
Os modelos autorregressivos assumem a forma de redes neurais recorrentes (RNNs) ou arquiteturas de transformadores.
Surgidos pela primeira vez em 20171, os modelos de transformadores rapidamente superaram os RNNs, que até então eram a principal forma de modelo autorregressivo. O transformador resolveu várias fraquezas evidentes do RNN. Os RNNs tiveram dificuldade em capturar dependências de longo alcance, relacionamentos entre itens de distância em uma sequência, e eram ineficientes em termos de computação porque processavam itens em sequência, um a um.
Os transformadores introduziram duas inovações que ultrapassaram a arquitetura das RNNs e as tornaram o padrão de fato para grandes modelos de linguagem (LLMs) em IA gerativa:
Processamento paralelo: os transformadores processam todos os itens em uma sequência simultaneamente, melhorando a eficiência em relação às RNNs sequenciais. Os transformadores podem ser treinados em muito menos tempo, especialmente com os conjuntos de dados em grande escala necessários para o melhor desempenho do LLM.
Mecanismos de autoatenção: os transformadores podem considerar a importância relativa de todos os itens em uma sequência ao processarem itens. A autoatenção permite que os transformadores capturem relações importantes entre itens distantes em uma série, possibilitando uma compreensão contextual que as RNNs não tinham. A capacidade de processar contexto em grandes sequências de input leva os transformadores a se destacarem em tarefas de PLN, como geração de texto e tradução de idiomas.
Entre os três tipos de modelos transformadores: codificadores, decodificadores e codificadores-decodificadores, os dois últimos incluem componentes autorregressivos. Os decodificadores funcionam como a parte generativa, utilizando autorregressão para criar tokens com base nos gerados anteriormente.
Os modelos autorregressivos, especialmente os transformadores, são amplamente utilizados atualmente. Muitos dos principais modelos de IA generativa são transformadores, incluindo o GPT e o GPT-4o da OpenAI, o Claude da Anthropic, o Llama da Meta, o Gemini do Google e o Granite da IBM.
Os casos de uso do modelo autorregressivo são:
Processamento de linguagem natural: Os Transformadores podem processar consultas de linguagem natural complexas e responder de forma conversacional com geração automatizada de texto, o que os torna ideais para uso como chatbots. Por exemplo, o ChatGPT é a implementação de chatbot da OpenAI de seu modelo generativo do GPT. Outros aplicativos de PNL são análise de sentimentos, reconhecimento de voz, aplicativos de Text to Speech e resumo de documentos.
Compatível com programação: os mesmos recursos autorregressivos que possibilitam que os transformadores se destaquem na geração de texto também possibilitam que eles depurem código e gerem trechos de código.
Forecasting de séries temporais: a autorregressão pode ser facilmente aplicada à Forecasting de séries temporais, na qual um modelo prevê valores futuros com base em tendências anteriores. A forecasting de séries temporais é frequentemente aplicada à modelagem financeira, previsões de mercado e previsões meteorológicas.
Aprendizado por reforço: os transformadores começaram a ser utilizados no aprendizado por reforço, técnica de treinamento de aprendizado de máquina que ensina a tomada de decisões autônoma. Os transformadores também estão sendo aplicados a tarefas de classificação.
Modelos de difusão gradualmente ofuscam ou difundem os dados de input adicionando ruído e, em seguida, refinam a bagunça que criaram gerando dados novos e semelhantes. Geram novos dados aprendendo a refinar o ruído em dados semelhantes aos seus conjuntos de dados de treinamento. Os modelos de difusão funcionam por meio de um processo de três estágios:
Passo 1: Difusão: durante o treinamento, o modelo introduz ruído gradualmente em seus dados de input até os dados não serem mais reconhecíveis. O modelo adiciona uma pequena quantidade de ruído gaussiano aos dados em cada etapa de um processo matemático conhecido como cadeia de Markov.
Imagine o processo de difusão como um guitarrista girando lentamente o botão de ganho do microfone até o som da guitarra se tornar uma parede de pura estática. É assim que os guitarristas de rock conseguem sons distorcido em sua música, embora normalmente não tanto.
Etapa 2: Aprendizado: o modelo acompanha a evolução dos dados agora destruídos para entender como foram alterados durante o processo de ruído. Os modelos de difusão repetem esse processo em cada estágio de ruído.
Etapa 3: Difusão reversa: entendendo como o ruído altera os dados, o modelo de difusão aprende a reverter o processo de ruído e reconstruir os dados de input. O objetivo da difusão reversa é viajar para trás na cadeia de Markov, removendo o ruído gaussiano até permanecerem somente os dados puros. O guitarrista do Step 1 foi chamado para uma conversa séria com seus colegas de banda e está reduzindo o ganho para um nível aceitável.
As etapas 1 e 2 são aplicadas para treinar modelos de difusão. Após o treinamento, esses modelos geram dados na reversão do processo de difusão de ruído aleatório para "encontrar" os dados solicitados pelo prompt do usuário.
Os modelos de difusão, frequentemente utilizados na geração de imagens, também possuem outros casos de uso importantes. Suas aplicações incluem:
Geração de imagens: os modelos de difusão tornaram possíveis as principais ferramentas de geração e síntese de imagens, como Midjourney, Stable Diffusion e DALL-E 2 da OpenAI. Esses modelos geram imagens em resposta a prompts do usuário. Os modelos de difusão podem gerar imagens realistas de alta qualidade, inclusive de rostos humanos.
O Escritório de Direitos Autorais dos EUA decidiu em 2023 que imagens geradas por IA não têm direito à proteção de direitos autorais. Enquanto isso, vários processos judiciais em andamento2 acabarão determinando se imagens geradas por IA são consideradas violações de direitos autorais.
Inpainting e outpainting: inpainting é o processo de inclusão ou remoção de conteúdo em uma imagem, enquanto outpainting expande uma imagem além de suas bordas originais.
Modelagem 3D: o DreamFusion do Google e o Magic3D da NVIDIA são modelos de difusão que criam modelos 3D a partir de inputs de texto.
Pesquisa de mercado: os modelos de difusão mostram como as coisas evoluem com o tempo, o que os torna úteis para entender como os consumidores reagem a um produto.
Detecção de anomalias: como podem aprender como os dados mudam com o passar do tempo, os modelos de difusão podem identificar quando os pontos de dados não se encaixam nas tendências estabelecidas. Detecção de anomalias incluem segurança cibernética, prevenção de fraudes e detecção de doenças.
Introduzidas em 2014, as redes generativas adversárias (GANs) estão entre os primeiros tipos de modelos de IA generativa que combinam dois modelos em uma competição. Um modelo generativo cria produções que um modelo discriminador deve classificar como autênticas ou falsas. O objetivo da competição é que o gerador produza conteúdo que passe por autêntico ao ser julgado pelo discriminador.
Se o gerador é um falsificador de arte, o discriminador é um autenticador de arte. Um negociante pode adquirir uma obra falsificada e tentar vendê-la a um museu, mas não antes de a obra passar por uma autenticação. À medida que o falsificador melhorar na imitação dos grandes mestres, o autenticador poderá ter dificuldades para detectar as falsificações subsequentes. Em pouco tempo, o museu estará exibindo uma coleção cheia de obras falsificadas.
O mesmo processo de treinamento que gera resultados realistas pode levar ao colapso de modos: quando o gerador exclui parte dos dados de treinamento e se restringe a um conjunto limitado de tipos de amostras. Tanto GANs quanto modelos de difusão e transformers exigem conjuntos massivos de dados de treinamento para alcançar um desempenho eficaz.
Ambas as redes em uma GAN geralmente são redes neurais convolucionais (CNNs), um tipo inicial de rede neural notável por seu forte desempenho em tarefas de visão computacional.
GANs são usadas principalmente no campo da visão computacional e em outras tarefas relacionadas a imagens.
Visão computacional: a visão computacional é o uso de aprendizado de máquina para processar informações de imagens. As tarefas comuns de visão computacional incluem detecção e classificação de objetos, reconhecimento facial, tradução em linguagem de sinais e rastreamento de objetos.
Aumento de dados: O aumento de dados, o uso de dados preexistentes para criar mais amostras de dados, pode impulsionar ainda mais o desempenho da visão computacional com CNNs. Esse processo difere dos dados sintéticos porque se expande em dados reais em vez de gerar algo do zero.
Os codificadores automáticos variacionais (VAEs) comprimem os dados de entrada e depois expandem ou decodificam essa compressão para gerar novos dados semelhantes. Os VAEs aprendem a distribuição de um conjunto de dados de treinamento e aplicam essas expectativas gerando novos dados a partir de amostras codificadas. Como todos os autoencoders, os VAEs são compostos por dois componentes: um codificador e um decodificador.
O trabalho do codificador é aprender as variáveis latentes em um conjunto de dados. Variáveis latentes não são diretamente observáveis, mas desempenham um papel significativo na distribuição de dados. Espaço latente é o nome coletivo para todas as variáveis latentes em um conjunto de dados. O codificador modela o espaço latente de uma forma que captura as informações necessárias para reconstruir os dados com precisão. Todas as outras variáveis são omitidas.
O decodificador utiliza a representação comprimida dos dados, conhecida como gargalo, e a extrapola de volta à forma original dos dados. Um decodificador eficiente gera uma saída semelhante aos dados originais antes da compressão.
Os VAEs enfrentam dificuldades em tarefas de geração de imagens em comparação com modelos de difusão e GANs, mas se destacam em outras áreas.
Geração de imagens: os VAEs são utilizados na geração de imagens, embora, com os principais aplicativos de geração de imagens, os modelos de difusão os tenham substituído amplamente. Em comparação com outros geradores de imagens, os VAEs tendem a produzir imagens mais borradas devido à sua “média” do espaço latente.
Genômica: VAEs auxiliam geneticistas no cálculo de valores genéticos, ou seja, o benefício esperado que um animal oferecerá à sua descendência, e na atribuição de índices de risco de doenças.
Detecção de anomalias: os VAEs são mais baratos e fáceis de treinar do que os GANs e os difusores, tornando-os uma opção atraente para tarefas de detecção de anomalias. Os dados recriados são comparados aos dados originais para isolar as instâncias que se desviam da distribuição projetada.
Imputação de dados: os VAEs podem gerar novos dados para substituir dados ausentes e restaurar arquivos corrompidos. Os exemplos incluem a limpeza de arquivos de áudio e vídeos de redução de ruído, bem como imagens médicas. Embora os VAEs tendam a gerar imagens borradas do zero, eles podem restaurar imagens borradas preexistentes eliminando o ruído da imagem.
Aprendizado semissupervisionado: os VAEs ajudam a treinar classificadores capturando distribuições de dados em conjuntos de dados com rotulagem incompleta. Os VAEs também podem realizar aumento de dados para gerar amostras de treinamento extras para o classificador.
Os modelos baseados em fluxo aprendem a distribuição de dados por meio de uma série de transformações matemáticas invertíveis ou reversíveis. Os dados podem progredir sem perdas por meio desse pipeline, conhecido como fluxo de normalização em qualquer direção. Enquanto VAEs e GANs estimam distribuições de dados, modelos baseados em fluxo aprendem explicitamente a função de densidade de probabilidade para o conjunto de dados.
Em um determinado conjunto de dados, a função de densidade de probabilidade descreve como os dados são distribuídos. Os fluxos de normalização progridem de distribuições simples para complexas até que a função de densidade de probabilidade da variável-alvo seja identificada.
Modelos baseados em fluxo podem gerar novas amostras de dados que preservam as mesmas propriedades estatísticas do conjunto de dados original. Assim como em todo modelo generativo, o processo se baseia no conceito de extrair amostras dos dados de treinamento e aplicar matemáticas estatísticas complexas para produzir resultados semelhantes e inovadores.
Os modelos baseados em fluxo são ideais em situações em que a avaliação exata da distribuição de dados é fundamental.
Geração de imagem: modelos baseados em fluxo geram imagens executando ruído amostrado aleatoriamente por meio de fluxos de normalização para produzir uma imagem nítida. O PixelCNN é um notável modelo de geração de imagens de 2016 que aplica autorregressão à sequência de transformações, modelando imagens pixel por pixel.
Estimativa precisa da densidade: a estimativa de densidade é o desafio de identificar a função de densidade de probabilidade de um conjunto de dados com base em dados observáveis. Embora os modelos baseados em fluxo possam representar com precisão distribuições de dados complexas, eles têm dificuldade para capturar dependências de longo alcance quando comparados aos transformadores.
Geração de gráficos moleculares: modelos baseados em fluxo encontraram utilização na geração de gráficos moleculares, em que novas estruturas moleculares são modeladas como gráficos por modelos de IA generativa. A geração de gráficos moleculares é uma ferramenta importante para ajudar cientistas e engenheiros na descoberta de novos medicamentos e materiais.
Os mesmos processos que muitas vezes levam a resultados impressionantes também são o que causam alucinações nos modelos generativos: quando produzem informações incorretas ou enganosas. Alucinações ou confabulações ocorrem quando os modelos percebem padrões em seus conjuntos de dados de treinamento que não existem no mundo real.
Por exemplo, o prompt para o ChatGPT-4o mini com a pergunta "Em qual episódio de Seinfeld Kramer vai para Bangladesh?" retornou esta resposta:
Kramer viaja para Bangladesh no episódio intitulado “The Little Jerry”, que é o 145.º episódio de Seinfeld. É o 145º [sic] episódio do programa e foi ao ar originalmente durante a 8.ª temporada. Neste episódio, Kramer se envolve em um esquema para importar um brinquedo de Bangladesh.
Embora The Little Jerry seja o 145.º episódio de Seinfeld e foi ao ar na 8ª temporada, ele apresenta Kramer comprando e treinando um galo, o homônimo Little Jerry. Ao enviar o prompt ao chatbot novamente com a mesma pergunta, ele retornou uma segunda alucinação diferente:
Kramer vai para Bangladesh no episódio intitulado "As Maldivas", o 18.º episódio da 9ª temporada. Nesse episódio, ele tenta começar uma nova vida após sua viagem e o enredo gira em torno de sua ideia de tornar-se pescador bangladês".
Na realidade, o episódio 18 da 9.ª temporada de Seinfeld é The Frogger e nesse episódio Kramer vai somente à delegacia de polícia. Não há um episódio de Seinfeld chamado As Maldivas e em nenhum momento durante toda a exibição do programa Kramer vai para Bangladesh.
Assim como modelos autorregressivos como o GPT são conhecidos por alucinar com fatos inventados, outros tipos de modelos podem alucinar de suas próprias maneiras. Os modelos de difusão utilizados na geração de imagens às vezes representam objetos do mundo real de maneiras que não correspondem à realidade.
Embora ainda não seja possível eliminar completamente a possibilidade de os modelos de IA generativa apresentarem alucinações, as melhores práticas para mitigá-las são:
Solicitações claras: quanto mais explícita for a solicitação do usuário, mais precisa poderá ser a resposta da IA. Dê espaço à IA no prompt para responder com detalhes.
Direção dedicada: definir um papel claro para a IA e orientá-la a apresentar informações verídicas e verificáveis pode ajudar a garantir que suas respostas reflitam melhor a realidade.
Dados de alta qualidade: quanto mais atuais e relevantes forem os dados de treinamento de um modelo de IA, menor será a chance de suas respostas serem tendenciosas.
Verificação humana: os resultados gerados por IA não devem ser utilizados sem serem primeiro verificados por humanos experientes.
RAG e ajuste fino: usar o RAG para aumentar uma IA com dados confiáveis e modelos de ajuste fino para se tornar mais específica de um domínio são eficazes na redução de alucinações.
1. Attention Is All You Need, Vaswani et al, 2 Aug 2023
2. Artists Score Major Win in Copyright Case Against AI Art Generators, Winston Cho, The Hollywood Reporter, 13 de agosto de 2024
3. Diffusion-GAN: Training GANs with Diffusion, Wang et al, 25 de agosto de 2023
Aprenda como os CEOs podem equilibrar o valor que a IA generativa pode criar com o investimento que ela exige e os riscos que ela introduz.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.
Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
O IBM® Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Aprofunde-se nos três elementos críticos de uma estratégia de IA forte: gerar vantagem competitiva, escalar a IA em toda a empresa e avançar na IA confiável.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.