A IA generativa começa com um modelo de base, um modelo de deep learning que serve de base para vários tipos diferentes de aplicações de IA generativa. Os modelos de base mais comuns atualmente são grandes modelos de linguagem (LLMs), criados para aplicações de geração de texto, mas também há modelos de base para geração de imagens, geração de vídeo, geração de som e música, bem como modelos de base multimodais, compatíveis com vários tipos de geração de conteúdo.
Para criar um modelo de base, os profissionais treinam um algoritmo de deep learning em grandes volumes de dados brutos, não estruturados e não rotulados — por exemplo, terabytes de dados retirados da internet ou de alguma outra fonte de dados enorme. Durante o treinamento, o algoritmo executa e avalia milhões de exercícios de "preencher o espaço em branco", tentando prever o próximo elemento em uma sequência (por exemplo, a próxima palavra em uma frase, o próximo elemento em uma imagem, o próximo comando em uma linha de código) e se ajustando continuamente para minimizar a diferença entre suas previsões e os dados reais (ou resultado "correto").
O resultado desse treinamento é uma rede neural de parâmetros (representações codificadas das entidades, padrões e relacionamentos nos dados) que podem gerar conteúdo de forma autônoma em resposta a entradas, ou prompts.
Esse processo de treinamento tem um uso intenso de computação, é demorado e caro: requer milhares de unidades de processamento gráfico em clusters (GPUs) e semanas de processamento, o que custa milhões de dólares. Projetos de modelo de base de código aberto, como o Llama-2 da Meta, permitem que os desenvolvedores de IA generativa evitem essa etapa e seus custos.