La IA generativa comienza con un modelo fundacional, un modelo de aprendizaje profundo que sirve de base para múltiples tipos de aplicaciones de IA generativa. Los modelos fundacionales más comunes hoy en día son los modelos de lenguaje grandes (LLM), creados para aplicaciones de generación de texto, pero también hay modelos básicos para la generación de imágenes, videos, sonido y música, así como modelos fundacionales multimodales que pueden admitir varios tipos de generación de contenido.
Para crear un modelo fundacional, los profesionales entrenan un algoritmo de aprendizaje profundo en enormes volúmenes de datos en bruto, no estructurados y sin etiquetar; por ejemplo, terabytes de datos extraídos de Internet o de alguna otra fuente de datos de gran tamaño. Durante el entrenamiento, el algoritmo realiza y evalúa millones de ejercicios de "rellenar los espacios en blanco", intentando predecir el siguiente elemento de una secuencia; por ejemplo, la siguiente palabra de una frase, el siguiente elemento de una imagen, el siguiente comando de una línea de código, y ajustándose continuamente para minimizar la diferencia entre sus predicciones y los datos reales (o resultado "correcto").
El resultado de este entrenamiento es una red neuronal de parámetros(representaciones codificadas de las entidades, patrones y relaciones en los datos) que pueden generar contenido de forma autónoma en respuesta a entradas o instrucciones.
Este proceso de entrenamiento requiere un uso intensivo de recursos informáticos, consume mucho tiempo y es costoso: requiere miles de unidades de procesamiento de gráficos (GPU) agrupadas y semanas de procesamiento; además, todo esto cuesta millones de dólares. Los proyectos de modelos fundacionales de código abierto, como Llama-2 de Meta, permiten a los desarrolladores de IA generativa evitar este paso y sus costos.