La IA generativa comienza con un modelo fundacional , un modelo de deep learning que sirve de base para varios tipos diferentes de aplicaciones de IA generativa. Los modelos fundacionales más comunes hoy en día son los modelos de lenguaje de gran tamaño (LLM), creados para aplicaciones de generación de texto, pero también existen modelos fundacionales para la generación de imágenes, la generación de vídeo y la generación de sonido y música, así como modelos fundacionales multimodales compatibles con varios tipos de generación de contenidos.
Para crear un modelo fundacional, los profesionales entrenan un algoritmo de deep learning en enormes volúmenes de datos sin procesar, no estructurados y sin etiquetar; por ejemplo, terabytes de datos extraídos de internet o de alguna otra fuente de datos enorme. Durante el entrenamiento, el algoritmo realiza y evalúa millones de tareas que consisten en "rellenar los espacios en blanco", intentando predecir el siguiente elemento de una secuencia (p. ej., la siguiente palabra de una frase, el siguiente elemento de una imagen, el siguiente comando de una línea de código) y ajustándose continuamente para minimizar la diferencia entre sus predicciones y los datos reales (o resultado "correcto").
El resultado de este entrenamiento es una red neuronal de parámetros (representaciones codificadas de las entidades, patrones y relaciones de los datos) que puede generar contenidos de forma autónoma en respuesta a entradas o instrucciones.
Este proceso de entrenamiento requiere muchos cálculos, tiempo y dinero: requiere miles de unidades de procesamiento gráfico (GPU) agrupadas y semanas de procesamiento, todo lo cual cuesta millones de dólares. Los proyectos de modelos fundacionales de código abierto, como Llama-2 de Meta, permiten a los desarrolladores de IA generativa evitar este paso y sus costes.