L'AI generativa parte da un "foundation model", un modello di deep learning che funge da base per diversi tipi di applicazioni di AI generativa.

I modelli di base più comuni oggi sono i modelli linguistici di grandi dimensioni (LM), creati per applicazioni di generazione di testo. Ma esistono anche foundation model per la generazione di immagini, video, suoni o musica e modelli di base multimodali in grado di supportare diversi tipi di contenuti.

Per creare un foundation model, i professionisti addestrano un algoritmo di deep learning su enormi volumi di dati grezzi, rilevanti, non strutturati e non etichettati, come terabyte o petabyte di testo, immagini o video dal web. L'addestramento produce una rete neurale di miliardi di parametri, ovvero rappresentazioni codificate di entità, pattern e relazioni nei dati, in grado di generare contenuti in modo autonomo in risposta ai prompt. Questo è il foundation model.

Questo processo di formazione è intenso in termini di calcolo, richiede tempo ed è costoso. Esso richiede infatti migliaia di unità di elaborazione grafica (GPU) in cluster e settimane di elaborazione e il costo si misura solitamente in milioni di dollari. I progetti di foundation model open source, come Llama-2 di Meta, permettono agli sviluppatori di gen AI di evitare questo passaggio e i relativi costi.