L’intelligenza artificiale generativa parte da un foundation model, un modello di deep learning che funge da base per diversi tipi di applicazioni di AI generativa. Oggi i foundation model più comuni sono i modelli linguistici di grandi dimensioni (LMM), creati per applicazioni di generazione di testo, ma esistono anche foundation model per la generazione di immagini, video, audio e musica, nonché foundation model multimodali in grado di supportare diversi tipi di contenuti.
Per creare un foundation model, i professionisti addestrano un algoritmo di deep learning su enormi volumi di dati grezzi, non strutturati e non etichettati, come ad esempio terabyte di dati raccolti da Internet o da qualche altra enorme fonte di dati. Durante l’addestramento, l’algoritmo esegue e valuta milioni di esercizi di “riempimento degli spazi vuoti”, cercando di prevedere l’elemento successivo in una sequenza, ad esempio la parola successiva in una frase, l’elemento successivo in un’immagine, il comando successivo in una riga di codice, e regolandosi continuamente per ridurre al minimo la differenza tra le previsioni e i dati reali (o il risultato “corretto”).
Il risultato di questo addestramento è una rete neurale di parametri, ovvero rappresentazioni codificate di entità, modelli e relazioni nei dati, in grado di generare contenuti in modo autonomo in risposta agli input o ai prompt.
Questo processo di addestramento è ad alta intensità di calcolo, dispendioso in termini di tempo e molto costoso: richiede infatti migliaia di unità di elaborazione grafica (GPU) in cluster e settimane di elaborazione, il che costa milioni di dollari. I progetti di foundation model open source, come Llama-2 di Meta, consentono agli sviluppatori di GenAI di saltare questo passaggio e i relativi costi.