AI generatif dimulai dengan model dasar, yaitu model pembelajaran mendalam yang berfungsi sebagai dasar untuk berbagai jenis aplikasi AI generatif berbeda. Model dasar yang paling umum saat ini adalah model bahasa besar (LLM) yang dibuat untuk aplikasi pembuatan teks, tetapi ada juga model dasar untuk pembuatan gambar, pembuatan video, dan pembuatan suara dan musik, serta model dasar multimodal yang dapat mendukung beberapa jenis pembuatan konten.
Untuk membuat model dasar, para praktisi melatih algoritma pembelajaran mendalam data mentah, tidak terstruktur, dan tidak berlabel dengan volume yang besar, seperti data berukuran terabyte yang diambil dari internet atau sumber data sangat besar lainnya. Selama pelatihan, algoritma melakukan dan mengevaluasi jutaan latihan 'mengisi bagian yang kosong', mencoba memprediksi elemen berikutnya dalam suatu urutan, seperti kata berikutnya dalam sebuah kalimat, elemen berikutnya dalam sebuah gambar, perintah berikutnya dalam sebuah baris kode, dan terus menyesuaikan diri untuk meminimalkan perbedaan antara prediksi dan data aktual (atau hasil yang 'benar').
Hasil dari pelatihan ini adalah neural networks dari parameter, representasi yang dikodekan dari entitas, pola, dan hubungan dalam data, yang dapat menghasilkan konten secara mandiri sebagai respons terhadap input atau prompt.
Proses pelatihan ini sangat intensif dalam hal komputasi, memakan waktu, dan mahal: proses ini membutuhkan ribuan unit pemrosesan grafis (GPU) dalam kluster dan pemrosesan selama berminggu-minggu, yang semuanya menghabiskan jutaan dolar. Proyek model dasar sumber terbuka, seperti Llama-2 Meta, memungkinkan pengembang gen AI untuk menghindari langkah ini dan biayanya.