Generative KI beginnt mit einem Foundation Model. Dabei handelt es sich um ein Deep-Learning-Modell, das als Grundlage für mehrere verschiedene Arten von generativen KI-Anwendungen dient. Die gängigsten Foundation Models sind heute große Sprachmodelle (Large Language Models, LLM), die für Anwendungen zur Textgenerierung entwickelt wurden. Es gibt aber auch Foundation Models für die Generierung von Bildern, Videos und Sound sowie Musik. Darüber hinaus gibt es multimodale Foundation Models, die verschiedene Arten der Inhaltsgenerierung unterstützen.
Für die Erstellung eines Foundation Models trainieren die Experten einen Deep-Learning-Algorithmus anhand von riesigen Mengen an unstrukturierten, nicht gekennzeichneten Rohdaten. Das können zum Beispiel Terabytes an Daten sein, die aus dem Internet oder einer anderen riesigen Datenquelle stammen. Während des Trainings führt der Algorithmus Millionen von sogenannten „Fill in the Blank“-Übungen durch und wertet die Ergebnisse aus. Dabei versucht er, das nächste Element in einer Sequenz vorherzusagen, z. B. das nächste Wort in einem Satz, das nächste Element in einem Bild oder den nächsten Befehl in einer Codezeile. Dabei passt sich der Algorithmus ständig an, um die Differenz zwischen seinen Vorhersagen und den tatsächlichen Daten (oder dem „richtigen“ Ergebnis) zu minimieren.
Das Ergebnis dieses Trainings ist ein neuronales Netz von Parametern – also kodierte Repräsentationen der Entitäten, Muster und Beziehungen in den Daten –, die Inhalte automatisch als Reaktion auf Eingaben oder Prompts generieren können.
Dieser Trainingsprozess ist rechenintensiv, zeitaufwändig und teuer: Dafür sind Tausende von geclusterten GPUs (Graphics Processing Units) und wochenlange Verarbeitung erforderlich, was alles Millionen von Dollar kostet. Projekte für Foundation-Models auf Open-Source-Basis wie Llama-2 von Meta ermöglichen es Entwicklern von generativer KI, diesen Schritt und die damit verbundenen Kosten zu vermeiden.