Was sind Foundation Models?

Was sind Foundation Models?

Foundation-Modelle sind künstliche Intelligenz-Modelle (KI), die auf riesigen Datensätzen trainiert werden und ein breites Spektrum allgemeiner Aufgaben erfüllen können. Sie dienen als Basis oder Bausteine für die Entwicklung speziellerer Anwendungen.

Ihre Flexibilität und ihre enorme Größe unterscheiden sie von herkömmlichen Modellen des maschinelles Lernens, die auf kleineren Datensätzen trainiert werden, um bestimmte Aufgaben wie Objekterkennung oder Trend-Forecasting zu erfüllen. Foundation Models nutzen Transferlernen, um das bei einer Aufgabe erlernte Wissen auf eine andere anzuwenden. Dadurch sind sie für umfangreichere Bereiche wie Computer Vision, Verarbeitung natürlicher Sprache (NLP) und Spracherkennung geeignet.

Forscher des Center for Research on Foundation Models und des Institute for Human-Centered Artificial Intelligence der Stanford University haben in einem Artikel aus dem Jahr 2021 den Begriff „Foundation Models“ geprägt. Sie beschreiben diese Modelle als „Paradigmenwechsel“ und erläutern die Gründe für ihre Benennung: „[Ein] Foundation Model ist selbst unvollständig, dient aber als gemeinsame Basis, auf der viele aufgabenspezifische Modelle durch Anpassungen aufgebaut werden. Wir haben auch den Begriff „Fundament“ gewählt, um die Bedeutung der architektonischen Stabilität und Sicherheit zu verdeutlichen: Ein schlecht ausgeführtes Fundament ist ein Rezept für eine Katastrophe und ein gut ausgeführtes Fundament ist eine zuverlässige Grundlage für zukünftige Anwendungen.“1

Wie funktionieren Foundation Models?

Der Aufbau eines Foundation Models umfasst oft eine Reihe von Schritten, die der Entwicklung eines herkömmlichen Modells für maschinelles Lernen ähneln:

  1. Datenerfassung
  2. Auswahl der Modalität
  3. Definieren der Modellarchitektur
  4. Weiterbildung
  5. Evaluierung

1. Datenerfassung

Der erste Schritt besteht darin, einen riesigen Korpus von Daten aus verschiedenen Quellen zusammenzustellen. Dieses weitreichende Spektrum ungekennzeichneter, unstrukturierter Daten ermöglicht es Foundation Models, Muster abzuleiten, Beziehungen und Kontexte zu erkennen und ihr Wissen zu verallgemeinern.

2. Auswahl der Modalität

Modalität bezieht sich auf die Art von Daten, die ein Modell verarbeiten kann, einschließlich Audio, Bilder, Softwarecode, Text und Video. Foundation Models können entweder unimodal oder multimodal sein. Unimodale Modelle sind für die Verarbeitung eines einzigen Datentyps konzipiert, z. B. den Empfang von Texteingaben und die Erzeugung von Textausgaben. Multimodale Modelle können Informationen aus mehreren Modalitäten kombinieren, z. B. einen Prompt aufnehmen und ein Bild erstellen oder schriftliche Transkripte aus einer Sprachaufnahme erstellen.

3. Definition der Modellarchitektur

Viele Foundation Models verwenden eine Deep-Learning-Architektur, die mehrschichtige neuronale Netze nutzt, um den Entscheidungsfindungsprozess des menschlichen Gehirns nachzuahmen.

Eine Art von Deep-Learning-Modell, das als Transformer-Modell bekannt ist, hat sich als bevorzugte Architektur für Foundation Models erwiesen, insbesondere für jene für NLP wie die Generative Pre-Trained Transformer (GPT)-Modellreihe. Hier ist ein kurzer Überblick über die Transformer-Architektur:

  • Encoder transformieren Eingabesequenzen in numerische Darstellungen, sogenannte Einbettungen, die die Semantik und Position von Token in der Eingabesequenz erfassen.

  • Ein Selbstaufmerksamkeitsmechanismus ermöglicht es Transformern, ihre „Aufmerksamkeit“ auf die wichtigsten Token in der Eingabesequenz zu richten, unabhängig von ihrer Position.

  • Decoder nutzen diesen Selbstaufmerksamkeitsmechanismus und die Einbettungen der Encoder, um die statistisch wahrscheinlichste Ausgabesequenz zu generieren.

Diffusionsmodelle sind eine weitere Architektur, die in Foundation Models implementiert wird. Diffusionsbasierte neuronale Netze „diffundieren“ Trainingsdaten allmählich mit zufälligem Rauschen und lernen dann, diesen Diffusionsprozess umzukehren, um die Originaldaten zu rekonstruieren. Diffusionsmodelle werden hauptsächlich in Text-zu-Bild-Foundation Models wie Imagen von Google, DALL-E von OpenAI (ab DALL-E 2) und Stable Diffusion von Stability AI verwendet.

4. Training

Das Training umfasst in der Regel selbstüberwachtes Lernen, bei dem die Foundation Model inhärente Korrelationen in nicht gekennzeichneten Daten lernen. Das Training erfolgt also über mehrere Iterationen, wobei die Modellgewichtungen angepasst werden, um Prognosefehler zu minimieren, und Hyperparameter so abgestimmt sind, dass die optimalen Konfigurationsvariablen für das Training gefunden werden. Regularisierungs-Methoden können auch angewendet werden, um eine Überanpassung zu korrigieren (wenn ein Modell zu eng oder sogar genau an die Trainingsdaten angepasst ist) und um die Generalisierungsfähigkeit eines Foundation Models zu verbessern.

5. Evaluierung

Die Leistung eines Foundation Model kann mithilfe standardisierter Benchmarks validiert werden. Die Ergebnisse dieser Bewertungen können als Grundlage für weitere Verbesserungen oder Leistungsoptimierungen dienen.

Anpassung von Foundation Models

Die Entwicklung eines Foundation Models von Grund auf kann ein kostspieliger, rechenintensiver und zeitaufwändiger Prozess sein. Aus diesem Grund könnten Unternehmen in Erwägung ziehen, bestehende Foundation Models an ihre speziellen Bedürfnisse anzupassen. Der Zugriff auf diese Modelle kann über eine Programmierschnittstelle (API) oder über eine lokale Kopie des Modells erfolgen.

Hier sind zwei gängige Ansätze zur Anpassung:

Feinabstimmung

Bei der Feinabstimmung passt ein vorab trainiertes Foundation Model sein Allgemeinwissen an eine bestimmte Aufgabe an. Dies beinhaltet ein weiteres Training mittels überwachtem Lernen an einem kleineren, domänenspezifischen oder aufgabenspezifischen Datensatz, der gekennzeichnete Beispiele enthält. Die Parameter des Modells werden aktualisiert, um seine Leistung bei der Aufgabe zu optimieren.

Da bei der Feinabstimmung die Parameter eines Modells verändert werden, kann sich dies auf die Leistung des Modells bei anderen Aufgaben auswirken. Auch das Erstellen eines gekennzeichneten Datensatzes ist ein langwieriger Prozess.

Prompting

Bei dieser Methode wird ein Prompt bereitgestellt, um ein Foundation Model auf eine bestimmte Aufgabe zuzuschneiden. Der Prompt erfolgt in Form von aufgabenbezogenen Anweisungen oder aufgabenrelevanten Beispielen, die ein Modell leiten und es ihm ermöglichen, Kontext zu gewinnen und eine plausible Ausgabe zu generieren – eine Fähigkeit, die als kontextbezogenes Lernen bekannt ist.

Während das Prompting kein Training des Modells oder eine Änderung seiner Parameter erfordert, kann es mehrere Versuche dauern, bis man den richtigen Prompt erhält, der ein Modell dazu bringt, den Kontext zu verstehen und passende Vorhersagen zu treffen.

Anwendungsfälle für Foundation Models

Die Anpassungsfähigkeit und der universelle Einsatzbereich von Foundation Models ermöglichen ihren Einsatz in verschiedenen realen Anwendungsbereichen: 

  • Computer Vision

  • Verarbeitung natürlicher Sprache

  • Gesundheitswesen

  • Robotertechnik

  • Generierung von Software-Code

Computervision

Foundation Models können verwendet werden, um Bilder zu generieren und zu klassifizieren und Objekte zu erkennen, zu identifizieren und zu beschreiben. DALL-E, Imagen und Stable Diffusion sind Beispiele für Text-zu-Bild-Foundation Models.

Verarbeitung natürlicher Sprache

Große Sprachmodelle (Large Language Models, LLMs) sind eine Klasse von Foundation Models, die sich durch NLP und Natural Language Understanding (NLU) auszeichnen. Ihre Funktionen umfassen unter anderem die Beantwortung von Fragen, die Zusammenfassung von Texten, die Transkription, Übersetzung und Untertitelung von Videos.

Hier sind einige beliebte Foundation Models im NLP-Bereich:

  • BERT (Bidirectional Encoder Representations from Transformers) war eines der ersten Foundation Models. Dieses 2018 von Google veröffentlichte Open-Source-KI-System wurde nur auf einem Klartext-Korpus trainiert.2

  • BLOOM ist ein frei zugängliches, mehrsprachiges Sprachmodell, das auf 46 Sprachen trainiert wurde. Es ist das Ergebnis einer Zusammenarbeit zwischen Hugging Face und BigScience, einer Gemeinschaft von KI-Forschern.3

  • Claude ist die Familie der Foundation Models von Anthropic mit fortgeschrittenen Schlussfolgerungs- und mehrsprachigen Verarbeitungsfunktionen.

  • GPT, das Foundation Model von OpenAI, ist das Rückgrat von ChatGPT, dem generativen KI-Chatbot des Unternehmens. GPT-3.5 unterstützt die kostenlose Version von ChatGPT, während GPT-4 hinter der Premium-Version steckt. Die GPT-4-Serie ist auch das generative KI-Modell, das den KI-Assistenten Copilot von Microsoft unterstützt.

  • Granite ist die führende Serie der IBM® LLM-Foundation Models, die auf einer reinen Decoder-Transformer-Architektur basieren. Das Chat-Modell Granite 13b ist für Dialog-Anwendungsfälle optimiert und funktioniert gut mit virtuellem Agenten und Chat-Apps. Das mehrsprachige Modell Granite ist darauf trainiert, Text in englischer, deutscher, spanischer, französischer und portugiesischer Sprache zu verstehen und zu generieren.

  • PaLM 2 ist das Sprachmodell der nächsten Generation von Google mit verbesserten mehrsprachigen und argumentativen Funktionen.

Gesundheitswesen

Im Gesundheitswesen können Foundation Models bei einer Reihe von Aufgaben helfen. Von der Erstellung von Zusammenfassungen von Patientenbesuchen und der Recherche in der medizinischen Literatur bis hin zur Beantwortung von Patientenfragen, der Zuordnung von Patienten zu klinischen Studien und der Unterstützung der Arzneimittelforschung. Das Sprachmodell Med-PaLM 2 kann beispielsweise medizinische Fragen beantworten, und Google entwickelt eine multimodale Version, die Informationen aus medizinischen Bildern synthetisieren kann.4

Robotertechnik

Im Bereich der Robotertechnik können Foundation Models Robotern helfen, sich schnell an neue Umgebungen anzupassen und über verschiedene Aufgaben, Szenarien und Maschinenausführungen hinweg zu generalisieren. Das in PaLM-E verkörperte multimodale Sprachmodell beispielsweise überträgt Wissen aus den sprachlichen und visuellen Domänen von PaLM auf Robotertechniksysteme und wird anhand von Robotersensordaten trainiert.5

Generierung von Software-Code

Foundation Models können bei der Vervollständigung, dem Debugging, Erklären und Generieren von Code in verschiedenen Programmiersprachen helfen. Zu diesen Text-zu-Code-Foundation Models gehören Claude von Anthropic, Codey und PaLM 2 von Google sowie die Granite Code-Modellfamilie von IBM, die anhand von 116 Programmiersprachen trainiert wurde.

Wie können Unternehmen bei so vielen Optionen das richtige Foundation Model für die KI-Entwicklung auswählen? Das folgende sechsstufige Framework für die Auswahl von KI-Modellen kann Ihnen weiterhelfen:

Vorteile von Foundation Models

Die Weiterentwicklung von Foundation Models kann zu Automatisierung und Innovation in Unternehmen führen. Hier sind weitere Vorteile, die Unternehmen durch Foundation Models erzielen können:

Beschleunigte Time-to-Value und Zeit zum Skalieren: Durch die Übernahme bestehender Modelle entfallen die Entwicklungs- und Vortrainingsphasen, sodass Unternehmen fein abgestimmte Modelle schnell anpassen und bereitstellen können.

Zugang zu Daten: Unternehmen müssen keine großen Datenmengen für das Vortraining zusammenstellen, für deren Beschaffung sie möglicherweise nicht die Mittel haben.

Grundlegende Genauigkeit und Leistung: Die Foundation Models wurden bereits auf Genauigkeit und Leistung geprüft und bieten einen qualitativ hochwertigen Ausgangspunkt.

Geringere Kosten: Unternehmen müssen nicht mehr in die Ressourcen investieren, die für die Erstellung eines Foundation Models von Grund auf erforderlich sind.

Herausforderungen von Foundation Models

Wie andere KI-Modelle sind auch die Foundation Models mit den Risiken der KI konfrontiert. Dies ist ein Faktor, den Sie im Auge behalten sollten, wenn Unternehmen Foundation Models als die Technologie betrachten, die ihren internen Workflows oder kommerziellen KI-Anwendungen zugrunde liegt.

Verzerrung: Ein Modell kann aus der in den Trainingsdaten vorhandenen menschlichen Verzerrung lernen, und diese Verzerrung kann sich auf die Ausgaben von fein abgestimmten Modellen auswirken.

Rechenaufwand: Die Verwendung vorhandener Foundation Models erfordert immer noch viel Arbeitsspeicher, fortschrittliche Hardware wie GPUs (Grafikprozessoren) und andere Ressourcen für die Feinabstimmung, die Bereitstellung und die Wartung.

Datenschutz und geistiges Eigentum: Foundation Models können mit Daten trainiert werden, die ohne die Zustimmung oder das Wissen ihrer Eigentümer gewonnen wurden. Bei der Eingabe von Daten in Algorithmen ist Vorsicht geboten, um Urheberrechte Dritter nicht zu verletzen oder personenbezogene oder geschützte Geschäftsinformationen nicht offenzulegen.

Umweltbelastung: Das Training und der Betrieb von groß angelegten Foundation Models erfordern energieintensive Berechnungen, die zu erhöhten Kohlenstoffemissionen und einem höheren Wasserverbrauch beitragen.

Halluzinationen: Die Überprüfung der Ergebnisse von KI Foundation Models ist unerlässlich, um sicherzustellen, dass sie sachlich korrekte Ausgaben liefern.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen
Fußnoten

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models und Stanford Institute for Human-Centered Artificial Intelligence, 2021

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 November 2018

3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6. Juli 2022

4 Med-PaLM, Google Research, Abgerufen am 8. Oktober 2024

5 PaLM-E: An embodied multimodal language model, Google Research, 10. März 2023