Autoren

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist ein Modellkollaps?

Der Begriff „Modellkollaps“ bezieht sich auf die abnehmende Leistung von generativen KI-Modellen, die auf KI-generierten Inhalten trainiert werden.

Ein gängiges Sprichwort in der KI-Entwicklung und Informatik besagt, dass ein Modell der künstlichen Intelligenz (KI) nur so gut ist wie die Daten, mit denen es trainiert wurde. In den letzten Jahren haben Forscher herausgefunden, dass generative Modelle, die ausschließlich auf der Grundlage der Ergebnisse ihrer Vorgänger trainiert werden, zunehmend ungenaue Ergebnisse liefern. Diese Modelle, die mit „irreversiblen Fehlern“ behaftet sind, werden schließlich unbrauchbar.1 Dies geschieht, weil alle Fehler, die bei der Anpassung in der Ausgabe eines Modells auftreten, später in das Training seines Nachfolgers einfließen. Dann produziert das neue Modell auch seine eigenen Fehler. Das Modell des Zusammenbruchs schreitet voran, da sich Fehler mit nachfolgenden Generationen häufen.2

Diese Fehler treten auf, weil generative KI-Modelle Datensätze mit weniger Variation erzeugen als ursprüngliche Datenverteilungen. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao und ein Team von Forscherkollegen an britischen und kanadischen Universitäten haben einen viel zitierten Bericht über den Zusammenbruch von Modellen verfasst. Durch Experimente mit KI-Modellen fand das Team heraus, dass Modelle, die mit KI-generierten Daten, auch als synthetische Daten bekannt, trainiert wurden, zunächst Informationen aus den Rändern oder Extremen der tatsächlichen Datenverteilung verloren – was sie als „frühen Modellkollaps“ bezeichneten. In späteren Modelliterationen konvergierte die Datenverteilung so stark, dass sie fast nicht mehr mit den Originaldaten übereinstimmte – was die Forscher als „späten Modellkollaps“ bezeichneten.3

In realen Szenarien kann es aufgrund der Trainingsprozesse, die für große generative KI-Modelle wie große Sprachmodelle (LLMs) verwendet werden, zu einem Modellkollaps kommen. LLMs werden hauptsächlich mit von Menschen generierten Daten aus dem Internet trainiert. Je mehr KI-generierte Inhalte jedoch im Internet verbreitet werden, desto mehr könnten sie anstelle von menschlich generierten Daten zum Trainieren zukünftiger Modelle verwendet werden, was möglicherweise zu einem Zusammenbruch der Modelle führen könnte.

Das Phänomen des Modellkollapses hat schwerwiegende Auswirkungen auf die KI-Entwicklung und veranlasst Forscher dazu, verschiedene Lösungen vorzuschlagen. Zu solchen Lösungen gehören die Nachverfolgung der Datenherkunft, die Aufrechterhaltung des Zugriffs auf die ursprünglichen Datenquellen und die Kombination gesammelter KI-generierter Daten mit realen Daten zum Training von KI-Modellen.

Was sind die Folgen eines Modellkollapses?

Generative KI-Modelle haben in den letzten Jahren für Schlagzeilen gesorgt, da sie ungenaue und unsinnige Ergebnisse liefern, die auch als KI-Halluzinationen bezeichnet werden. Zum Beispiel machte der Chatbot von Google Bard eine falsche Behauptung über das James-Webb-Weltraumteleskop, während die Tendenz, dass KI-generierte Bilder von Menschen zusätzliche Finger besitzen, allgegenwärtig ist.

Während ungenaue und unsinnige Ergebnisse zwar lästig und manchmal auch unterhaltsam sind, können die Folgen eines Modellkollapses auch weitreichend sein:

Schlechte Entscheidungsfindung

Ungenaue Ergebnisse aufgrund eines Modellzusammenbruchs können kostspielige Folgen für Unternehmen haben, die KI bei der Entscheidungsfindung einsetzen. Alles, von Chatbots im Kundenservice bis hin zu KI-gestützten medizinischen Diagnosetools, könnte betroffen sein. Stellen Sie sich zum Beispiel ein KI-Diagnosemodell vor, das bei einem Patienten eine seltene Krankheit nicht richtig diagnostiziert, weil die Erkrankung mit geringer Wahrscheinlichkeit irgendwann vergessen und aus den Trainingsdatensätzen in früheren Modellgenerationen entfernt wurde.

Benutzerabmeldung

Bei einem Zusammenbruch des Modells könnten Modelle abgelegene Datenpunkte im Zusammenhang mit realen menschlichen Interaktionen und Präferenzen verwerfen. Daher könnten Benutzer, die weniger beliebte oder einzigartige Inhalte suchen, von den Ergebnissen der Modelle enttäuscht sein.4 Nehmen wir zum Beispiel ein KI-Empfehlungssystem für Online-Käufer: Wenn ein Verbraucher limettengrüne Schuhe bevorzugt, das System aber ständig schwarze und weiße Schuhe empfiehlt, weil diese Bestseller sind, könnte der Verbraucher geneigt sein, sich anderweitig umzusehen.

Wissensrückgang

Wenn weit verbreitete KI-Systeme, die einen Modellkollaps erleiden, immer engere Ergebnisse liefern, könnten „Long-Tail“-Ideen schließlich aus dem öffentlichen Bewusstsein verschwinden, was den Umfang des menschlichen Wissens einschränkt und gängige Verzerrungen in der Gesellschaft verschärft.Zum Beispiel können sich Wissenschaftler heute für Studien, die ihre Forschung unterstützen, KI-gestützte Forschungswerkzeuge zunutze machen. Allerdings könnten Tools, die von einem Modellkollaps betroffen sind, nur weit verbreitete Studien zur Überprüfung bereitstellen, wodurch den Nutzern möglicherweise wichtige Informationen vorenthalten werden, die zu wichtigen Entdeckungen führen könnten.

Wie wirkt sich der Modellkollaps auf verschiedene generative KI-Modelle aus?

Die verschiedenen Arten generativer KI-Modelle sind anfällig für unterschiedliche Auswirkungen eines „Modellkollapses“.

Große Sprachmodelle (Large Language Models, LLMs)

Bei LLMs kann sich ein Zusammenbruch des Modells in zunehmend irrelevanten, unsinnigen und sich wiederholenden Textausgaben äußern. In einem Experiment haben Forscher OPT-125M, ein von Meta veröffentlichtes Large-Language-Modell mit offenem Quellcode, verfeinert. Generationen des Modells wurden anhand der von ihren Vorgängern erzeugten Daten trainiert. Nach einem ersten englischsprachigen Input zum Thema Architektur erstellte eine Modellgeneration schließlich eine Ausgabe über Kaninchen mit verschiedenfarbigen Schwänzen.6

Bilderzeugende Modelle

Der Modellkollaps macht sich besonders bei bildgebenden Modellen bemerkbar, da die Qualität, Vielfalt und Präzision der Bildausgabe abnimmt. In einem Experiment wurde ein Variational Autoencoder (VAE) mit einem Datensatz eindeutiger, handgeschriebener Zahlen trainiert. Nach mehreren iterativen Trainingszyklen ergaben spätere Generationen des Modells Ausgaben, in denen viele der Ziffern einander ähnelten.7 Eine andere Studie, die ein Generative Adversarial Network (GAN)-Modell umfasste, das auf verschiedenen Gesichtsbildern trainiert wurde, ergab, dass das Modell schließlich homogenere Gesichter hervorbrachte.8

Gaußsche Mischmodelle (GMMs)

Gaußsche Mischungsmodelle können Daten in Clustern organisieren, aber Forscher haben herausgefunden, dass ein GMM, das mit der Trennung von Daten in zwei Cluster beauftragt wurde, nach einigen Dutzend Iterationen deutlich schlechter abschnitt. Die Wahrnehmung des Modells der zugrunde liegenden Datenverteilung änderte sich im Laufe der Zeit und bei der 2000. Iterationsgeneration zeigte die Ausgabe nur noch eine sehr geringe Varianz.9

In welcher Beziehung steht der Kollaps von KI-Modellen zu anderen Phänomenen der Modellverschlechterung?

Der Modellkollaps ist eines von mehreren Phänomenen der Modellverschlechterung, die beim maschinellen Lernen beobachtet werden. Andere sind katastrophales Vergessen, Zusammenbruch des Modus, Modelldrift und performative Vorhersage. Jedes weist Ähnlichkeiten mit dem Modellkollaps auf, unterscheidet sich jedoch von diesem.

Katastrophales Vergessen

Sowohl beim katastrophalen Vergessen als auch beim Modellkollaps gehen Informationen in KI-Systemen verloren. Das katastrophale Vergessen ist jedoch etwas anderes als ein Modellkollaps. Katastrophales Vergessen tritt auf, wenn ein einzelnes Modell neue Informationen lernt und frühere Informationen „vergisst“, was zu einer Leistungsverschlechterung führt, wenn dieses Modell auf eine Aufgabe angewendet wird, die die Verwendung der älteren Informationen erfordert. Der Modellkollaps unterscheidet sich davon, da er einen Leistungsabfall über aufeinanderfolgende Modellgenerationen hinweg und nicht den Verlust von Daten und die Verschlechterung der Leistung innerhalb eines Modells umfasst.10

Modenkollaps

Obwohl der Name dem Modellkollaps ähnelt, ist der Modenkollaps ein Phänomen, das spezifisch für GAN-Modelle ist. Solche Modelle bestehen aus zwei verschiedenen Teilen – einem Generator und einem Diskriminator –, die bei der Erzeugung synthetischer Daten helfen, die statistisch gesehen echten Daten ähneln. Der Generator ist für die Erstellung der Daten zuständig, während der Diskriminator als kontinuierliche Überprüfung des Prozesses dient und Daten identifiziert, die nicht authentisch erscheinen. Ein Modenkollaps tritt auf, wenn die Ausgangsleistung des Generators nicht variiert und dieser Fehler vom Diskriminator nicht erkannt wird, was zu einer Leistungsminderung führt.

Modelldrift

Modelldrift bezieht sich auf die Verschlechterung der Leistung eines maschinellen Lernmodells aufgrund von Änderungen in den Daten oder in den Beziehungen zwischen Eingabe- und Ausgabevariablen. Modelle, die auf historischen Daten basieren, können stagnieren. Wenn das Training eines KI-Modells, das auf alten Trainingsdaten basiert, nicht mit den eingehenden Daten übereinstimmt, kann es diese Daten nicht genau interpretieren oder die eingehenden Daten nicht für zuverlässige und genaue Vorhersagen verwenden. Der Modellkollaps ist anders, weil er das Training von Modellen auf neuen, KI-generierten Daten in iterativen Zyklen umfasst.

Performative Vorhersage

Forscher haben den Modellkollaps in generativen KI-Modellen mit der performativen Vorhersage in überwachten Lernmodellen verglichen, da beide die Verschmutzung von Trainingssätzen durch frühere Eingaben von maschinellen Lernmodellen beinhalten. Eine operative Vorhersage liegt vor, wenn der Output eines überwachten Lernmodells die Eine performative Vorhersage liegt vor, wenn die Ausgabe eines überwachten Lernmodells die Ergebnisse in der realen Welt so beeinflusst, dass sie mit der Vorhersage des Modells übereinstimmen. Dies wiederum beeinflusst die zukünftigen Modellausgaben und führt zu einer „sich selbst erfüllenden Prophezeiung“. Die performative Vorhersage wird auch als Fairness-Feedback-Schleife bezeichnet, wenn dieser Prozess Diskriminierung festigt.11 So kann beispielsweise ein KI-gestütztes Modell zur Entscheidung über Wohnungsbaudarlehen, das mit Daten aus der Ära des diskriminierenden Redlining in den USA trainiert wurde, Kreditgeber dazu verleiten, diese Diskriminierung heute versehentlich zu wiederholen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Think Newsletter. 

Wie kann ein Modellkollaps verhindert werden?

Verschiedene Strategien könnten KI-Entwicklern und Unternehmen dabei helfen, einen Zusammenbruch des Modells zu verhindern. Dazu gehören:

  • Aufbewahrung von Nicht-KI-Datenquellen
  • Bestimmung der Datenherkunft
  • Nutzung der Datenakkumulation
  • Verwendung besserer synthetischer Daten
  • Implementierung von Data-Governance-Tools

Aufbewahrung von Nicht-KI-Datenquellen

Hochwertige Originaldatenquellen können wichtige Abweichungen liefern, die in einigen KI-generierten Daten fehlen könnten. Wenn sichergestellt wird, dass KI-Modelle weiterhin mit solchen von Menschen generierten Daten trainiert werden, kann die Fähigkeit von KI-Systemen erhalten bleiben, gute Leistungen zu erbringen, wenn sie mit der Berücksichtigung von Ereignissen mit geringer Wahrscheinlichkeit beauftragt werden, wie z. B. ein Verbraucher, der ein ungewöhnliches Produkt bevorzugt, oder ein Wissenschaftler, der von Informationen in einer selten zitierten Studie profitiert. Unter solchen Umständen mag das Ergebnis nicht üblich oder beliebt sein, aber es ist dennoch am genauesten.

Bestimmung der Datenherkunft

In Informationsökosystemen kann es schwierig sein, zwischen modellgenerierten und menschengenerierten Daten zu unterscheiden. Eine Koordination zwischen LLM-Entwicklern und KI-Forschern könnte jedoch dazu beitragen, den Zugang zu Informationen über die Datenherkunft zu gewährleisten. Eine dieser koordinierten Bemühungen ist die Data Provenance Initiative, ein Zusammenschluss von KI-Forschern des MIT und anderer Universitäten, der mehr als 4.000 Datensätze geprüft hat.12

Nutzung der Datenakkumulation

Laut einer Studie können KI-Entwickler Leistungseinbußen vermeiden, indem sie KI-Modelle sowohl mit realen Daten als auch mit mehreren Generationen synthetischer Daten trainieren. Diese Anhäufung steht im Gegensatz zur Praxis, Originaldaten vollständig durch KI-generierte Daten zu ersetzen.13

Verwendung besserer synthetischer Daten

KI-Entwickler, die sich mit der Datenerfassung befassen, könnten auch von Verbesserungen der Qualität synthetischer Daten profitieren, die speziell für Trainingszwecke im Bereich maschinelles Lernen erstellt werden. Fortschritte bei den Algorithmen zur Datengenerierung können dazu beitragen, die Zuverlässigkeit synthetischer Daten zu verbessern und ihren Nutzen zu erhöhen. Im Gesundheitswesen können synthetische Daten beispielsweise sogar dazu verwendet werden, eine größere Bandbreite an Szenarien für Trainingsmodelle bereitzustellen, was zu besseren Diagnosefähigkeiten führt.

Implementierung von KI-Governance-Tools

KI-Governance-Tools können KI-Entwicklern und Unternehmen dabei helfen, das Risiko einer nachlassenden KI-Leistung zu minimieren, indem sie die Überwachung und Kontrolle von KI-Systemen verbessern. Solche Tools können automatische Erkennungssysteme für Verzerrungen, Abweichungen, Leistung und Anomalien umfassen, die einen Zusammenbruch des Modells möglicherweise erkennen, bevor er sich auf das Endergebnis eines Unternehmens auswirkt.

Fußnoten

Links befinden sich außerhalb von ibm.com.

1, 3, 6, 7 “The Curse of Recursion: Training on Generated Data Makes Models Forget.” arXiv.org. 14. April 2024.

2The Internet Isn’t Completely Weird Yet; AI Can Fix That“. IEEE-Spektrum. 23. Juni 2023.

4, 5AI and the Problem of Knowledge Collapse“. arXiv.org. 22. April 2024.

8Breaking MAD: Generative AI could break the Internet“. Rice University News and Media Relations. 30. Juli 2024.

9, 10 Supplementary Information: AI models collapse when trained on recursively generated data“. Nature Portfolio. Abgerufen am 22. September 2024.

11Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias”. ACM-Konferenz über Fairness, Rechenschaftspflicht und Transparenz. Zugriff am 30. September 2024.

12Über“. Data Provenance Initiative. Zugriff am 23. September 2024.

13Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data“. arXiv.org. 29. April 2024.

Weiterführende Lösungen
IBM watsonx.governance

Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.

Entdecken sie watsonx.governance
KI-Governance-Lösungen

Erfahren Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Akzeptanz und Innovation zu beschleunigen und das Vertrauen Ihrer Kunden zu verbessern.

Entdecken Sie KI-Governance-Lösungen
Beratungsleistungen zur KI-Governance

Bereiten Sie sich auf die EU-Verordnung über künstliche Intelligenz vor und etablieren Sie mithilfe von IBM® Consulting einen verantwortungsvollen KI-Governance-Ansatz.

KI-Governance-Dienste entdecken
Machen Sie den nächsten Schritt

Steuern, verwalten und überwachen Sie Ihre KI mit einem einzigen Portfolio, um verantwortungsvolle, transparente und erklärbare KI voranzubringen.

watsonx.governance erkunden Buchen Sie eine Live-Demo