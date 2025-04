Ein gängiges Sprichwort in der KI-Entwicklung und Informatik besagt, dass ein Modell der künstlichen Intelligenz (KI) nur so gut ist wie die Daten, mit denen es trainiert wurde. In den letzten Jahren haben Forscher herausgefunden, dass generative Modelle, die ausschließlich auf der Grundlage der Ergebnisse ihrer Vorgänger trainiert werden, zunehmend ungenaue Ergebnisse liefern. Diese Modelle, die mit „irreversiblen Fehlern“ behaftet sind, werden schließlich unbrauchbar.1 Dies geschieht, weil alle Fehler, die bei der Anpassung in der Ausgabe eines Modells auftreten, später in das Training seines Nachfolgers einfließen. Dann produziert das neue Modell auch seine eigenen Fehler. Das Modell des Zusammenbruchs schreitet voran, da sich Fehler mit nachfolgenden Generationen häufen.2

Diese Fehler treten auf, weil generative KI-Modelle Datensätze mit weniger Variation erzeugen als ursprüngliche Datenverteilungen. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao und ein Team von Forscherkollegen an britischen und kanadischen Universitäten haben einen viel zitierten Bericht über den Zusammenbruch von Modellen verfasst. Durch Experimente mit KI-Modellen fand das Team heraus, dass Modelle, die mit KI-generierten Daten, auch als synthetische Daten bekannt, trainiert wurden, zunächst Informationen aus den Rändern oder Extremen der tatsächlichen Datenverteilung verloren – was sie als „frühen Modellkollaps“ bezeichneten. In späteren Modelliterationen konvergierte die Datenverteilung so stark, dass sie fast nicht mehr mit den Originaldaten übereinstimmte – was die Forscher als „späten Modellkollaps“ bezeichneten.3

In realen Szenarien kann es aufgrund der Trainingsprozesse, die für große generative KI-Modelle wie große Sprachmodelle (LLMs) verwendet werden, zu einem Modellkollaps kommen. LLMs werden hauptsächlich mit von Menschen generierten Daten aus dem Internet trainiert. Je mehr KI-generierte Inhalte jedoch im Internet verbreitet werden, desto mehr könnten sie anstelle von menschlich generierten Daten zum Trainieren zukünftiger Modelle verwendet werden, was möglicherweise zu einem Zusammenbruch der Modelle führen könnte.

Das Phänomen des Modellkollapses hat schwerwiegende Auswirkungen auf die KI-Entwicklung und veranlasst Forscher dazu, verschiedene Lösungen vorzuschlagen. Zu solchen Lösungen gehören die Nachverfolgung der Datenherkunft, die Aufrechterhaltung des Zugriffs auf die ursprünglichen Datenquellen und die Kombination gesammelter KI-generierter Daten mit realen Daten zum Training von KI-Modellen.