Was ist katastrophales Vergessen?

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Was ist katastrophales Vergessen?

Ein katastrophales Vergessen tritt auf, wenn neuronale Netze zuvor erlernte Aufgaben vergessen, nachdem sie mit neuen Daten trainiert oder für bestimmte Aufgaben einer Feinabstimmung unterzogen wurden. Dieses Phänomen, das auch als „katastrophale Interferenz“ bezeichnet wird, führt dazu, dass trainierte Netzwerke Informationen über alte Aufgaben verlieren, wenn sie in einem sequenziellen Lernprozess mit neuen Daten trainiert werden.

Viele Implementierungen künstlicher Intelligenz erfordern, dass sich Modelle für maschinelles Lernen an neue Anwendungsfall anpassen. Katastrophales Vergessen tritt auf, wenn der Trainingsprozess für die neuen Aufgaben das Verständnis des Modells für alte Aufgaben beeinträchtigt. Da neues Wissen das vorherige Lernen ersetzt, verliert das Modell die Fähigkeit, seine ursprünglichen Aufgaben zu bewältigen.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Warum tritt katastrophales Vergessen auf?

Erstmals 1989 von Michael McCloskey und Neal J. Cohen beobachtet ¹, kommt es zu katastrophalem Vergessen, das auf die Art und Weise zurückzuführen ist, wie sich Algorithmen des maschinellen Lernens an neue Datensätze anpassen. Der Trainingsprozess für Deep-Learning-Modelle, wie z. B. große Sprachmodelle (Large Language Models, LLMs), besteht darin, dass das Modell Daten ausgesetzt wird und seine Gewichtungen entsprechend aktualisiert werden kann. Eine Informatikarbeit² aus dem Jahr 2023 ergab, dass große Modelle stärker betroffen sind als kleinere.

Netzwerkgewichtungen, auch als Parameter eines Modells bezeichnet, sind der interne Regelsatz, der zur Erfassung von Mustern und Beziehungen in Datensätzen verwendet wird. Während des Trainings aktualisiert ein Algorithmus für maschinelles Lernen seine Gewichte iterativ gemäß einer Verlustfunktion: einer mathematischen Gleichung, die den Fehler in den Vorhersagen des Modells misst.

Ziel des Trainings ist es, die Verlustfunktion durch Methoden wie den Gradientenabstieg zu minimieren. Die Lernrate legt das Tempo fest, in dem ein Modell seine Gewichtungen während des Trainings aktualisiert.

Die Konfiguration der Gewichtungen eines Modells ist seine Wissensrepräsentation: eine mathematische Reflexion dessen, wie das Modell seine Trainingsdaten versteht. Wenn ein Modell seine Gewichtungen so weit anpasst, dass die neuen Werte für frühere Aufgaben nicht mehr relevant sind, verliert es die Fähigkeit, diese Aufgaben auszuführen. Beim Erlernen neuer Aufgaben hat das Modell „katastrophal“ oder völlig vergessen, wie man alte Aufgaben angeht.

Warum vergessen neuronale Netzwerke?

Neuronale Netze bestehen aus miteinander verbundenen Knoten, die die Neuronen im menschlichen Gehirn imitieren. Beim Lernen schafft das Gehirn Synapsen oder Verbindungen zwischen den Neuronen im Neocortex, der Region des Gehirns, die für höhere kognitive Fähigkeiten zuständig ist. Unterdessen ist der Hippocampus dafür verantwortlich, kurzfristige Erinnerungen in langfristige umzuwandeln und Wissen zu bewahren.

Auch wenn die Neurowissenschaften noch viel über das Gehirn entdecken müssen, wissen wir, dass das Gehirn durch interne Optimierung hervorragend funktioniert. Neuroplastizität oder Plastizität des Gehirns bezeichnet die Fähigkeit des Gehirns, sich für kontinuierliches Lernen umzustrukturieren. Synapsische Verbindungen, die häufiger genutzt werden, werden stärker, während solche, die seltener genutzt werden, abwerten und schließlich verschwinden.

Die Plastizität ermöglicht es Menschen, nach einer traumatischen Hirnverletzung verlorene Fähigkeiten wie Sprache oder Bewegung wiederzuerlangen. Ohne Neuroplastizität wäre der Mensch nicht in der Lage, im Zuge des Wachstums zu lernen. Das Gehirn von Babys und Kleinkindern hat eine größere Plastizität, weshalb sie im Vergleich zu typischen Erwachsenen so leicht Sprachen lernen können.

Künstliche neuronale Netze funktionieren ähnlich, indem sie ihre Gewichte an neue Daten anpassen, ähnlich wie das Gehirn neue synaptische Verbindungen knüpft. Die versteckten Schichten zwischen der Eingabe und der Ausgabe eines neuronalen Netzes können sich im Laufe der Zeit verschieben. Wenn neuronale Netze neuen Daten gegenüber bisherigem Wissen eine zu hohe Priorität einräumen, können sie ihre Gewichtungen übermäßig anpassen: Anstatt sein Wissen zu erweitern, ersetzt das Modell sein bisheriges Wissen effektiv durch die neuen Daten.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Die Auswirkungen des katastrophalen Vergessens

Katastrophales Vergessen kann erhebliche Auswirkungen auf die Leistung von Modellen des maschinellen Lernens haben, wie sie beispielsweise für generative KI-Apps verwendet werden. Wenn Modelle auf neue Anwendungsfälle angewendet werden, kann es aufgrund der Verschiebung ihrer Gewichte zu einer Modelldrift kommen, die schließlich zu einem katastrophalen Vergessen führt.

Katastrophales Vergessen kann sich negativ auf Folgendes auswirken:

Modelltraining und Ressourcennutzung: Modelle, die grundlegendes Wissen vergessen, müssen neu trainiert werden. Die LLMs, die führenden generativen KI-Services antreiben, kosten Millionen von Dollar für das Trainieren, einschließlich Ressourcen sowie Strom und Wasser für den Betrieb der Hyperscale-Rechenzentren, in denen sie untergebracht sind.
Bereitstellung von Modellen und Wartung von KI-Apps: Wenn die Leistung eines Modells abnimmt, treten auch die Leistungsprobleme der Apps, die es aufrufen, auf. Bei Edge-Implementierungen, in denen sich die Modelle an die lokalen Gegebenheiten anpassen müssen, kann das Risiko eines katastrophalen Vergessens steigen.
Autonomes Lernen: Experimentelle Lernsysteme können im Laufe der Zeit katastrophales Vergessen erleiden. Der Verlust von grundlegendem Wissen könnte dazu führen, dass diese Systeme weniger anpassungsfähig, zuverlässig und konsistent sind. Bei Robotertechnik und selbstfahrenden Autos könnten diese Effekte besonders gefährlich werden.

Überwindung des katastrophalen Vergessens

Forscher und andere Experten haben eine Reihe von Techniken vorgeschlagen, um dem katastrophalen Vergessen entgegenzuwirken. In einem bahnbrechenden Artikel, der 2017 von James KIrkpatrick, Andrei A. Rusi und anderen veröffentlicht wurde, untersuchten sie eine Methode, die auf der Verlangsamung der Lernrate für Gewichtungen basiert, die für ältere Aufgaben relevant sind. Im Jahr 2025 erforschte eine andere Gruppe von Computerwissenschaftlern den Einsatz von Backpropagation zur Überwindung des katastrophalen Vergessens (FUSSNOTE: https://arxiv.org/abs/2501.01045#).

Weitere Techniken zur Überwindung des katastrophalen Vergessens sind:

Regularisierung
Architektonische Lösungen
Ensemble-Methoden
Techniken zum Üben
Memory-Augmented Neural Networks (MANNs)

Regularisierung

Regularisierung ist eine Reihe von Techniken, die Modelle verallgemeinern, auch wenn die Gefahr besteht, dass die Verzerrungen zunehmen – sie passen sich leichter an neue Daten an. Die elastische Gewichtskonsolidierung (EWC) ist eine solche Technik, die der Verlustfunktion eine Strafe hinzufügt, um die Modellgewichte anzupassen, die für alte Aufgaben wichtig sind.

Synaptische Intelligenz funktioniert ähnlich und verhindert, dass das Modell wichtige Parameter ändert. Beide Techniken verringern die Wahrscheinlichkeit, dass das Modell Vorwissen verliert.

Architektonische Lösungen

Die Modellarchitektur beschreibt die Struktur eines neuronalen Netzes, einschließlich der Anzahl seiner Schichten und der Art und Weise, wie die Knoten verbunden sind. Jede Schicht ist einer anderen Funktion im KI-Workflow zugewiesen, z. B. der Vorhersage oder der Merkmalsextraktion.

Progressive Neural Networks (PNNs) fügen neuronale Netze für neue Aufgaben hinzu, während die Verbindungen in den neuronale Netzen für frühere Aufgaben verwendeten beibehalten werden. Das Modell kombiniert die Ausgaben aller Netzwerke und greift auch bei der Bearbeitung neuer Aufgaben auf sein älteres Wissen zurück.

Andere Netzwerke verwenden den dynamischen Gewichtungsdurchschnitt (DWA) während des Multi-Task-Lernens, um die Modellgewichte während des Trainings dynamisch anzupassen. Mit DWA können Modelle flexibel an unterschiedliche Aufgaben angepasst werden.

Ensemble-Methoden

Ensemble-Methoden kombinieren die Ausgaben mehrerer Modelle für zuverlässigere Ergebnisse. Lebenslanges Lernen Wälder sind zufällige Waldmodelle, die neue Wälder oder Entscheidungsbäume für neue Aufgaben hinzufügen – ähnlich wie PNNs neue Netzwerke hinzufügen, wenn ihre Workload zunimmt.

In der Zwischenzeit können aufgeteilte modulare Architekturen verhindern, dass neue Daten den Rest des Netzwerks verunreinigen. Aufgabenspezifische Module werden bei Bedarf aktiviert und bewahren das erworbene Wissen, wenn sie nicht benutzt werden.

Techniken zum Üben

Probetechniken setzen das Modell während des Trainings für neue Aufgaben mit alten Daten aus, um sicherzustellen, dass das Modell nicht katastrophal vergisst, was es zuvor gelernt hat. Erfahrungswiederholung ist eine Technik des Reinforcement-Learnings, bei der ein Modell vergangene Erfahrungen in einem separaten Datensatz speichert und dann während des Trainings zufällig Stichproben aus diesem Gedächtnis zieht.

Memory-Augmented Neural Networks (MANNs)

Speichererweiterte neuronale Netze sind eine vielversprechende Architektur, die neuronale Netze mit externem Speicher kombiniert. Bei der Verarbeitung von Eingabesequenzen, wie z. B. Prompts, können MANNs aus dem Speicher lesen und in den Speicher schreiben. Viele nutzen Aufmerksamkeitsmechanismen, um die wichtigsten Komponenten für jede Aufgabe zu isolieren.

Das episodische Gradientengedächtnis (GEM) ist ein Beispiel für MANN, das es KI-Modellen ermöglicht, vergangene Erfahrungen zu speichern und abzurufen, um Informationen für neue Aufgaben bereitzustellen und zuvor erworbenes Wissen zu bewahren.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

Steigern Sie Ihre ML-Expertise

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Bericht „AI in Action“

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen