Modelldrift bezieht sich auf die Verschlechterung der Leistung eines maschinellen Lernmodells aufgrund von Änderungen in den Daten oder in den Beziehungen zwischen Eingabe- und Ausgabevariablen. Modelldrift, auch als Modellzerfall bekannt, kann sich negativ auf die Modellleistung auswirken und zu fehlerhaften Entscheidungen und schlechten Vorhersagen führen.
Um Drift zu erkennen und abzumildern, können Unternehmen die Leistung ihrer Daten- und KI-Plattform überwachen und verwalten. Wenn das Modell im Laufe der Zeit nicht richtig überwacht wird, kann selbst das am besten trainierte, unvoreingenommenste KI-Modell von seinen ursprünglichen Parametern „abweichen“ und nach der Implementierung zu unerwünschten Ergebnissen führen.Die Drift-Erkennung ist eine Kernkomponente einer starken KI-Governance.
Modelle, die mit historischen Daten erstellt wurden, werden schnell veraltet. Häufig kommen ständig neue Datenpunkte hinzu, z. B. neue Variationen, Muster oder Trends, die in den alten, historischen Daten nicht erfasst werden. Wenn das Training eines KI-Modells nicht mit den eingehenden Daten übereinstimmt, kann es diese Daten nicht genau interpretieren oder diese Live-Daten verwenden, um zuverlässig genaue Vorhersagen zu treffen.
Wenn Drift nicht schnell erkannt und abgemildert wird, kann sie sich verschlimmern und den Betrieb noch stärker beeinträchtigen. Wenn Unternehmen allerdings Drift erkennen, können Sie kontinuierlich genaue Ausgabe aus ihren Modellen erhalten.
Die Welt ist im ständigen Wandel, was bedeutet, dass sich auch die Daten ständig ändern. Daher müssen auch die Modelle, mit denen man sich ein Bild von der Welt machen kann, ständig überprüft und aktualisiert werden. Im Folgenden werden drei Arten von Modelldrift beschrieben, die jeweils eine andere Ursache haben.
Konzeptdrift tritt auf, wenn es eine Divergenz zwischen den Eingabevariablen und der Zielvariablen gibt und der Algorithmus beginnt, falsche Antworten zu geben, weil die Definitionen nicht mehr gültig sind. Die Verschiebung der unabhängigen Variablen kann über verschiedene Zeiträume hinweg wirksam werden:
Der Konzeptdrift tritt regelmäßig wieder auf und verschwindet dann wieder, beispielsweise bei der Saisonalität des Kaufverhaltens als Reaktion auf Wetteränderungen. In winterlichen Klimazonen steigt der Absatz von Schneeschaufeln und Schneefräsen normalerweise im Spätherbst und frühen Winter. Es müssen auch geografische Anpassungen im Hinblick auf erwartete Schneefälle vorgenommen werden.
Eine unerwartete Entwicklung kann zu neuen Kaufmustern führen. Ein Beispiel ist der plötzliche Presserummel um ChatGPT, der zu einer erhöhten Nachfrage nach KI-Hardware- und Softwareprodukten führte und den Aktienwert von KI-bezogenen Unternehmen in die Höhe trieb. Ein Prognosemodell, das vor der Veröffentlichung dieser Nachrichten trainiert wurde, konnte diese Ergebnisse nicht vorhersagen.
Ein weiteres Beispiel ist der Ausbruch der Covid-19-Pandemie, der ebenfalls zu plötzlichen Verhaltensänderungen führte: Die Verkäufe von Spielen und Trainingsgeräten stiegen sprunghaft an, während Restaurants und Hotels deutlich weniger Besucher verzeichneten.
Einige Abweichungen erfolgen allmählich oder in einem erwarteten Tempo. Beispielsweise haben Spammer und Hacker im Laufe der Jahre verschiedene Tools und Tricks verwendet. Mit der Verbesserung von Schutzsoftware und Spamfiltern haben auch böswillige Akteure ihre Tools entsprechend angepasst. Jede KI, die für den Schutz digitaler Interaktionen entwickelt wird, muss sich weiterentwickeln; ein starres Modell wird bald nutzlos sein.
Datendrift (auch Kovariatenverschiebung) tritt auf, wenn sich die zugrunde liegende Datenverteilung der Eingabedaten geändert hat. Im Einzelhandel kann der Verkauf eines Produkts durch die Einführung eines anderen neuen Produkts oder die Einstellung eines Konkurrenzprodukts beeinflusst werden. Es kann auch sein, dass eine Website, die zunächst von jungen Menschen, dann aber auch von älteren Menschen angenommen wird, in ihrem ursprünglichen Modell, das auf dem Nutzungsverhalten der jüngeren Nutzer basiert, bei den älteren Nutzern nicht so gut funktioniert.
Eine vorgelagerte Datenänderung tritt auf, wenn es eine Änderung in der Datenpipeline gibt. Beispielsweise könnte vorgelagerte Daten in eine andere Währung geändert werden, z. B. USD statt Euro, oder Messungen in Meilen statt Kilometern oder Temperaturen in Fahrenheit statt Celsius. Eine solche Änderung würde ein Modell durcheinanderbringen, das nicht darauf ausgelegt ist, die geänderte Beschriftung der Daten zu berücksichtigen.
Unternehmen und Data Scientists nutzen verschiedene Methoden zur Erkennung von Datendrifts, um die Entwicklung von Modellen für maschinelles Lernen im Auge zu behalten und den Kurs zu korrigieren, bevor ihre Modelle veraltet sind.
Die beliebtesten sind zeitverteilungsbasierte Methoden, die potenzielle Abweichungen zwischen zwei Wahrscheinlichkeitsverteilungen messen. Weichen die Ergebnisse deutlich voneinander ab, haben sich wahrscheinlich die statistischen Eigenschaften der Eingabedaten geändert, was zu einer Datendrift führt.
Die Erkennung von Datenabweichungen ist ein zentraler Aspekt der Daten-Observability, also der Praxis der kontinuierlichen Überwachung der Qualität und Zuverlässigkeit von Daten in einem Unternehmen. Die Programmiersprache Python ist besonders beliebt in der Data Science, wenn es um die Entwicklung von Open-Source-Drift-Detektoren geht.
Der Kolmogorov-Smirnov (K-S)-Test misst, ob zwei Datensätze der gleichen Verteilung entstammen. Im Bereich der Data Science ist der K-S-Test nichtparametrisch, d.h. er setzt nicht voraus, dass die Verteilung irgendwelche vorher festgelegten Annahmen oder Kriterien erfüllt.
Data Scientists setzen den Kolmogorov-Smirnov-Test aus zwei Hauptgründen ein:
Um festzustellen, ob eine Datenprobe aus einer bestimmten Grundgesamtheit stammt.
Um zwei Datenproben zu vergleichen und zu sehen, ob sie aus derselben Grundgesamtheit stammen.
Zeigen die Ergebnisse des K-S-Tests, dass zwei Datensätze aus unterschiedlichen Populationen zu stammen scheinen, dann ist wahrscheinlich eine Datendrift aufgetreten, was den K-S-Test zu einem zuverlässigen Drift-Detektor macht.
Die Wasserstein-Distanz, benannt nach dem Mathematiker Leonid Vaserstein, verwendet eine einfache Metapher zur Visualisierung der Driftstärke von Daten. Dabei werden zwei kleine Erdhaufen betrachtet: Der Arbeitsaufwand, der erforderlich ist, um den einen Haufen aus der Erde des anderen Haufens zu errichten, steht für Datendrift. Deswegen ist die Wasserstein-Distanz in der Informatik und Data Science auch als „Earth Mover's Distance“ (EMD) bekannt.
Als Erkennungsmethode vergleicht die Wasserstein-Distanz Trainingsdaten mit neuen Eingaben, die in ein maschinelles Lernenmodell eingespeist werden. Es zeichnet sich durch die Identifizierung komplexer Beziehungen zwischen Merkmalen aus und kann Sonderfälle für konsistente Ergebnisse steuern.
Der Populationsstabilitätsindex (PSI) vergleicht die Verteilung eines kategorialen Merkmals über zwei Datensätze hinweg, um zu ermitteln, inwieweit sich die Verteilung im Laufe der Zeit verändert hat.
Eine größere Abweichung in der Verteilung, dargestellt durch einen höheren PSI-Wert, deutet auf das Vorhandensein einer Modelldrift hin. PSI bewertet sowohl unabhängige als auch abhängige Merkmale, also solche, die sich in Abhängigkeit von anderen Variablen verändern.
Liefert die Verteilung eines oder mehrerer kategorischer Merkmale einen hohen PSI-Wert, muss das Maschinenmodell wahrscheinlich neu kalibriert oder sogar neu erstellt werden.
Unternehmen können die Erkennung und Behebung von Datendrifts besser steuern, wenn sie diese bewährten Verfahren befolgen:
Die Genauigkeit eines KI-Modells kann sich innerhalb von Tagen nach der Bereitstellung verschlechtern, da sich die Produktionsdaten von den Schulungsdaten des Modells unterscheiden. Dies kann zu falschen Vorhersagen und erheblichen Risiken führen.
Zum Schutz vor Modellabweichungen und Verzerrungen sollten Unternehmen einen KI-Drift-Detektor und Überwachungstools einsetzen, die automatisch erkennen, wenn die Genauigkeit eines Modells unter einen voreingestellten Schwellenwert sinkt (oder abdriftet).
Ein Programm zur Erkennung von Modelldrift sollte auch nachverfolgen, welche Transaktionen die Abweichung verursacht haben, sodass diese neu gekennzeichnet und zum erneuten Trainieren des Modells verwendet werden können, um seine Vorhersagekraft während der Laufzeit wiederherzustellen.
Bei der statistischen Drifterkennung werden statistische Metriken zum Vergleich und zur Analyse von Datenproben verwendet. Diese Implementierung ist oft einfacher, weil die meisten Metriken bereits im Unternehmen verwendet werden. Die modellbasierte Drifterkennung misst die Ähnlichkeit zwischen einem Punkt oder einer Gruppe von Punkten und dem Referenzwert.
Unternehmen sollten ihre KI-Modelle, insbesondere generative KI-Modelle, regelmäßig im gesamten Lebenszyklus testen. Diese Tests umfassen idealerweise:
Einer Studie von Forrester Total Economic Impact zufolge „können [Unternehmen] durch die Entwicklung, Ausführung und Verwaltung von Modellen in einer einheitlichen Daten- und KI-Umgebung sicherstellen, dass die KI-Modelle überall fair, erklärbar und konform bleiben. Dieser End-to-End-KI-Ansatz ermöglicht es einem Unternehmen auch, Modellabweichungen und -verzerrungen zu erkennen und zu korrigieren sowie das Modellrisiko zu verwalten, wenn ein KI-Modell in der Produktion ist.
Eine bewährte Methode ist es, alle Modelle von einem zentralen Dashboard aus zu verwalten. Ein integrierter Ansatz kann einem Unternehmen dabei helfen, Kennzahlen kontinuierlich zu verfolgen und Teams darauf aufmerksam zu machen, wenn Genauigkeit und Datenkonsistenz aufgrund von Entwicklung, Validierung und Bereitstellung abweichen. Eine zentralisierte, ganzheitliche Ansicht kann Unternehmen dabei helfen, Silos aufzubrechen und für mehr Transparenz in der gesamten Datenabstammung zu sorgen.
Driftszenarien und deren Ausmaß lassen sich mithilfe eines KI-Modells, das Produktions- und Trainingsdaten sowie Modellvorhersagen in Echtzeit vergleicht, erkennen. Auf diese Weise lassen sich Abweichungen schnell erkennen und das erneute Training kann sofort beginnen. Diese Erkennung ist iterativ, genau wie maschinelle Lernvorgänge (MLOps).
Mithilfe einer zeitbasierten Analyse lässt sich die Driftentwicklung erkennen und wann sie aufgetreten ist. Wenn zum Beispiel wöchentlich Kontrollen durchgeführt werden, können Sie sehen, wie sich die Drift von Tag zu Tag entwickelt hat.
Die Analyse von Zeitreihen kann auch hilfreich sein, um festzustellen, ob die Abweichung allmählich oder plötzlich erfolgt ist. Der Ansatz der erklärbaren KI wendet diese Transparenz auf den Einsatz von KI an. Damit können Unternehmen überwachen, wie und warum ihre Modelle die Ergebnisse liefern, die sie erzielt haben.
Verwenden Sie einen neuen Trainingsdatensatz, dem neuere und relevantere Beispiele hinzugefügt wurden. Unser Ziel ist es, Ihre großen Sprachmodelle (LLM) schnell und korrekt wieder in Produktion zu bringen. Wenn das erneute Trainieren des Modells das Problem nicht löst, ist möglicherweise ein neues Modell erforderlich. Techniken für den Einsatz großer Sprachmodelle (LLMOps) können Unternehmen bei der Überwachung und Umschulung ihrer LLMs unterstützen.
Statt ein Modell mit Chargendaten zu trainieren, können Unternehmen ein „Online-Lernen“ praktizieren, indem sie ihre maschinellen Lernmodelle (ML) mit den neuesten realen Daten aktualisieren, sobald diese verfügbar sind.
Bei einem Modell kann es zu Abweichungen kommen, weil die zum Trainieren des Modells verwendeten Daten von den tatsächlich verwendeten Produktionsdaten abweichen. Wenn in einem medizinischen Anwendungsfall hochauflösende Scans im Training verwendet werden, aber nur Scans mit niedriger Auflösung im Einsatz sind, sind die Ergebnisse falsch.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.
Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.