Die Modellleistung gibt an, wie gut ein maschinelles Lernmodell (ML) die Aufgabe erfüllt, für die es entworfen wurde, und basiert auf verschiedenen Metriken. Die Messung der Modellleistung ist unerlässlich, um ML-Modelle zu optimieren, bevor sie für die Produktion freigegeben werden, und sie nach der Bereitstellung zu verbessern. Ohne angemessene Optimierung können Modelle ungenaue oder unzuverlässige Prognosen liefern und unter Ineffizienzen leiden, was zu einer Leistungsverschlechterung führt.
Die Bewertung der Modellleistung erfolgt während der Modellevaluierung und Modellüberwachung in Pipelines für maschinelles Lernen. Wenn Fachleute für künstliche Intelligenz (KI) die ersten Phasen der ML-Projekte bearbeitet haben, bewerten sie anschließend die Leistung eines Modells anhand von verschiedenen Datensätzen, Aufgaben und Metriken, um seine Effektivität zu messen. Sobald das Modell bereitgestellt ist, überwachen Teams für maschinelles Lernen (MLOps) die Modellleistung, um sie kontinuierlich zu verbessern.
Die Leistung von KI-Modellen wird in der Regel mit einem Testsatz gemessen, wobei die Ergebnisse der Modelle mit den Prognosen des Baseline-Testsatzes verglichen werden. Die aus der Leistungsbewertung gewonnenen Erkenntnisse helfen festzustellen, ob ein Modell für die Bereitstellung bereit ist oder ob es Anpassungen oder zusätzliches Training benötigt.
Hier sind einige Faktoren, die die Leistung maschineller Lernmodelle beeinflussen können:
Ein Modell ist nur so gut wie die Daten, mit denen es trainiert wird. Die Modellleistung ist nicht hinreichend genug, wenn seine Trainingsdaten fehlerhaft sind, Ungenauigkeiten oder Unbeständigkeiten wie Duplikate, fehlende Werte und falsche Datenbeschriftungen oder Anmerkungen enthalten. Ein Mangel an Ausgewogenheit – z. B. zu viele Werte für ein Szenario im Vergleich zu einem anderen oder ein Trainingsdatensatz, der nicht ausreichend oder vielfältig genug ist, um Korrelationen korrekt zu erfassen – kann ebenfalls zu verzerrten Ergebnissen führen.
Datenlecks beim maschinellen Lernen treten auf, wenn ein Modell während des Trainings Informationen verwendet, die zum Zeitpunkt der Prognose nicht verfügbar sind. Dies kann durch Fehler bei der Datenvorverarbeitung oder durch Kontaminationen aufgrund einer falschen Aufteilung der Daten in Trainings-, Validierungs- und Testsätze verursacht werden. Ein Datenleck führt dazu, dass ein Vorhersagemodell Schwierigkeiten hat, unbekannte Daten zu verallgemeinern, ungenaue oder unzuverlässige Ergebnisse liefert oder die Metriken in die Höhe treibt oder senkt.
Bei der Funktionsauswahl werden die relevantesten Funktionen eines Datensatzes ausgewählt, die für das Modelltraining verwendet werden sollen. Datenfunktionen beeinflussen, wie Algorithmen für maschinelles Lernen ihre Gewichtungen während des Trainings konfigurieren, was wiederum die Leistung steigert. Darüber hinaus kann die Einschränkung des Funktionsraums auf eine ausgewählte Teilmenge dazu beitragen, die Leistung zu verbessern und den Rechenaufwand zu verringern. Die Auswahl irrelevanter oder unbedeutender Funktionen kann jedoch die Leistung des Modells beeinträchtigen.
Eine Überanpassung tritt auf, wenn ein ML-Modell zu komplex ist und zu eng oder sogar exakt zu seinen Trainingsdaten passt, sodass es sich bei neuen Daten nicht gut verallgemeinern lässt. Umgekehrt liegt eine Unteranpassung vor, wenn ein Modell so einfach ist, dass es die zugrunde liegenden Muster sowohl in den Trainings- als auch in den Testdaten nicht erfasst.
Modelldrift bezieht sich auf die Verschlechterung der Leistung eines Modells aufgrund von Änderungen der Daten oder der Beziehungen zwischen Eingabe- und Ausgabevariablen. Dieser Verfall kann sich negativ auf die Modellleistung auswirken und zu fehlerhaften Entscheidungen und falschen Prognosen führen.
Verzerrung in der KI kann in jeder Phase eines Workflows für maschinelles Lernen vorkommen, aber sie tritt besonders häufig in den Phasen der Datenverarbeitung und der Modellentwicklung auf. Eine Datenverzerrung liegt vor, wenn die nicht repräsentative Beschaffung der Trainings- und Feinabstimmungsdatensätze das Verhalten und die Leistung des Modells beeinträchtigt. Die algorithmische Verzerrung wird hingegen nicht durch den Algorithmus selbst verursacht, sondern dadurch, wie Data-Science-Teams Trainingsdaten sammeln und codieren und wie KI-Programmierer Algorithmen für maschinelles Lernen entwerfen und entwickeln. KI-Verzerrung kann zu ungenauen Ausgaben und potenziell schadhaften Ergebnissen führen.
Branchen-Newsletter
Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Es ist wichtig, die Metriken auf die Geschäftsziele abzustimmen, die ein Modell erreichen soll. Während jede Art von maschinellem Lernen über eigene Metriken verfügt, haben viele Modelle ein paar gemeinsame Messwerte:
Die Genauigkeit wird als die Anzahl der richtigen Prognosen durch die Gesamtzahl der Prognosen geteilt. Dieser Anteil ist eine sehr verbreitete Metrik.
Modellgenauigkeit und Modellleistung werden oft miteinander verglichen, aber die Modellgenauigkeit ist nur ein Teil der Modellleistung. Und obwohl sie miteinander verflochten sind, können genaue Prognosen allein keinen ganzheitlichen Überblick über die Leistung eines Modells geben.
Der Rückruf quantifiziert die Anzahl der wahren positiven Ergebnisse, also der tatsächlich korrekten Prognosen. Er wird auch als Sensitivitätsrate oder True-Positive-Rate (TPR) bezeichnet.
Diese Metrik ist im Gesundheitswesen von entscheidender Bedeutung, z. B. bei der Diagnose von Krankheiten oder der Erkennung von Krebs. Ein ML-Modell mit hoher Rückrufrate kann positive Fälle korrekt identifizieren und gleichzeitig falsch negative Fälle (tatsächliche positive Fälle, die fälschlicherweise als negative Fälle vorhergesagt werden) minimieren
Die Präzision ist der Anteil positiver Prognosen, die tatsächlich positive Ergebnisse sind. Ein maschinelles Lernmodell mit hoher Präzision kann falsch positive Fälle minimieren (tatsächliche negative Fälle, die fälschlicherweise als positive Fälle vorhergesagt werden).
Diese Metrik ist im Finanzwesen von entscheidender Bedeutung, zum Beispiel bei der Aufdeckung von Betrugsfällen. Gekennzeichnete Transaktionen müssen tatsächlich betrügerisch sein (tatsächlich positiv), da die Kennzeichnung legitimer Transaktionen als betrügerisch (falsch positiv) negative Folgen haben kann.
Der F1-Score dient als harmonisches Mittel für Rückruf und Präzision und vereint beide Metriken zu einer. Er betrachtet die beiden Messwerte für den Ausgleich etwaiger falsch positiver oder negativer Ergebnisse als gleichwertig. Er ist besonders nützlich für unausgewogene Datensätze, z. B. bei der Erkennung seltener Krankheiten, da die negativen Fälle die positiven bei weitem übersteigen.
Viele KI-Frameworks, wie das Python-basierte PyTorch, scikit-learn und TensorFlow, bieten integrierte Funktionen zur Berechnung von Genauigkeit, Rückruf, Präzision und dem F1-Score. Sie bieten auch Visualisierungen von Modellvorhersagen als Konfusionsmatrix– eine Tabelle, die sowohl vorhergesagte als auch tatsächliche Werte darstellt, mit Feldern, die die Anzahl der richtig positiven, falsch positiven, richtig negativen und falsch negativen Werte darstellen.
Klassifikationsmodelle sortieren Datenpunkte in vordefinierte Gruppen, sogenannte Klassen. Hier sind einige spezifische Metriken für Klassifizierungsmodelle:
Regressionsmodelle werden für Prognosen mit kontinuierlichen Werten verwendet, wie z. B. Einzelhandelsumsätze und Aktienkursprognosen. Da diese Algorithmen mit quantifizierbaren Konzepten arbeiten, messen ihre Metriken Fehler in Prognosen:
Der mittlere absolute Fehler (Mean Absolute Error, MAE) wird als Summe des absoluten Wertes aller Fehler geteilt durch die Stichprobengröße berechnet. Er misst die durchschnittliche absolute Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Wert.
Der mittlere quadratische Fehler (MSE) wird als Durchschnitt der quadrierten Differenzen zwischen dem vorhergesagten Wert und dem tatsächlichen Wert über alle Trainingsstichproben hinweg berechnet. Das Quadrieren des Fehlers bestraft große Fehler und gibt dem Modell einen Anreiz, sie zu reduzieren.
Der mittlere quadratische Fehler (RMSE) ist die Quadratwurzel des MSE. Das Quadrieren von Fehlern vor der Mittelwertbildung bestraft größere Fehler noch stärker und bestärkt die Modelle erneut, sie zu minimieren.
Diese Metriken bewerten die Leistung von Modellen zur Verarbeitung natürlicher Sprache (NLP). Sie werden auch als Benchmarks für große Sprachmodelle (LLMs) verwendet.
Hier sind einige quantitative NLP-Modellmaße:
Perplexity misst, wie gut ein Modell Vorhersagen treffen kann. Je niedriger der Perplexity-Wert eines LLMs ist, desto besser kann es eine Aufgabe verstehen.
Bilingual Evaluation Understudy (BLEU) bewertet die maschinelle Übersetzung, indem es die passenden N-Gramme (eine Sequenz von n benachbarten Textsymbolen) zwischen der vorhergesagten Übersetzung eines LLM und einer von Menschen erstellten Übersetzung berechnet.
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) beurteilt die Textzusammenfassung und hat mehrere Typen. ROUGE-N führt beispielsweise ähnliche Berechnungen wie BLEU für Zusammenfassungen durch, während ROUGE-L die längste gemeinsame Teilsequenz zwischen der vorhergesagten Zusammenfassung und der von Menschen erstellten Zusammenfassung berechnet.
Qualitative Metriken umfassen Kennzahlen wie Kohärenz, Relevanz und semantische Bedeutung und beinhalten in der Regel die Prüfung und Bewertung von Modellen durch menschliche Gutachter. Ein ausgewogenes Verhältnis zwischen quantitativen und qualitativen Metriken kann für eine differenziertere Bewertung sorgen.
Computer Vision Modelle, insbesondere für Instanzensegmentierung und Objekterkennung, werden anhand dieser beiden gängigen Leistungsmaßstäbe bewertet:
Intersection over Union (IoU) berechnet das Verhältnis zwischen der Fläche der Schnittmenge und der Fläche der Vereinigung. Die Überschneidung (Intersection) umfasst die sich überschneidenden Abschnitte zwischen einem Begrenzungsrahmen, der ein von einem Modell vorhergesagtes erkanntes Objekt abgrenzt, und dem tatsächlichen Objekt. Die Vereinigung (Union) bezeichnet die Gesamtfläche der Bounding Box und des tatsächlichen Objekts. Computer-Vision-Modelle verwenden IoU, um die Genauigkeit der Lokalisierung erkannter Objekte zu bewerten.
Die mittlere durchschnittliche Präzision (mAP ) berechnet den Mittelwert aller durchschnittlichen Präzisionswerte für alle Objektklassen. Computer-Vision-Modelle verwenden IoU, um die Vorhersage- und Erkennungsgenauigkeit zu bewerten.
Die meisten Techniken zur Optimierung der Leistung des maschinellen Lernens werden während der Entwicklung, des Trainings und der Bewertung von Modellen implementiert. Sobald ein Modell jedoch im Alltag bereitgestellt wird, muss seine Leistung ständig verfolgt werden. Die Modellüberwachung beeinflusst Entscheidungen darüber, wie die Leistung im Laufe der Zeit verbessert werden kann.
Zur Verbesserung der Leistung von ML-Modellen werden eine oder mehrere der folgenden Techniken verwendet:
Viele KI-Frameworks verfügen über vorgefertigte Funktionen, die die meisten dieser Techniken unterstützen.
Die Einführung und Aufrechterhaltung strenger Verfahren zur Datenvorverarbeitung oder Datenaufbereitung kann dazu beitragen, Probleme bei der Datenqualität zu vermeiden. Während Datenbereinigung, Rauschunterdrückung und Datennormalisierung die Hauptpfeiler der Datenvorverarbeitung sind, können Data Scientists auch Tools zur Datenautomatisierung und sogar KI-gestützte Tools verwenden, um Zeit und Aufwand zu sparen und menschliche Fehler zu verhindern. Bei unzureichenden oder unausgewogenen Datensätzen können synthetische Daten die Lücken schließen.
Ein sorgfältiger Umgang mit Daten ist zur Vermeidung von Datenlecks unabdingbar. Daten müssen korrekt in Trainings-, Validierungs- und Testsätze aufgeteilt werden, wobei die Vorverarbeitung für jeden Satz separat erfolgen muss.
Eine Vergleichsprüfung kann ebenfalls hilfreich sein. Bei einer Vergleichsprüfung werden Daten in mehrere Teilmengen aufgeteilt und unterschiedlich für das Training und die Validierung in einer definierten Anzahl von Iterationen verwendet.
Die Auswahl der Funktionen kann eine Herausforderung sein und erfordert Fachwissen, um die wichtigsten und einflussreichsten Funktionen zu identifizieren. Es ist wichtig, die Bedeutung jeder Funktion zu verstehen und die Korrelation zwischen den Funktionen und der Zielvariablen (der abhängigen Variable, die ein Modell vorhersagen soll) zu untersuchen.
Zu den Methoden zur Funktionsauswahl für überwachtes Lernen gehören Wrapper-Methoden und eingebettete Methoden. Wrapper-Methoden schulen einen Algorithmus für maschinelles Lernen mit verschiedenen Teilmengen von Funktionen, fügen sie hinzu oder entfernen sie und testen die Ergebnisse bei jeder Iteration, um den Funktionsumfang zu ermitteln, der zur optimalen Modellleistung führt. Eingebettete Methoden integrieren die Funktionsauswahl in das Modelltraining, identifizieren leistungsschwache Funktionen und eliminieren sie aus zukünftigen Iterationen.
Beim nicht überwachten Lernen erkennen die Modelle selbständig Datenfunktionen, Muster und Beziehungen. Zu den Funktionsauswahlmethoden für nicht überwachtes Lernen gehören die Hauptkomponentenanalyse (Principal Component Analysis, PCA), unabhängige Komponentenanalyse (Independent Component Analysis, ICA) und Auto-Encoder.
Hyperparameter-Tuning, auch als Hyperparameter-Optimierung oder Modell-Tuning bezeichnet, identifiziert, wählt und optimiert die Hyperparameter eines Deep-Learning-Modells, um die beste Trainingsleistung zu erzielen. Hyperparameter steuern den Lernprozess eines Modells, wobei das Finden der richtigen Kombination und Konfiguration von Hyperparametern die Leistung des Modells in der realen Welt verbessern kann.
Zu den gängigen Methoden der Abstimmung der Hyperparameter gehören die Gittersuche, die Zufallssuche, die Bayes'sche Optimierung und das Hyperband. Data Scientists können auch automatisierte Methoden einsetzen, um algorithmisch die optimalen Hyperparameter für ihren Anwendungsfall zu ermitteln.
Ensemble-Lernen kombiniert mehrere Modelle, um die Prognoseleistung unter der Annahme zu verbessern, dass ein Kollektiv oder ein Ensemble von Modellen bessere Prognosen liefern kann als ein einzelnes Modell.
Hier sind einige beliebte Ensemble-Lerntechniken:
Bagging, auch Bootstrapping-Aggregation genannt, trainiert Modelle parallel und unabhängig voneinander. Anschließend wird der Durchschnitt (für Regressionsaufgaben) oder die Mehrheit (für Klassifizierungsprobleme) der Prognosen herangezogen, um eine genauere Schätzung zu berechnen.
Durch Boosting werden Modelle in Sequenzen trainiert, wobei in jeder Iteration frühere Fehler korrigiert werden. Fehlerhaften oder falsch klassifizierten Instanzen wird in nachfolgenden Modellen mehr Gewicht beigemessen, wodurch der Schwerpunkt auf anspruchsvollen Datenpunkten liegt und die Leistung im Laufe der Zeit verbessert wird.
Beim Stacking werden Modelle auf der Grundlage desselben Datensatzes trainiert, aber für jedes Modell ein anderer Algorithmus zum Trainieren angewendet. Anschließend werden die kompilierten oder gestapelten Prognosen verwendet, um ein endgültiges Modell zu trainieren.
Beim Transferlernen wird das Wissen, das ein vortrainiertes Modell anhand einer ersten Aufgabe oder eines ersten Datensatzes gewonnen hat, auf eine neue, aber verwandte Zielaufgabe oder einen neuen Datensatz angewendet. Durch die Umwidmung eines vortrainierten Modells für eine andere Aufgabe werden die Funktionen dieses Modells verbessert und die Leistung optimiert.
Der Umgang mit Über- und Unteranpassung ist eine zentrale Herausforderung beim maschinellen Lernen. Ein optimal angepasstes Modell erkennt Muster in Daten genau, ohne zu empfindlich auf zufällige Fluktuationen oder Rauschen zu reagieren.
Zu den Techniken zur Vermeidung von Über- und Unteranpassung gehören das Finden der richtigen Trainingsdauer, um den Modellen gerade genug Zeit zum Lernen zu geben, die Datenerweiterung, um den Trainingssatz zu erweitern, und die Regularisierung, um die Varianz in einem Modell zu reduzieren, indem Eingabeparameter mit größeren Koeffizienten bestraft werden.
Die Drifterkennung, ein zentraler Aspekt der Modellüberwachung und Observability, kann zum Schutz vor Modelldrift beitragen. KI-Drift-Detektoren erkennen beispielsweise automatisch, wenn die Genauigkeit eines Modells unter einen vordefinierten Schwellenwert abfällt oder abweicht, während Überwachungstools kontinuierlich Driftszenarien beobachten.
Sobald ein Drift erkannt wird, können ML-Modelle in Echtzeit aktualisiert oder mit einem neuen Datensatz mit neueren und relevanteren Proben neu trainiert werden.
Die Eindämmung von KI-Verzerrung beginnt mit der KI-Governance, die Leitlinien, Prozesse und Standards umfasst, die dazu beitragen, dass KI-Systeme und -Tools ethisch und sicher sind. Hier sind einige Verantwortungsvolle KI-Praktiken, die vor Verzerrung schützen können:
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.