Was ist Modellleistung?

F1-Rennwagen stehen vor einem Rennen in einer Reihe

Autoren

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist Modellleistung?

Die Modellleistung gibt an, wie gut ein maschinelles Lernmodell (ML) die Aufgabe erfüllt, für die es entworfen wurde, und basiert auf verschiedenen Metriken. Die Messung der Modellleistung ist unerlässlich, um ML-Modelle zu optimieren, bevor sie für die Produktion freigegeben werden, und sie nach der Bereitstellung zu verbessern. Ohne angemessene Optimierung können Modelle ungenaue oder unzuverlässige Prognosen liefern und unter Ineffizienzen leiden, was zu einer Leistungsverschlechterung führt.

Die Bewertung der Modellleistung erfolgt während der Modellevaluierung und Modellüberwachung in Pipelines für maschinelles Lernen. Wenn Fachleute für künstliche Intelligenz (KI) die ersten Phasen der ML-Projekte bearbeitet haben, bewerten sie anschließend die Leistung eines Modells anhand von verschiedenen Datensätzen, Aufgaben und Metriken, um seine Effektivität zu messen. Sobald das Modell bereitgestellt ist, überwachen Teams für maschinelles Lernen (MLOps) die Modellleistung, um sie kontinuierlich zu verbessern.

Faktoren, die die Modellleistung beeinflussen

Die Leistung von KI-Modellen wird in der Regel mit einem Testsatz gemessen, wobei die Ergebnisse der Modelle mit den Prognosen des Baseline-Testsatzes verglichen werden. Die aus der Leistungsbewertung gewonnenen Erkenntnisse helfen festzustellen, ob ein Modell für die Bereitstellung bereit ist oder ob es Anpassungen oder zusätzliches Training benötigt.

Hier sind einige Faktoren, die die Leistung maschineller Lernmodelle beeinflussen können:

Datenqualität
Datenlecks
Merkmalsauswahl
Modellanpassung
Modelldrift
Bias

Datenqualität

Ein Modell ist nur so gut wie die Daten, mit denen es trainiert wird. Die Modellleistung ist nicht hinreichend genug, wenn seine Trainingsdaten fehlerhaft sind, Ungenauigkeiten oder Unbeständigkeiten wie Duplikate, fehlende Werte und falsche Datenbeschriftungen oder Anmerkungen enthalten. Ein Mangel an Ausgewogenheit – z. B. zu viele Werte für ein Szenario im Vergleich zu einem anderen oder ein Trainingsdatensatz, der nicht ausreichend oder vielfältig genug ist, um Korrelationen korrekt zu erfassen – kann ebenfalls zu verzerrten Ergebnissen führen.

Datenlecks

Datenlecks beim maschinellen Lernen treten auf, wenn ein Modell während des Trainings Informationen verwendet, die zum Zeitpunkt der Prognose nicht verfügbar sind. Dies kann durch Fehler bei der Datenvorverarbeitung oder durch Kontaminationen aufgrund einer falschen Aufteilung der Daten in Trainings-, Validierungs- und Testsätze verursacht werden. Ein Datenleck führt dazu, dass ein Vorhersagemodell Schwierigkeiten hat, unbekannte Daten zu verallgemeinern, ungenaue oder unzuverlässige Ergebnisse liefert oder die Metriken in die Höhe treibt oder senkt.

Auswahl der Merkmale

Bei der Funktionsauswahl werden die relevantesten Funktionen eines Datensatzes ausgewählt, die für das Modelltraining verwendet werden sollen. Datenfunktionen beeinflussen, wie Algorithmen für maschinelles Lernen ihre Gewichtungen während des Trainings konfigurieren, was wiederum die Leistung steigert. Darüber hinaus kann die Einschränkung des Funktionsraums auf eine ausgewählte Teilmenge dazu beitragen, die Leistung zu verbessern und den Rechenaufwand zu verringern. Die Auswahl irrelevanter oder unbedeutender Funktionen kann jedoch die Leistung des Modells beeinträchtigen.

Modellanpassung

Eine Überanpassung tritt auf, wenn ein ML-Modell zu komplex ist und zu eng oder sogar exakt zu seinen Trainingsdaten passt, sodass es sich bei neuen Daten nicht gut verallgemeinern lässt. Umgekehrt liegt eine Unteranpassung vor, wenn ein Modell so einfach ist, dass es die zugrunde liegenden Muster sowohl in den Trainings- als auch in den Testdaten nicht erfasst.

Modelldrift

Modelldrift bezieht sich auf die Verschlechterung der Leistung eines Modells aufgrund von Änderungen der Daten oder der Beziehungen zwischen Eingabe- und Ausgabevariablen. Dieser Verfall kann sich negativ auf die Modellleistung auswirken und zu fehlerhaften Entscheidungen und falschen Prognosen führen.

Verzerrung

Verzerrung in der KI kann in jeder Phase eines Workflows für maschinelles Lernen vorkommen, aber sie tritt besonders häufig in den Phasen der Datenverarbeitung und der Modellentwicklung auf. Eine Datenverzerrung liegt vor, wenn die nicht repräsentative Beschaffung der Trainings- und Feinabstimmungsdatensätze das Verhalten und die Leistung des Modells beeinträchtigt. Die algorithmische Verzerrung wird hingegen nicht durch den Algorithmus selbst verursacht, sondern dadurch, wie Data-Science-Teams Trainingsdaten sammeln und codieren und wie KI-Programmierer Algorithmen für maschinelles Lernen entwerfen und entwickeln. KI-Verzerrung kann zu ungenauen Ausgaben und potenziell schadhaften Ergebnissen führen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Modell-Leistungsmetriken

Es ist wichtig, die Metriken auf die Geschäftsziele abzustimmen, die ein Modell erreichen soll. Während jede Art von maschinellem Lernen über eigene Metriken verfügt, haben viele Modelle ein paar gemeinsame Messwerte:

Genauigkeit
Rückruf
Präzision
F1-Score

Genauigkeit

Die Genauigkeit wird als die Anzahl der richtigen Prognosen durch die Gesamtzahl der Prognosen geteilt. Dieser Anteil ist eine sehr verbreitete Metrik.

Modellgenauigkeit und Modellleistung werden oft miteinander verglichen, aber die Modellgenauigkeit ist nur ein Teil der Modellleistung. Und obwohl sie miteinander verflochten sind, können genaue Prognosen allein keinen ganzheitlichen Überblick über die Leistung eines Modells geben.

Rückruf

Der Rückruf quantifiziert die Anzahl der wahren positiven Ergebnisse, also der tatsächlich korrekten Prognosen. Er wird auch als Sensitivitätsrate oder True-Positive-Rate (TPR) bezeichnet.

Diese Metrik ist im Gesundheitswesen von entscheidender Bedeutung, z. B. bei der Diagnose von Krankheiten oder der Erkennung von Krebs. Ein ML-Modell mit hoher Rückrufrate kann positive Fälle korrekt identifizieren und gleichzeitig falsch negative Fälle (tatsächliche positive Fälle, die fälschlicherweise als negative Fälle vorhergesagt werden) minimieren

$R e c a l l = \frac{T P}{T P + F N}$

Präzision

Die Präzision ist der Anteil positiver Prognosen, die tatsächlich positive Ergebnisse sind. Ein maschinelles Lernmodell mit hoher Präzision kann falsch positive Fälle minimieren (tatsächliche negative Fälle, die fälschlicherweise als positive Fälle vorhergesagt werden).

Diese Metrik ist im Finanzwesen von entscheidender Bedeutung, zum Beispiel bei der Aufdeckung von Betrugsfällen. Gekennzeichnete Transaktionen müssen tatsächlich betrügerisch sein (tatsächlich positiv), da die Kennzeichnung legitimer Transaktionen als betrügerisch (falsch positiv) negative Folgen haben kann.

$P r e c i s i o n = \frac{T P}{T P + F P}$

F1-Score

Der F1-Score dient als harmonisches Mittel für Rückruf und Präzision und vereint beide Metriken zu einer. Er betrachtet die beiden Messwerte für den Ausgleich etwaiger falsch positiver oder negativer Ergebnisse als gleichwertig. Er ist besonders nützlich für unausgewogene Datensätze, z. B. bei der Erkennung seltener Krankheiten, da die negativen Fälle die positiven bei weitem übersteigen.

$F 1 = \frac{2 * P r e c i s i o n * R e c a l l}{P r e c i s i o n + R e c a l l}$

Viele KI-Frameworks, wie das Python-basierte PyTorch, scikit-learn und TensorFlow, bieten integrierte Funktionen zur Berechnung von Genauigkeit, Rückruf, Präzision und dem F1-Score. Sie bieten auch Visualisierungen von Modellvorhersagen als Konfusionsmatrix– eine Tabelle, die sowohl vorhergesagte als auch tatsächliche Werte darstellt, mit Feldern, die die Anzahl der richtig positiven, falsch positiven, richtig negativen und falsch negativen Werte darstellen.

Leistungsmetriken des Klassifikationsmodells

Klassifikationsmodelle sortieren Datenpunkte in vordefinierte Gruppen, sogenannte Klassen. Hier sind einige spezifische Metriken für Klassifizierungsmodelle:

ROC-Kurve: Eine ROC-Kurve (Receiver Operating Feature) visualisiert das Verhältnis von echten Positiven zu echten Negativen. Das Diagramm stellt die wahre positive Rate gegenüber der wahren negativen Rate für jeden Schwellenwert dar, der bei der Modellklassifizierung verwendet wird. Die Statistik der Fläche unter der Kurve (AUC) ergibt sich aus der ROC-Kurve und misst, wie wahrscheinlich es ist, dass ein zufällig ausgewähltes positives Ergebnis einen höheren Konfidenzwert hat als ein zufällig negatives. AUC-ROC ist eine hilfreiche Metrik für Aufgaben, die binäre Klassifizierungen (Sortierung von Daten in zwei exklusive Klassen) betreffen.

Logarithmischer Verlust: Der Log-Verlust bewertet die Vertrauenswürdigkeit der Klassifizierungen eines Modells und bestraft sichere falsche Klassifizierungen stärker als weniger sichere. Dies ist besonders nützlich, wenn es um probabilistische Ergebnisse geht, da die Modelle lernen, sich auf korrekte Klassifizierungen verlassen zu können und sich bei falschen Klassifizierungen unsicher sind. Niedrigere logarithmische Verlustwerte stehen für eine bessere Leistung.

Leistungsmetriken für Regressionsmodelle

Regressionsmodelle werden für Prognosen mit kontinuierlichen Werten verwendet, wie z. B. Einzelhandelsumsätze und Aktienkursprognosen. Da diese Algorithmen mit quantifizierbaren Konzepten arbeiten, messen ihre Metriken Fehler in Prognosen:

Der mittlere absolute Fehler (Mean Absolute Error, MAE) wird als Summe des absoluten Wertes aller Fehler geteilt durch die Stichprobengröße berechnet. Er misst die durchschnittliche absolute Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Wert.

Der mittlere quadratische Fehler (MSE) wird als Durchschnitt der quadrierten Differenzen zwischen dem vorhergesagten Wert und dem tatsächlichen Wert über alle Trainingsstichproben hinweg berechnet. Das Quadrieren des Fehlers bestraft große Fehler und gibt dem Modell einen Anreiz, sie zu reduzieren.

Der mittlere quadratische Fehler (RMSE) ist die Quadratwurzel des MSE. Das Quadrieren von Fehlern vor der Mittelwertbildung bestraft größere Fehler noch stärker und bestärkt die Modelle erneut, sie zu minimieren.

Leistungsmetriken des Modells zur Verarbeitung natürlicher Sprache

Diese Metriken bewerten die Leistung von Modellen zur Verarbeitung natürlicher Sprache (NLP). Sie werden auch als Benchmarks für große Sprachmodelle (LLMs) verwendet.

Hier sind einige quantitative NLP-Modellmaße:

Perplexity misst, wie gut ein Modell Vorhersagen treffen kann. Je niedriger der Perplexity-Wert eines LLMs ist, desto besser kann es eine Aufgabe verstehen.

Bilingual Evaluation Understudy (BLEU) bewertet die maschinelle Übersetzung, indem es die passenden N-Gramme (eine Sequenz von n benachbarten Textsymbolen) zwischen der vorhergesagten Übersetzung eines LLM und einer von Menschen erstellten Übersetzung berechnet.

Recall-Oriented Understudy for Gisting Evaluation (ROUGE) beurteilt die Textzusammenfassung und hat mehrere Typen. ROUGE-N führt beispielsweise ähnliche Berechnungen wie BLEU für Zusammenfassungen durch, während ROUGE-L die längste gemeinsame Teilsequenz zwischen der vorhergesagten Zusammenfassung und der von Menschen erstellten Zusammenfassung berechnet.

Qualitative Metriken umfassen Kennzahlen wie Kohärenz, Relevanz und semantische Bedeutung und beinhalten in der Regel die Prüfung und Bewertung von Modellen durch menschliche Gutachter. Ein ausgewogenes Verhältnis zwischen quantitativen und qualitativen Metriken kann für eine differenziertere Bewertung sorgen.

Leistungsmetriken für Computer Vision-Modelle

Computer Vision Modelle, insbesondere für Instanzensegmentierung und Objekterkennung, werden anhand dieser beiden gängigen Leistungsmaßstäbe bewertet:

Intersection over Union (IoU) berechnet das Verhältnis zwischen der Fläche der Schnittmenge und der Fläche der Vereinigung. Die Überschneidung (Intersection) umfasst die sich überschneidenden Abschnitte zwischen einem Begrenzungsrahmen, der ein von einem Modell vorhergesagtes erkanntes Objekt abgrenzt, und dem tatsächlichen Objekt. Die Vereinigung (Union) bezeichnet die Gesamtfläche der Bounding Box und des tatsächlichen Objekts. Computer-Vision-Modelle verwenden IoU, um die Genauigkeit der Lokalisierung erkannter Objekte zu bewerten.

Die mittlere durchschnittliche Präzision (mAP ) berechnet den Mittelwert aller durchschnittlichen Präzisionswerte für alle Objektklassen. Computer-Vision-Modelle verwenden IoU, um die Vorhersage- und Erkennungsgenauigkeit zu bewerten.

Strategien zur Verbesserung der Modellleistung

Die meisten Techniken zur Optimierung der Leistung des maschinellen Lernens werden während der Entwicklung, des Trainings und der Bewertung von Modellen implementiert. Sobald ein Modell jedoch im Alltag bereitgestellt wird, muss seine Leistung ständig verfolgt werden. Die Modellüberwachung beeinflusst Entscheidungen darüber, wie die Leistung im Laufe der Zeit verbessert werden kann.

Zur Verbesserung der Leistung von ML-Modellen werden eine oder mehrere der folgenden Techniken verwendet:

Datenvorverarbeitung
Vermeidung von Datenlecks
Die Auswahl der richtigen Funktionen
Hyperparameter-Tuning
Ensemble-Lernen
Transferlernen
Erzielen der optimalen Modellanpassung
Schutz vor Modelldrift
Beseitigung von Verzerrungen

Viele KI-Frameworks verfügen über vorgefertigte Funktionen, die die meisten dieser Techniken unterstützen.

Datenvorverarbeitung

Die Einführung und Aufrechterhaltung strenger Verfahren zur Datenvorverarbeitung oder Datenaufbereitung kann dazu beitragen, Probleme bei der Datenqualität zu vermeiden. Während Datenbereinigung, Rauschunterdrückung und Datennormalisierung die Hauptpfeiler der Datenvorverarbeitung sind, können Data Scientists auch Tools zur Datenautomatisierung und sogar KI-gestützte Tools verwenden, um Zeit und Aufwand zu sparen und menschliche Fehler zu verhindern. Bei unzureichenden oder unausgewogenen Datensätzen können synthetische Daten die Lücken schließen.

Vermeidung von Datenlecks

Ein sorgfältiger Umgang mit Daten ist zur Vermeidung von Datenlecks unabdingbar. Daten müssen korrekt in Trainings-, Validierungs- und Testsätze aufgeteilt werden, wobei die Vorverarbeitung für jeden Satz separat erfolgen muss.

Eine Vergleichsprüfung kann ebenfalls hilfreich sein. Bei einer Vergleichsprüfung werden Daten in mehrere Teilmengen aufgeteilt und unterschiedlich für das Training und die Validierung in einer definierten Anzahl von Iterationen verwendet.

Die richtigen Funktionen auswählen

Die Auswahl der Funktionen kann eine Herausforderung sein und erfordert Fachwissen, um die wichtigsten und einflussreichsten Funktionen zu identifizieren. Es ist wichtig, die Bedeutung jeder Funktion zu verstehen und die Korrelation zwischen den Funktionen und der Zielvariablen (der abhängigen Variable, die ein Modell vorhersagen soll) zu untersuchen.

Zu den Methoden zur Funktionsauswahl für überwachtes Lernen gehören Wrapper-Methoden und eingebettete Methoden. Wrapper-Methoden schulen einen Algorithmus für maschinelles Lernen mit verschiedenen Teilmengen von Funktionen, fügen sie hinzu oder entfernen sie und testen die Ergebnisse bei jeder Iteration, um den Funktionsumfang zu ermitteln, der zur optimalen Modellleistung führt. Eingebettete Methoden integrieren die Funktionsauswahl in das Modelltraining, identifizieren leistungsschwache Funktionen und eliminieren sie aus zukünftigen Iterationen.

Beim nicht überwachten Lernen erkennen die Modelle selbständig Datenfunktionen, Muster und Beziehungen. Zu den Funktionsauswahlmethoden für nicht überwachtes Lernen gehören die Hauptkomponentenanalyse (Principal Component Analysis, PCA), unabhängige Komponentenanalyse (Independent Component Analysis, ICA) und Auto-Encoder.

Hyperparameter-Tuning

Hyperparameter-Tuning, auch als Hyperparameter-Optimierung oder Modell-Tuning bezeichnet, identifiziert, wählt und optimiert die Hyperparameter eines Deep-Learning-Modells, um die beste Trainingsleistung zu erzielen. Hyperparameter steuern den Lernprozess eines Modells, wobei das Finden der richtigen Kombination und Konfiguration von Hyperparametern die Leistung des Modells in der realen Welt verbessern kann.

Zu den gängigen Methoden der Abstimmung der Hyperparameter gehören die Gittersuche, die Zufallssuche, die Bayes'sche Optimierung und das Hyperband. Data Scientists können auch automatisierte Methoden einsetzen, um algorithmisch die optimalen Hyperparameter für ihren Anwendungsfall zu ermitteln.

Ensemble-Lernen

Ensemble-Lernen kombiniert mehrere Modelle, um die Prognoseleistung unter der Annahme zu verbessern, dass ein Kollektiv oder ein Ensemble von Modellen bessere Prognosen liefern kann als ein einzelnes Modell.

Hier sind einige beliebte Ensemble-Lerntechniken:

Bagging, auch Bootstrapping-Aggregation genannt, trainiert Modelle parallel und unabhängig voneinander. Anschließend wird der Durchschnitt (für Regressionsaufgaben) oder die Mehrheit (für Klassifizierungsprobleme) der Prognosen herangezogen, um eine genauere Schätzung zu berechnen.

Diagramm, das Bagging im Kontext des Ensemble-Lernens darstellt

Durch Boosting werden Modelle in Sequenzen trainiert, wobei in jeder Iteration frühere Fehler korrigiert werden. Fehlerhaften oder falsch klassifizierten Instanzen wird in nachfolgenden Modellen mehr Gewicht beigemessen, wodurch der Schwerpunkt auf anspruchsvollen Datenpunkten liegt und die Leistung im Laufe der Zeit verbessert wird.

Diagramm, das Boosting im Kontext des Ensemble-Lernens darstellt

Beim Stacking werden Modelle auf der Grundlage desselben Datensatzes trainiert, aber für jedes Modell ein anderer Algorithmus zum Trainieren angewendet. Anschließend werden die kompilierten oder gestapelten Prognosen verwendet, um ein endgültiges Modell zu trainieren.

Diagramm, das Stacking im Kontext des Ensemble-Lernens darstellt

Transferlernen

Beim Transferlernen wird das Wissen, das ein vortrainiertes Modell anhand einer ersten Aufgabe oder eines ersten Datensatzes gewonnen hat, auf eine neue, aber verwandte Zielaufgabe oder einen neuen Datensatz angewendet. Durch die Umwidmung eines vortrainierten Modells für eine andere Aufgabe werden die Funktionen dieses Modells verbessert und die Leistung optimiert.

Erzielen der optimalen Modellanpassung

Der Umgang mit Über- und Unteranpassung ist eine zentrale Herausforderung beim maschinellen Lernen. Ein optimal angepasstes Modell erkennt Muster in Daten genau, ohne zu empfindlich auf zufällige Fluktuationen oder Rauschen zu reagieren.

Zu den Techniken zur Vermeidung von Über- und Unteranpassung gehören das Finden der richtigen Trainingsdauer, um den Modellen gerade genug Zeit zum Lernen zu geben, die Datenerweiterung, um den Trainingssatz zu erweitern, und die Regularisierung, um die Varianz in einem Modell zu reduzieren, indem Eingabeparameter mit größeren Koeffizienten bestraft werden.

Schutz vor Modelldrift

Die Drifterkennung, ein zentraler Aspekt der Modellüberwachung und Observability, kann zum Schutz vor Modelldrift beitragen. KI-Drift-Detektoren erkennen beispielsweise automatisch, wenn die Genauigkeit eines Modells unter einen vordefinierten Schwellenwert abfällt oder abweicht, während Überwachungstools kontinuierlich Driftszenarien beobachten.

Sobald ein Drift erkannt wird, können ML-Modelle in Echtzeit aktualisiert oder mit einem neuen Datensatz mit neueren und relevanteren Proben neu trainiert werden.

Beseitigung von Verzerrungen

Die Eindämmung von KI-Verzerrung beginnt mit der KI-Governance, die Leitlinien, Prozesse und Standards umfasst, die dazu beitragen, dass KI-Systeme und -Tools ethisch und sicher sind. Hier sind einige Verantwortungsvolle KI-Praktiken, die vor Verzerrung schützen können:

Diversifizieren von Datenquellen und Einbezug von Daten, die für eine Vielzahl von Bedingungen, Kontexten und demografischen Merkmalen repräsentativ sind.
Aufbau vielfältiger Teams, um integratives KI-Design und -Entwicklung zu fördern.
Einsatz von erklärbaren KI-Techniken für mehr Transparenz, wie z. B. Local Interpretable Model-Agnostic Explanations (LIME), um die Vorhersage von Klassifikatoren durch ML-Algorithmen zu erläutern, und Shapley Additive Explanations (SHAP), um die Ausgabe eines ML-Modells zu erklären.
Integration von Fairness-Metriken in den Entwicklungsprozess und Nutzung algorithmischer Fairness-Tools und Frameworks.
Regelmäßige Durchführung von Audits zur Untersuchung von Daten und Algorithmen auf Verzerrungen.
Implementieren einer kontinuierlichen Leistungsüberwachung für bereitgestellte ML-Modelle, um Verzerrungen in den Ergebnissen schnell zu erkennen und zu korrigieren.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

Steigern Sie Ihre ML-Expertise

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Bericht „AI in Action“

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Was ist Modellleistung?

Autoren

Was ist Modellleistung?

Faktoren, die die Modellleistung beeinflussen

Datenqualität

Datenlecks

Auswahl der Merkmale

Modellanpassung

Modelldrift

Verzerrung

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Modell-Leistungsmetriken

Genauigkeit

Rückruf

Präzision

F1-Score

Leistungsmetriken des Klassifikationsmodells

Leistungsmetriken für Regressionsmodelle

Leistungsmetriken des Modells zur Verarbeitung natürlicher Sprache

Leistungsmetriken für Computer Vision-Modelle

Strategien zur Verbesserung der Modellleistung

Datenvorverarbeitung

Vermeidung von Datenlecks

Die richtigen Funktionen auswählen

Hyperparameter-Tuning

Ensemble-Lernen

Transferlernen

Erzielen der optimalen Modellanpassung

Schutz vor Modelldrift

Beseitigung von Verzerrungen

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Ressourcen