Modellauswahl beim maschinellen Lernen

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Was ist Modellauswahl beim maschinellen Lernen?

Die Modellauswahl beim maschinellen Lernen ist der Prozess der Auswahl des am besten geeigneten maschinellen Lernmodells (ML-Modells) für die jeweilige Aufgabe. Das ausgewählte Modell ist in der Regel dasjenige, das am besten auf unbekannte Daten verallgemeinert ist und gleichzeitig die relevanten Metriken am erfolgreichsten erfüllt.

Der Auswahlprozess für ML-Modelle ist ein Vergleich verschiedener Modelle aus einem Kandidatenpool. Spezialisten für maschinelles Lernen bewerten die Leistung jedes ML-Modells und wählen dann anhand einer Reihe von Bewertungsmetriken das beste Modell aus.

Im Mittelpunkt der meisten Aufgaben des maschinellen Lernens steht die Herausforderung, Muster in Daten zu erkennen und dann auf der Grundlage dieser Muster Vorhersagen über neue Daten zu treffen. Die Wahl des leistungsstärksten Prognosenmodells führt zu genaueren Vorhersagen und einer zuverlässigeren ML-Anwendung.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Warum ist die Modellauswahl wichtig?

Die Auswahl des KI-Modells ist daher so wichtig, da sie bestimmt, wie gut das maschinelle Lernsystem funktionieren wird. Verschiedene Modelle haben jeweils ihre Stärken und Schwächen, und die Wahl des richtigen Modells wirkt sich direkt auf den Projekterfolg aus. Die Modellauswahl ist eine frühe Phase in der größeren maschinellen Lernpipeline zur Erstellung und Bereitstellung von ML-Modellen.

Einige Aufgaben erfordern komplexe Modelle, die die Details eines großen Datensatzes erfassen können, aber mit der Verallgemeinerung auf neue Daten zu kämpfen haben. Sie können auch mit höheren Rechenleistungs- und Ressourcenanforderungen verbunden sein. Für andere Aufgaben eignen sich kleinere, einfache Modelle, die für einen bestimmten Zweck entwickelt wurden.

Die Auswahl des richtigen Modells für die jeweilige Aufgabe kann:

Die Effizienz optimieren: Das stärkste Modell unter allen Kandidaten gleicht Kompromisse zwischen Leistung und Verallgemeinerbarkeit mit Komplexität und Ressourcenverbrauch aus.
Die Modellleistung maximieren: Ein Tool ist nur so stark wie die Aufgabe, auf die es angewendet wird. Das Testen und Bewerten von Modellkandidaten zeigt das leistungsstärkste Modell für die jeweilige Aufgabe auf, wodurch die KI-Anwendung die besten Chancen hat, in der Praxis eingesetzt zu werden.
Den Projekterfolg steigern: Die Komplexität des Modells wirkt sich direkt auf den Zeit- und Ressourcenbedarf des Trainings sowie auf die Ergebnisse aus. Vorhersagemodelle reichen von einfach bis komplex. Einfachere Modelle lassen sich schneller und kostengünstiger schulen, während komplexe Modelle mehr Daten, Geld und Zeit erfordern.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Serie ansehen

Der Prozess der Modellauswahl

Der Modellauswahlprozess ist so konzipiert, dass ein Modell erstellt werden kann, das individuell an den Zielanwendungsfall angepasst ist. Spezialisten für maschinelles Lernen zeichnen das Problem auf, wählen aus den Arten von Modellen, die voraussichtlich eine gute Leistung erbringen werden, und trainieren schließlich Kandidatenmodelle, um die beste Gesamtauswahl zu ermitteln.

Die Phasen des Modellauswahlprozesses umfassen in der Regel:

Festlegen der ML-Herausforderung
Auswahl von Kandidatenmodellen
Bestimmung von Metriken zur Modellbewertung
Modelltraining und -bewertung

Festlegen der ML-Herausforderung

Abhängig von der Art der Aufgabe sind einige Algorithmen des maschinellen Lernens besser geeignet als andere. ML-Herausforderungen lassen sich normalerweise in eine von drei Kategorien einteilen:

Regressionsprobleme stellen Modelle vor die Aufgabe, die Beziehungen zwischen Eingabefunktionen und einer ausgewählten kontinuierlichen Ausgabe, wie z.B. einem Preis, zu identifizieren. Beispiele für Regressionsprobleme sind die Vorhersage von Benchmarks oder die Wahrscheinlichkeit von Naturkatastrophen anhand von Wetterbedingungen. Die Prognosen des Modells basieren auf relevanten Funktionen, wie der Jahreszeit oder demografischen Informationen. Zeitreihenprognosen sind eine Art Regressionsproblem, das den Wert einer Variablen im Zeitverlauf vorhersagt. Zeitreihenmodelle sind eine recheneffiziente Modellklasse, die sich auf diese Herausforderung spezialisiert hat.
Bei Klassifikationsproblemen werden Datenpunkte basierend auf einer Reihe von Eingabe in Kategorien eingeordnet. Beispiele für Klassifizierungsprobleme sind Objekterkennung und E-Mail-Spam-Filter. Der Trainingssatz kann Datenpunkte mit beschrifteten Ausgaben enthalten, sodass das Modell die Verbindung zwischen Eingaben und Ausgaben erlernen kann. Diese Vorgehensweise wird als überwachtes Lernen bezeichnet.
Clustering-Probleme gruppieren Datenpunkte basierend auf Ähnlichkeiten. Clustering ist nicht ganz das Gleiche wie die Klassifizierung, da das Ziel darin besteht, Cluster innerhalb der Datenpunkte zu entdecken, und nicht, die Datenpunkte in bekannte Kategorien einzuordnen. Modelle müssen in einer unbeaufsichtigten Lernumgebung selbst Ähnlichkeiten erkennen. Die Marktsegmentierung ist ein Beispiel für ein Clustering-Problem.

Bestimmung von Metriken zur Modellbewertung

Der Testprozess vergleicht Kandidatenmodelle und bewertet ihre Leistung anhand einer Reihe vorab ausgewählter Bewertungsmetriken. Obwohl es viele Metriken gibt, sind einige für bestimmte Arten von ML-Problemen besser geeignet als andere.

Zu den Metriken für die Klassifizierung des Modells gehören:

Genauigkeit: Der prozentuale Anteil der richtigen Prognosen an der Gesamtzahl der getroffenen Prognosen.
Präzision: Das Verhältnis der richtigen positiven Prognosen zu allen positiven Prognosen, wobei die Genauigkeit der positiven Prognosen gemessen wird.
Rückruf: Das Verhältnis der richtigen positiven Prognosen zu allen tatsächlich positiven Instanzen, das die Fähigkeit des Modells misst, positive Instanzen zu identifizieren.
F1-Score: Kombiniert Präzision und Rückruf zu einem Gesamtüberblick über die Fähigkeit des Modells, positive Instanzen zu erkennen und korrekt zu klassifizieren.
Konfusionsmatrix: Fasst die Leistung eines Klassifizierungsmodells zusammen, indem wahre positive, falsch-positive, wahre negative und falsch-negative Ergebnisse in einer Tabelle angezeigt werden.
AUC-ROC: Ein Diagramm, das die Wahr-Positiv- und Falsch-Positiv-Raten als ROC-Kurve (Receiver Operating Feature) darstellt. Die Fläche unter der Linie (Area under the Curve, AUC) zeigt die Leistung des Modells.

Zu den Metriken zur Regressionsbewertung gehören:

Mittlerer quadratischer Fehler (MSE): Mittelwert der Differenz zwischen den Quadraten der Unterschiede zwischen vorhergesagten und tatsächlichen Werten. MSE reagieren sehr empfindlich auf Sonderfälle und bestrafen große Fehler streng.
Mittlerer quadratischer Fehler (RMSE): Die Quadratwurzel des MSE, die die Fehlerrate in denselben Einheiten wie die Variable anzeigt und die Interpretierbarkeit der Metrik erhöht. MSE zeigt den gleichen Fehler in Einheiten zum Quadrat an.
Mittlerer absoluter Fehler (MAE): Der Mittelwert der Differenzen zwischen tatsächlichen und praktizierten Werten für die Zielvariable. MAE ist weniger empfindlich als MSE.
Mittlerer absoluter prozentualer Fehler (MAPE): gibt den mittleren absoluten Fehler als Prozentsatz statt in den Einheiten der vorhergesagten Variablen an, was den Vergleich von Modellen erleichtert.
R-Quadrat: Gibt eine Benchmark-Messung der Leistung des Modells zwischen 0 und 1 an. Der R-Quadrat-Wert kann jedoch durch Hinzufügen weiterer Funktionen künstlich erhöht werden.
Angepasstes r-Quadrat: Spiegelt die Beiträge von Funktionen wider, die die Leistung des Modells verbessern, während irrelevante Funktionen ignoriert werden.

Modelltraining und -bewertung

Data Scientists bereiten sich auf das Modelltraining und die Auswertung vor, indem sie die verfügbaren Daten in mehrere Sätze aufteilen. Der Trainingsdatensatz wird für das Modelltraining verwendet, bei dem die Kandidatenmodelle lernen, Muster und Beziehungen in den Datenpunkten zu erkennen. Anschließend wird die Leistung des Modells mit einem anderen Teil des Datensatzes überprüft.

Die einfachste und schnellste Form des Testens ist die Aufteilung zum Trainieren. Data Scientists teilen den Datensatz in zwei Teile auf, einen für das Training und einen zum Testen. Das Modell wird erst nach dem Training der Testaufteilung ausgesetzt – die Testmenge dient als Ersatz für die neuen, unbekannten Daten, die das Modell in der realen Welt verarbeiten wird.

Techniken zur Modellauswahl

Modellersteller haben Zugang zu einer Vielzahl von Techniken zur Modellauswahl. Einige beziehen sich auf die anfängliche Einrichtung und Architektur des Modells und beeinflussen wiederum dessen Verhalten. Andere bieten eine differenziertere und strengere Modellbewertung oder sagen voraus, wie Modelle bei einem bestimmten Datensatz abschneiden werden.

Zu den Techniken für die Modellauswahl gehören:

Hyperparameter-Tuning
Vergleichsprüfung
Bootstrapping
Informationskriterien

Hyperparameter-Tuning

Hyperparameter-Tuning ist der Prozess der Optimierung der Hyperparameter eines Modells, bei denen es sich um externe Einstellungen handelt, die Struktur und das Verhalten des Modells bestimmen. Modelle verfügen auch über interne Parameter, die während des Trainings in Echtzeit aktualisiert werden. Interne Parameter bestimmen, wie ein Modell Daten verarbeitet. Komplexe Modelle, die zum Beispiel für generative KI (genAI) genutzt werden, können über eine Billion Parameter haben.

Das Hyperparameter-Tuning ist nicht dasselbe wie die Feinabstimmung eines Modells, bei der ein Modell nach der anfänglichen Trainingsphase (bekannt als Vortraining) weiter trainiert oder angepasst wird.

Einige bemerkenswerte Techniken zur Optimierung von Hyperparametern sind:

Rastersuche: Jede mögliche Hyperparameterkombination wird trainiert, getestet und bewertet. Die Rastersuche ist eine umfassende Brute-Force-Methode, bei der wahrscheinlich die beste Hyperparameterkombination gefunden wird. Sie ist jedoch zeitaufwändig und ressourcenintensiv.
Zufällige Suche: Stichproben von Hyperparameterkombinationen werden nach dem Zufallsprinzip ausgewählt, wobei jede Stichprobe in der Teilmenge zum Trainieren und Testen eines Modells verwendet wird. Die zufällige Suche ist eine Alternative zur Rastersuche, wenn letztere nicht durchführbar ist.
Bayes'sche Optimierung: Mithilfe eines probabilistischen Modells wird vorhergesagt, welche Hyperparameterkombinationen am wahrscheinlichsten zur besten Modellleistung führen werden. Die Bayes'sche Optimierung ist eine iterative Methode, die sich mit jeder Trainings- und Testrunde verbessert und gut mit großen Hyperparameterräumen funktioniert.

Kreuzvalidierung

Beim k-fachen Kreuzvalidierungs-Resampling-System werden die Daten in k-Sätze oder Faltungen unterteilt. Die Trainingsdaten umfassen k-1 Teilmengen und das Modell wird für den verbleibenden Satz validiert. Der Prozess iteriert so, dass jede Teilmenge als Validierungssatz dient. Datenpunkte werden ohne Ersatz abgetastet, was bedeutet, dass jeder Datenpunkt einmal pro Iteration vorkommt.

Die K-fache Kreuzvalidierung bietet einen ganzheitlicheren Überblick über die Leistung eines Modells als eine einfache Trainingstest-Aufteilung.

Bootstrapping

Bootstrapping ist eine Resampling-Technik, die der Kreuzvalidierung ähnelt, nur dass für die Datenpunkte eine Stichprobe mit Ersetzung erfasst wird. Das bedeutet, dass abgetastete Datenpunkte in mehreren Faltungen auftreten können.

Kriterien für die Information

Informationskriterien vergleichen den Grad der Modellkomplexität mit der Wahrscheinlichkeit einer Über- oder Unteranpassung des Datensatzes. Überanpassung bedeutet, dass sich das Modell zu genau an den Trainingssatz anpasst und nicht auf neue Daten verallgemeinert werden kann. Unteranpassung ist die Umkehrung, bei der ein Modell nicht komplex genug ist, um Beziehungen zwischen Datenpunkten zu erfassen.

Sowohl das Akaike-Informationskriterium (AIC) als auch das Bayes'sche Informationskriterium (BIC) bieten Anreize für die Einführung des Modells mit der geringstmöglichen Komplexität, das den Datensatz angemessen verarbeiten kann.

Faktoren, die die Modellauswahl beeinflussen

Die Modellleistung ist bei weitem nicht der einzige Faktor, der ein Modell zum „besten“ macht. Andere Faktoren können für die Entscheidung ebenso relevant sein, wenn nicht sogar wichtiger.

Datenkomplexität: Je komplexer ein Datensatz ist, desto komplexer musste das Modell sein, um ihn zu verarbeiten. Die Anwendung eines zu komplexen Modells kann jedoch zu einer Überanpassung führen. Und ein zu einfaches Modell kann die Muster in den Daten nicht angemessen erfassen. Das geeignete Modell ist in der Lage, Daten effizient zu verarbeiten und gleichzeitig eine Überanpassung zu vermeiden.
Datenqualität: Datenvorverarbeitung und Funktionsauswahl sind zwei datenwissenschaftliche Prozesse, die Daten für Anwendungen des maschinellen Lernens vorbereiten. Sonderfälle, fehlende Daten und andere Blocker wirken sich auf einige Modelle stärker aus als auf andere, können jedoch mit synthetischen Daten, Regularisierung und anderen Gegenmaßnahmen behoben werden.
Interpretierbarkeit: Die Interpretierbarkeit oder Erklärbarkeit ist der Grad, in dem die Funktionsweise eines Modells von menschlichen Beobachtern verstanden werden kann. Ein „Blackbox“-Modell ist kaum oder gar nicht interpretierbar – sein Workflow zur Entscheidungsfindung ist weitgehend ein Rätsel. Bei sensiblen Geschäftsanwendungen wie intelligenter Automatisierung und KI-gestützter Entscheidungsfindung ist die Interpretierbarkeit eine Priorität für Unternehmen, die Richtlinien für den verantwortungsvollen Einsatz von KI einhalten müssen. Bestimmte Branchen wie das Gesundheits- und Finanzwesen unterliegen umfangreichen Datenschutz- und anderen Vorschriften, was die Notwendigkeit einer klaren Interpretierbarkeit noch unterstreicht.
Effizienz und Ressourcennutzung: Praktische Einschränkungen wie Rechenverfügbarkeit und Finanzen können einige Modelle völlig ausschließen. Für das Schulen und den Betrieb tiefer neuronaler Netze sind riesige Datenmengen und finanzielle Investitionen erforderlich. Solche Modelle sind zwar spannend, aber nicht für jeden Job geeignet. AIC und BIC können ML-Projektleitern helfen, fundierte Entscheidungen zu treffen und die Modellkomplexität zu verringern.

LLM-Auswahl

LLMs sind die zentralen Modelle der künstlichen Intelligenz für viele Geschäftsanwendungen, wie z. B.KI-Agenten, RAG -gestützte Frage-Antwort-Funktionen oder Chatbots für den Kundenservice mit automatischer Textgenerierung. Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist die Verwendung von Algorithmen des maschinellen Lernens, um menschliche Sprache zu verstehen und zu erzeugen, und LLMs sind eine spezielle Art von NLP-Modell.

Zu den wichtigsten LLMs gehören die GPT-Familie von OpenAI – wie GPT-4o und GPT-3.5, einige der Modelle hinter ChatGPT – sowie Claude von Anthropic,Gemini von Google und Llama 3 von Meta. Alle LLMs sind in der Lage, komplexe Aufgaben zu bewältigen, aber durch die spezifischen Anforderungen eines maschinellen Lernprojekts kann man das richtige LLM für die jeweilige Aufgabe finden.

Die Wahl des richtigen LLM hängt von einer Reihe von Faktoren ab, darunter:

Spezifischer Anwendungsfall: Die Herausforderung des maschinellen Lernens wirkt sich direkt auf den LLM-Auswahlprozess aus. Ein LLM könnte sich für ein langwieriges Dokumentenverständnis und eine Zusammenfassung eignen, während ein anderes sich möglicherweise einfacher für eine Feinabstimmung auf domänenspezifische Verwendungszwecke eignet.
Leistung: Genau wie andere Modelle können LLMs miteinander verglichen werden, um ihre Leistung zu bewerten. Zu den LLM-Benchmarks gehören Metriken für Argumentation, Codierung, Mathematik, Latenz, Verständnis und Allgemeinwissen. Die Abwägung zwischen den Anforderungen eines Projekts und dem Benchmark kann dabei helfen, das beste LLM für qualitativ hochwertige Ausgaben zu finden.
Open Source versus Closed Source: Open-Source-Modelle ermöglichen es Beobachtern, zu überwachen, wie das Modell zu seinen Entscheidungen gelangt. Verschiedene LLMs können unterschiedlich stark zu Verzerrung und Halluzinationen neigen: wenn sie Vorhersagen generieren, die nicht die Ergebnisse der realen Welt widerspiegeln. Wenn die Moderation von Inhalten und die Vermeidung von Verzerrung von größter Bedeutung sind, kann die Beschränkung der Auswahl auf Open Source den LLM-Auswahlprozess unterstützen.
Ressourcennutzung und Kosten: LLMs sind ressourcenintensive Modelle. Viele LLMs werden von Hyperscale-Rechenzentren betrieben, die mit Hunderttausenden von Grafikprozessoren (GPUs) oder mehr ausgestattet sind. LLM-Anbieter berechnen auch die Gebühren für API-Verbindungen zu ihren Modellen unterschiedlich. Die Skalierbarkeit eines Modells und seines Preisgestaltungssystems wirkt sich direkt auf den Projektumfang aus.

Data Science und MLOps für Data Leader

Stimmen Sie sich mit anderen Führungskräften über die 3 wichtigsten Ziele von MLOps und vertrauenswürdiger KI ab: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.

Ressourcen

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI, maschinelles Lernen und Foundation Models zur Verbesserung der Leistung in Ihre Geschäftsabläufe integrieren können.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Was ist maschinelles Lernen?

Maschinelles Lernen ist ein Zweig der KI und der Informatik, der auf Grundlage von Daten und Algorithmen den menschlichen Lernprozess imitiert.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Buchen Sie eine Live-Demo