Was ist Funktionsauswahl?

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Was ist die Merkmalsauswahl?

Unter Merkmalsauswahl versteht man den Prozess der Auswahl der relevantesten Merkmale eines Datensatzes, die bei der Erstellung und dem Training eines ML-Modells verwendet werden. Durch die Reduzierung des Merkmalsraums auf eine ausgewählte Teilmenge verbessert die Merkmalsauswahl die Leistung des KI-Modells und senkt gleichzeitig den Rechenaufwand.

Ein „Merkmal“ bezieht sich auf eine einzelne messbare Eigenschaft oder ein Merkmal eines Datenpunkts: ein spezifisches Attribut der Daten, das zur Beschreibung des beobachteten Phänomens beiträgt. Ein Datensatz über Wohnraum könnte Merkmale wie „Anzahl der Zimmer“ und „Baujahr“ enthalten.

Die Merkmalsauswahl ist Teil des Feature-Engineering-Prozesses, bei dem Data Scientists Daten vorbereiten und einen Merkmalssatz für Algorithmen für maschinelles Lernen kuratieren. Die Merkmalsauswahl ist der Teil des Feature Engineering, der sich mit der Auswahl der für das Modell zu verwendenden Merkmale befasst.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Die Vorteile der Feature-Auswahl

Die Merkmalsauswahl optimiert ein Modell, indem die wichtigsten, einflussreichsten und nicht redundanten Merkmale im Datensatz identifiziert werden. Die Verringerung der Anzahl der Merkmale erhöht die Effizienz des Modells und steigert die Leistung.

Zu den Vorteilen der Merkmalsauswahl gehören:

Bessere Modellleistung: Irrelevante Merkmale schwächen die Modellleistung. Wenn man dagegen den richtigen Satz von Merkmalen für ein Modell wählt, wird es genauer und präziser und sorgt für eine bessere Erkennung. Datenmerkmale beeinflussen die Konfiguration der Gewichte der Modelle während des Trainings, was wiederum die Leistung steigert. Dies unterscheidet sich vom Hyperparameter-Tuning, das vor dem Training erfolgt.

Reduzierte Überanpassung: Eine Überanpassung tritt auf, wenn ein Modell nicht über seine Trainingsdaten hinaus generalisieren kann. Durch das Entfernen redundanter Merkmale wird die Überanpassung verringert und ein Modell kann besser auf neue Daten generalisiert werden.

Kürzere Trainingszeiten: Durch die Konzentration auf eine kleinere Teilmenge von Merkmalen benötigen Algorithmen weniger Zeit für das Training. Modellersteller können ihre Modelle mit einer kleineren Gruppe ausgewählter Merkmale schneller testen, validieren und bereitstellen.

Niedrigere Rechenkosten: Ein kleinerer Datensatz mit den besten Merkmalen ermöglicht einfachere Vorhersagemodelle, die weniger Speicherplatz benötigen. Ihre Rechenanforderungen sind geringer als die komplexerer Modelle.

Bessere Interpretierbarkeit: Erklärbare KI konzentriert sich auf die Erstellung von Modellen, die Menschen verstehen können. Je komplexer die Modelle werden, desto schwieriger wird es, ihre Ergebnisse zu interpretieren. Einfachere Modelle sind leichter zu überwachen und zu erklären

Reibungslosere Implementierung: Einfachere, kleinere Modelle erleichtern Entwicklern die Arbeit bei der Erstellung von KI-Apps, z. B. die für die Datenvisualisierung.

Reduzierung der Dimensionalität: Wenn mehr Eingabevariablen im Spiel sind, bewegen sich die Datenpunkte innerhalb des Modellraums weiter auseinander. Hochdimensionale Daten haben mehr freien Platz, was es für den Algorithmus des maschinellen Lernens schwieriger macht, Muster zu erkennen und gute Vorhersagen zu treffen.

Das Sammeln von mehr Daten kann den Fluch der Dimensionalität abmildern, aber die Auswahl der wichtigsten Merkmale ist praktikabler und kostengünstiger.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Was sind Funktionen?

Ein Merkmal ist eine definierbare Qualität der Elemente in einem Datensatz. Merkmale werden auch als Variablen bezeichnet, da sich ihre Werte von einem Datenpunkt zum nächsten ändern können, und als Attribute, da sie die Datenpunkte im Datensatz charakterisieren. Unterschiedliche Merkmale charakterisieren die Datenpunkte auf unterschiedliche Weise.

Merkmale können unabhängige Variablen, abhängige Variablen, die ihren Wert von unabhängigen Variablen ableiten, oder kombinierte Attribute sein, die aus mehreren anderen Merkmalen zusammengestellt werden.

Das Ziel der Merkmalsauswahl besteht darin, die wichtigsten Eingabevariablen zu identifizieren, die das Modell zur Vorhersage abhängiger Variablen verwenden kann. Die Zielvariable ist die abhängige Variable, die das Modell vorhersagen soll.

In einer Mitarbeiterdatenbank können die Eingabemerkmale beispielsweise Alter, Standort, Gehalt, Titel, Leistungsmetriken und Dauer der Beschäftigung umfassen. Ein Arbeitgeber kann diese Variablen verwenden, um ein kombiniertes Zielattribut zu generieren, das die Wahrscheinlichkeit darstellt, dass ein Mitarbeiter das Unternehmen für ein besseres Angebot verlässt. Dann kann der Arbeitgeber festlegen, wie er diese Mitarbeiter zum Bleiben ermutigen kann.

Merkmale können grob in numerische und kategoriale Variablen kategorisiert werden.

Numerische Variablen wie Länge, Größe, Alter und Dauer sind quantifizierbar.

Kategoriale Variablen sind alles, was nicht numerisch ist, z. B. Name, Berufsbezeichnung und Standort.

Bevor die Merkmalsauswahl erfolgt, werden bei der Merkmalsextraktion Rohdaten in numerische Merkmale umgewandelt, die von ML-Modellen verwendet werden können. Die Merkmalsextraktion vereinfacht die Daten und reduziert die Rechenanforderungen, die für die Verarbeitung erforderlich sind.

Methoden zur überwachten Merkmalsauswahl

Bei der Merkmalsauswahl für überwachtes Lernen wird die Zielvariable verwendet, um die wichtigsten Merkmale zu bestimmen. Da die Datenmerkmale bereits identifiziert sind, besteht die Aufgabe darin, zu identifizieren, welche Eingabevariablen sich am direktesten auf die Zielvariable auswirken. Die Korrelation ist das primäre Kriterium bei der Bewertung der wichtigsten Merkmale.

Zu den überwachten Methoden zur Auswahl von Merkmalen gehören:

Filtermethoden

Wrapper-Methoden

Eingebettete Methoden

Hybride Methoden, die zwei oder mehr überwachte Methoden zur Merkmalsauswahl kombinieren, sind ebenfalls möglich.

Filtermethoden

Filtermethoden sind eine Gruppe von Techniken zur Auswahl von Merkmalen, die sich ausschließlich mit den Daten selbst befassen und die Optimierung der Modellleistung nicht direkt berücksichtigen. Die Eingabevariablen werden unabhängig von der Zielvariablen bewertet, um festzustellen, welche die höchste Korrelation aufweist. Methoden, die Merkmale einzeln testen, werden als univariate Methoden zur Merkmalsauswahl bezeichnet.

Häufig als Datenvorverarbeitungstool eingesetzt, sind Filtermethoden schnelle und effiziente Algorithmen zur Merkmalsauswahl, die Redundanz reduzieren und irrelevante Merkmale aus dem Datensatz entfernen. Verschiedene statistische Tests werden verwendet, um die Korrelation jeder Eingabe zu bewerten. Andere Methoden eignen sich jedoch besser zur Vorhersage der Modellleistung.

Einige gängige Filtermethoden, die in beliebten Bibliotheken für maschinelles Lernen wie Scikit-Learn (Sklearn) verfügbar sind, sind:

Informationsgewinn: Misst anhand des Grads der Entropiereduktion, wie wichtig das Vorhandensein oder Fehlen eines Merkmals bei der Bestimmung der Zielvariablen ist.

Gegenseitige Information: Beurteilt die Abhängigkeit zwischen Variablen, indem die Informationen, die man über die eine oder die andere erhält, gemessen werden.

Chi-Quadrat-Test: Bewertet die Beziehung zwischen zwei kategorialen Variablen durch Vergleich der beobachteten mit den erwarteten Werten.

Fisher-Score: Verwendet Ableitungen, um die relative Bedeutung der einzelnen Merkmale für die Klassifizierung von Daten zu berechnen. Eine höhere Punktzahl bedeutet einen größeren Einfluss.

Pearson-Korrelationskoeffizient: Quantifiziert die Beziehung zwischen zwei kontinuierlichen Variablen mit einer Punktzahl von -1 bis 1.

Schwellenwert für die Varianz: Entfernt alle Merkmale, die unter einen Mindestgrad an Varianz fallen, da Merkmale mit mehr Varianzen wahrscheinlich nützlichere Informationen enthalten. Eine verwandte Methode ist die mittlere absolute Abweichung (MAD).

Verhältnis fehlender Werte: Berechnet den Prozentsatz der Instanzen in einem Datensatz, für die ein bestimmtes Merkmal fehlt oder einen Nullwert hat. Wenn ein Merkmal bei zu vielen Instanzen fehlt, ist es wahrscheinlich nicht nützlich.

Streuungsverhältnis: Das Verhältnis der Varianz zum Mittelwert für ein Merkmal. Eine höhere Streuung bedeutet mehr Informationen.

ANOVA (Varianzanalyse): Bestimmt, ob sich unterschiedliche Merkmalswerte auf den Wert der Zielvariablen auswirken.

Wrapper-Methoden

Wrapper-Methoden trainieren den Algorithmus für maschinelles Lernen mit verschiedenen Teilmengen von Merkmalen, fügen Merkmale hinzu oder entfernen sie und testen die Ergebnisse bei jeder Iteration. Das Ziel aller Wrapper-Methoden ist es, den Merkmalssatz zu finden, der zu einer optimalen Modellleistung führt.

Wrapper-Methoden, die alle möglichen Merkmalskombinationen testen, werden als Greedy-Algorithmen bezeichnet. Ihre Suche nach dem insgesamt besten Merkmalssatz ist rechenintensiv und zeitaufwändig und eignet sich daher am besten für Datensätze mit kleineren Merkmalsräumen.

Data Scientists können den Algorithmus so einstellen, dass er anhält, wenn die Modellleistung abnimmt oder wenn eine bestimmte Anzahl von Merkmalen im Spiel ist.

Zu den Wrapper-Methoden gehören:

Vorwärtsauswahl: Beginnt mit einem leeren Merkmalssatz und fügt nach und nach neue Merkmale hinzu, bis der optimale Satz gefunden ist. Die Modellauswahl findet statt, wenn sich die Leistung des Algorithmus nach einer bestimmten Iteration nicht verbessert.

Rückwärtsauswahl: Trainiert ein Modell mit allen ursprünglichen Merkmalen und entfernt iterativ die unwichtigste Merkmale aus dem Merkmalssatz.

Merkmalsauswahl: Testet jede mögliche Kombination von Merkmalen, um die insgesamt beste zu finden, indem eine bestimmte Leistungsmetrik optimiert wird. Ein logistisches Regressionsmodell, das eine umfassende Merkmalsauswahl verwendet, testet jede mögliche Kombination jeder möglichen Anzahl von Merkmalen.

Rekursive Merkmalseliminierung (Recursive Feature Eliminierung, RFE): Eine Art der Rückwärtsauswahl, die mit einem anfänglichen Merkmalsraum beginnt und nach jeder Iteration Merkmale basierend auf ihrer relativen Bedeutung eliminiert oder hinzufügt.

Rekursive Merkmalseliminierung mit Kreuzvalidierung: Eine Variante der rekursiven Eliminierung, die eine Kreuzvalidierung verwendet, bei der ein Modell anhand nicht sichtbarer Daten getestet wird, um den Merkmalssatz mit der besten Leistung auszuwählen. Die Kreuzvalidierung ist eine gängige Evaluierungstechnik für Large Language Models (LLM).

Eingebettete Methoden

Bei eingebetteten Methoden wird die Merkmalsauswahl in den Trainingsprozess des Modells eingefügt oder eingebettet. Während das Modell trainiert wird, verwendet es verschiedene Mechanismen, um unzureichende Merkmale zu erkennen und diese aus zukünftigen Iterationen auszuschließen.

Viele eingebettete Methoden drehen sich um die Regularisierung, bei der Merkmale basierend auf einem voreingestellten Koeffizientenschwellenwert bestraft werden. Modelle tauschen ein gewisses Maß an Genauigkeit gegen mehr Präzision ein. Das Ergebnis ist, dass die Modelle beim Training etwas weniger gut abschneiden, aber durch die Reduzierung der Überanpassung verallgemeinerbar werden.

Zu den eingebetteten Methoden gehören:

LASSO-Regression (L1-Regression): ergänzt die Verlustfunktion um einen Strafterm, der große Regressionskoeffizienten bestraft und sie in Richtung 0 verschiebt. Koeffizienten mit dem Wert 0 werden entfernt. Je größer der Strafterm, desto mehr Merkmale werden aus dem Merkmalsraum entfernt. Bei der effektiven Verwendung von LASSO geht es darum, die Regulierungsstärke so abzustimmen, dass genügend irrelevante Merkmale entfernt werden, während alle wichtigen Merkmale beibehalten werden.

Bedeutung von Random Forest: Erstellt Hunderte von Decision Trees, jeder mit einer zufälligen Auswahl von Datenpunkten und Merkmalen. Jeder Baum wird danach bewertet, wie gut er die Datenpunkte aufteilt. Je besser die Ergebnisse, desto wichtiger werden die Merkmale in diesem Baum eingeschätzt. Klassifikatoren messen die „Unreinheit“ der Gruppierungen anhand der Gini-Unreinheit oder des Informationsgewinns, während Regressionsmodelle dazu die Varianz verwenden.

Gradient Boosting: Fügt einer Einheit nacheinander Prädiktoren hinzu, wobei jede Iteration die Fehler der vorherigen korrigiert. Auf diese Weise lässt sich feststellen, welche Merkmale am ehesten zu optimalen Ergebnissen führen.

Methoden zur unbeaufsichtigten Merkmalsauswahl

Beim nicht überwachten Lernen erkennen die Modelle selbständig Datenmerkmale, Muster und Beziehungen. Es ist nicht möglich, Eingabevariablen an eine bekannte Zielvariable anzupassen. Unüberwachte Methoden zur Merkmalsauswahl verwenden andere Techniken, um den Merkmalsraum zu vereinfachen und zu rationalisieren.

Eine unüberwachte Methode zur Merkmalsauswahl ist die Hauptkomponentenanalyse (PCA). PCA reduziert die Dimensionalität großer Datensätze, indem potenziell korrelierte Variablen in einen kleineren Satz von Variablen umgewandelt werden. Diese Hauptkomponenten behalten die meisten Informationen im ursprünglichen Datensatz. PCA wirkt dem Fluch der Dimensionalität entgegen und reduziert außerdem Überanpassung.

Zu den anderen gehören die unabhängige Komponentenanalyse (Independent Component Analysis, ICA), die multivariate Daten in einzelne Komponenten aufteilt, die statistisch unabhängig sind, sowie Autoencoder.

Ein Autoencoder, der häufig in Transformer-Architekturen verwendet wird, ist eine Art neuronales Netz, das lernt, Daten zu komprimieren und dann zu rekonstruieren. Dabei entdecken Autoencoder latente Variablen, d. h. solche, die nicht direkt beobachtbar sind, aber die Datenverteilung stark beeinflussen.

Methode zur Funktionsauswahl wählen

Die Art der verwendeten Merkmalsauswahl hängt von der Art der Eingabe- und Ausgabevariablen ab. Diese prägen auch die Art der Herausforderung des maschinellen Lernens – ob es sich um ein Klassifizierungsproblem oder eine Regressionsaufgabe handelt.

Numerische Eingabe, numerische Ausgabe: Wenn sowohl die Eingaben als auch die Ausgaben numerisch sind, weist dies auf ein Regressionsproblem hin. Lineare Modelle geben kontinuierliche numerische Vorhersagen aus – sie geben eine Zielvariable aus, die eine Zahl innerhalb eines Bereichs möglicher Werte ist. In diesen Fällen sind Korrelationskoeffizienten, wie z. B. der Korrelationskoeffizient von Pearson, eine ideale Methode für die Auswahl von Funktionen.

Numerische Eingabe, kategoriale Ausgabe: Logistische Regressionsmodelle klassifizieren Eingaben in diskrete kategoriale Ausgaben. Bei diesem Klassifizierungsproblem können korrelationsbasierte Methoden zur Merkmalsauswahl verwendet werden, die kategoriale Zielvariablen unterstützen. Dazu gehören die ANOVA für lineare Regressionsmodelle und Kendalls Rangkorrelationskoeffizient für nichtlineare Aufgaben.

Kategoriale Eingabe, numerische Ausgabe: Diese seltene Art von Herausforderung kann auch mit Korrelationsmethoden gelöst werden, die kategoriale Variablen unterstützen.

Kategoriale Eingabe, kategoriale Ausgabe: Klassifizierungsprobleme mit kategorialen Eingabe- und Zielvariablen eignen sich für die Chi-Quadrat-Methode oder Techniken des Informationsgewinns.

Zu den weiteren zu berücksichtigenden Faktoren gehören die Größe des Datensatzes und des Merkmalsraums, die Merkmalskomplexität und der Modelltyp. Filtermethoden können schnell einen großen Teil irrelevanter Merkmale eliminieren, haben jedoch Probleme mit komplexen Merkmalsinteraktionen. In diesen Fällen sind Wrapper- und eingebettete Methoden möglicherweise besser geeignet.

Was macht Funktionen wichtig?

Die Kenntnis der Merkmale, auf die man sich konzentrieren sollte, ist die entscheidende Komponente der Merkmalsauswahl. Einige Merkmale sind für die Modellierung äußerst wünschenswert, während andere zu unterdurchschnittlichen Ergebnissen führen können. Neben ihrem Einfluss auf die Zielvariablen wird die Merkmalswichtigkeit bestimmt durch:

Einfache Modellierung: Wenn ein Merkmal leicht zu modellieren ist, ist der gesamte Prozess des maschinellen Lernens einfacher und schneller und birgt weniger Fehlermöglichkeiten.

Einfach zu regulieren: Merkmale, die sich gut für die Regularisierung eignen, können effizienter verwendet werden.

Entflechtung der Kausalität: Kausale Faktoren aus einem beobachtbaren Merkmal zu entflechten bedeutet, die zugrundeliegenden Faktoren zu identifizieren, die es beeinflussen.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

Steigern Sie Ihre ML-Expertise

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Bericht „AI in Action“

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen