Knoten "Autom. Klassifikationsmerkmal" - Expertenoptionen

Über die Registerkarte "Experten" des Knotens "Autom. Klassifikationsmerkmal" können Sie eine Partition (falls verfügbar) anwenden, die zu verwendenden Algorithmen auswählen und Stoppregeln angeben.

Verwendete Modelle. Wählen Sie anhand der Kontrollkästchen in der Spalte auf der linken Seite die Modelltypen (Algorithmen) aus, die in den Vergleich aufgenommen werden sollen. Je mehr Typen Sie auswählen, desto mehr Modelle werden erstellt und desto länger dauert die Verarbeitung.

Modelltyp. Listet die verfügbaren Algorithmen auf (siehe unten).

Modellparameter. Sie können für die einzelnen Modelltypen entweder die Standardeinstellungen verwenden oder mithilfe von Angeben Optionen für den jeweiligen Modelltyp auswählen. Die einzelnen Optionen ähneln den in den separaten Modellierungskonten verfügbaren Optionen, mit dem Unterschied, dass mehrere Optionen bzw. Kombinationen ausgewählt werden können. Beispiel: Beim Vergleich von neuronalen Netzmodellen können Sie, anstatt eine der sechs Trainingsmethoden auszuwählen, alle sechs auswählen, um sechs Modelle in einem einzigen Durchgang zu trainieren.

Anzahl der Modelle. Listet die Anzahl der Modelle auf, die auf der Grundlage der aktuellen Einstellungen für die einzelnen Algorithmen erstellt wurden. Bei einer Kombination von Optionen kann die Anzahl der Modelle schnell recht groß werden. Daher wird dringend empfohlen, auf diesen Wert zu achten, insbesondere bei Verwendung großer Datasets.

Maximale Zeit für Erstellung eines einzelnen Modells beschränken. (Nur für K-Means-, Kohonen-, TwoStep-, SVM-, KNN-, Bayes Net- und Entscheidungslistenmodelle) Legt ein maximales Zeitlimit für jedes beliebige Modell fest. Wenn beispielsweise das Training für ein bestimmtes Modell aufgrund einer komplexen Interaktion unerwartet viel Zeit in Anspruch nimmt, wird durch diese Option vermieden, dass das Modell den gesamten Modellierungsdurchlauf aufhält.

Anmerkung: Wenn das Ziel ein nominales Feld (Setfeld) ist, ist die Option "Entscheidungsliste" nicht verfügbar.

Unterstützte Algorithmen

Der Knoten "Support Vector Machine" (SVM) ermöglicht die Klassifizierung von Daten in eine von zwei Gruppen ohne Überanpassung. SVM eignet sich gut für umfangreiche Datasets, beispielsweise solche mit einer großen Anzahl von Eingabefeldern.

Der Knoten "k-Nächste Nachbarn" (KNN) verknüpft einen neuen Fall mit der Kategorie oder dem Wert der k Objekte, die ihm im Prädiktorraum am nächsten liegen, wobei k eine Ganzzahl ist. Ähnliche Fälle liegen nah beieinander und Fälle mit geringer Ähnlichkeit sind weit voneinander entfernt.

Bei der Diskriminanzanalyse werden strengere Annahmen als bei der logistischen Regression verwendet, sie kann jedoch eine wertvolle Alternative oder Ergänzung zu einer logistischen Regressionsanalyse sein, wenn diese Annahmen erfüllt sind.

Mithilfe des Bayes-Netzknotens können Sie ein Wahrscheinlichkeitsmodell erstellen, indem Sie beobachtete und aufgezeichnete Hinweise mit "gesundem Menschenverstand" kombinieren, um die Wahrscheinlichkeit ihres Vorkommens zu ermitteln. Der Knoten ist speziell für Netze vom Typ "Tree Augmented Naïve Bayes" (TAN) und "Markov-Decke" gedacht, die in erster Linie zur Klassifizierung verwendet werden.

Der Knoten "Entscheidungsliste" kennzeichnet Untergruppen bzw. Segmente, die eine höhere oder geringere Wahrscheinlichkeit für ein bestimmtes binäres Ergebnis aufweisen als die Gesamtpopulation. Sie könnten beispielsweise nach Kunden suchen, deren Abwanderung unwahrscheinlich ist oder die mit großer Wahrscheinlichkeit positiv auf eine Kampagne reagieren. Sie können Ihr Fachwissen in das Modell integrieren, indem Sie eigene, benutzerdefinierte Segmente hinzufügen und eine Vorschau anzeigen, in der alternative Modelle nebeneinander angezeigt werden, um die Ergebnisse zu vergleichen. Entscheidungslistenmodelle bestehen aus einer Liste von Regeln, bei denen jede Regel eine Bedingung und ein Ergebnis aufweist. Regeln werden in der vorgegebenen Reihenfolge angewendet und die erste Regel, die zutrifft, bestimmt das Ergebnis.

Die logistische Regression ist ein statistisches Verfahren zur Klassifizierung von Datensätzen auf der Grundlage der Werte von Eingabefeldern. Sie ist analog zur linearen Regression, außer dass statt eines numerischen Bereichs ein kategoriales Zielfeld verwendet wird.

Der CHAID-Knoten generiert Entscheidungsbäume unter Verwendung von Chi-Quadrat-Statistiken zur Ermittlung optimaler Aufteilungen. Im Gegensatz zu den Knoten vom Typ "C&R-Baum" und "QUEST" kann CHAID nicht binäre Bäume generieren, d. h. Bäume mit Aufteilungen mit mehr als zwei Verzweigungen. Ziel- und Eingabefelder können in einem numerischen Bereich (stetig) oder kategorial sein. Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.

Der QUEST-Knoten bietet eine binäre Klassifizierungsmethode zum Erstellen von Entscheidungsbäumen, die dazu dient, die für Analysen von großen C&R-Bäumen erforderliche Verarbeitungszeit zu verkürzen. Gleichzeitig soll die in den Klassifizierungsbaummodellen festgestellte Tendenz verringert werden, die darin besteht, dass Eingaben bevorzugt werden, die mehr Aufteilungen erlauben. Eingabefelder können stetig (numerische Bereiche) sein, das Zielfeld muss aber kategorial sein. Alle Aufteilungen sind binär.

Der Knoten für Klassifizierungs- und Regressionsbäume (C&R-Bäume) generiert einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert und ein Knoten im Baum wird als "rein" betrachtet, wenn 100 % der Fälle in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Der C5.0-Knoten erstellt entweder einen Entscheidungsbaum oder ein Regelset. Das Modell teilt die Stichprobe auf der Basis des Felds auf, das auf der jeweiligen Ebene den maximalen Informationsgewinn liefert. Das Zielfeld muss kategorial sein. Es sind mehrere Aufteilungen in mehr als zwei Untergruppen zulässig.

Der neuronale Netzknoten verwendet ein vereinfachtes Modell der Art und Weise, wie ein menschliches Gehirn Informationen verarbeitet. Es funktioniert, indem eine große Anzahl miteinander verbundener einfacher Verarbeitungseinheiten simuliert wird, die abstrakten Versionen von Neuronen ähnlich sind. Neuronale Netze sind leistungsstarke Mehrzweckschätzer, für deren Training und Anwendung nur sehr geringe statistische oder mathematische Kenntnisse erforderlich sind.

Bei linearen Regressionsmodellen wird ein stetiges Ziel auf der Basis linearer Beziehungen zwischen dem Ziel und einem oder mehreren Prädiktoren vorhergesagt.

Der Knoten "Linear Support Vector Machine" (LSVM) ermöglicht die Klassifizierung von Daten in eine von zwei Gruppen ohne Überanpassung. LSVM ist linear und eignet sich gut für umfangreiche Datasets, beispielsweise solche mit einer großen Anzahl von Datensätzen.

Der Random Trees-Knoten ähnelt dem vorhandenen C&RT-Knoten, allerdings ist der Random Trees-Knoten für die Verarbeitung großer Datenmengen konzipiert. Er erstellt daraus einen einzelnen Baum und zeigt das resultierende Modell im Ausgabeviewer an, der in SPSS Modeler Version 17 hinzugefügt wurde. Der Random Trees-Knoten generiert einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert. Ein Knoten im Baum wird als rein betrachtet, wenn 100 % der Fälle im Knoten in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Der Tree-AS-Knoten ähnelt dem vorhandenen CHAID-Knoten, allerdings ist der Tree-AS-Knoten für die Verarbeitung großer Datenmengen konzipiert. Er erstellt daraus einen einzelnen Baum und zeigt das resultierende Modell im Ausgabeviewer an, der in SPSS Modeler Version 17 hinzugefügt wurde. Der Knoten generiert einen Entscheidungsbaum unter Verwendung von Chi-Quadrat-Statistiken (CHAID) zum Identifizieren optimaler Aufteilungen. Durch diese Verwendung von CHAID können nicht binäre Bäume generiert werden, d. h., einige Aufteilungen können mehr als zwei Verzweigungen haben. Ziel- und Eingabefelder können in einem numerischen Bereich (stetig) oder kategorial sein. Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.

XGBoost Tree© ist eine erweiterte Implementierung eines Gradienten-Boosting-Algorithmus mit einem Baummodell als Basismodell. Boosting-Algorithmen lernen iterativ schwache Klassifikationsmerkmale und fügen Sie einem endgültigen starken Klassifikationsmerkmal hinzu. XGBoost Tree ist äußerst flexibel und stellt viele Parameter bereit, die die meisten Benutzer überfordern könnten. Der Knoten "XGBoost Tree" in SPSS Modeler stellt daher nur die zentralen Funktionen und gängigen Parameter dar. Der Knoten ist in Python implementiert.

XGBoost© ist eine erweiterte Implementierung eines Gradienten-Boosting-Algorithmus. Boosting-Algorithmen lernen iterativ schwache Klassifikationsmerkmale und fügen Sie einem endgültigen starken Klassifikationsmerkmal hinzu. XGBoost ist äußerst flexibel und stellt viele Parameter bereit, die die meisten Benutzer überfordern könnten. Der Knoten "XGBoost-AS" in SPSS Modeler stellt daher nur die zentralen Funktionen und gängigen Parameter dar. Der Knoten "XGBoost-AS" ist in Spark implementiert.

Anmerkung: Wenn Sie Tree-AS zur Ausführung in Analytic Server auswählen, schlägt das Erstellen eines Modells fehl, wenn ein Partitionsknoten vorgeordnet ist. Wählen Sie in diesem Fall den Modelltyp "Tree-AS" ab, damit "Automatisches Klassifikationsmerkmal" mit anderen Modellierungsknoten in Analytic Server funktioniert.