CHAID-Knoten
CHAID (Chi-squared Automatic Interaction Detection) ist eine Klassifizierungsmethode für die Erstellung von Entscheidungsbäumen mit Chi-Quadrat-Statistiken zur Identifizierung der optimalen Splits.
CHAID untersucht zuerst die zwischen allen Eingabefeldern und dem Ergebnis vorhandenen Kreuztabellen und testet die Signifikanz mit einem Chi-Quadrat-Unabhängigkeitstest. Wenn mehr als eine dieser Beziehungen statistisch signifikant ist, wählt CHAID das signifikanteste Eingabefeld aus (kleinster P-Wert). Wenn eine Eingabe mehr als zwei Kategorien besitzt, werden diese verglichen und solche Kategorien gegeneinander reduziert, deren Ergebnis keinen Unterschied aufweist. Dies erfolgt, indem sukzessive alle Kategorienpaare mit dem am wenigsten signifikanten Unterschied verbunden werden. Diese Kategoriezusammenführung wird gestoppt, wenn die Abweichung aller verbleibenden Kategorien das angegebene Testniveau erreicht hat. Bei nominalen Eingabefeldern können alle Kategorien zusammengeführt werden. Bei einem ordinalen Set können nur zusammenhängende Kategorien zusammengeführt werden.
Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle für jeden Prädiktor möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.
Anforderungen. Ziel- und Eingabefelder können stetig oder kategorial sein. Knoten können auf jeder Ebene in zwei oder mehr Untergruppen aufgeteilt werden. Alle im Modell verwendeten ordinalen Felder müssen numerisch (nicht als Zeichenfolge) gespeichert sein. Im Bedarfsfall können Sie die Felder mit dem Umcodierungsknoten konvertieren.
Stärken. Im Gegensatz zu den Knoten vom Typ "C&R-Baum" und "QUEST" kann CHAID nicht binäre Bäume generieren, d. h. Bäume mit Aufteilungen mit mehr als zwei Verzweigungen. CHAID erstellt daher tendenziell breitere Bäume als die binären Aufbaumethoden. CHAID funktioniert mit allen Eingaben und akzeptiert sowohl Fallgewichtungs- als auch Häufigkeitsvariablen.