Kategoriale Regression

Die Verwendung der kategorialen Regression ist am besten geeignet, wenn das Ziel der Analyse darin besteht, eine abhängige (Antwort-)Variable aus einem Set unabhängiger (Prädiktor-)Variablen vorherzusagen. Wie bei allen Prozeduren für die optimale Skalierung werden jeder Kategorie jeder Variablen Skalenwerte zugewiesen, dergestalt, dass diese Werte in Bezug auf die Regression optimal sind. Die Lösung einer kategorialen Regression maximiert die quadrierte Korrelation zwischen der transformierten Antwortvariablen und der gewichteten Kombination transformierter Prädiktoren.

Beziehung zu anderen Prozeduren von Categories. Die kategoriale Regression mit optimaler Skalierung ist vergleichbar mit der kanonischen Korrelationsanalyse mit optimaler Skalierung und zwei Sets, von denen ein Set jeweils nur eine Variable enthält. Bei letzterem Verfahren wird die Ähnlichkeit der Sets abgeleitet, indem jedes Set mit einer unbekannten Variablen verglichen wird, die irgendwo zwischen allen Sets liegt. Bei der kategorialen Regression wird die Ähnlichkeit der transformierten Antwortvariablen und der gewichteten Kombination transformierter Prädiktoren unmittelbar bewertet.

Beziehung zu Standardverfahren. Beim Standardverfahren der linearen Regression können kategoriale Variablen entweder als Indikatorvariablen umcodiert oder genauso wie Variablen auf Intervallniveau behandelt werden. Beim ersten Ansatz enthält das Modell eine gesonderte Konstante und Steigung für die einzelnen Niveaukombinationen für die kategorialen Variablen. Dies führt zu einer großen Anzahl zu interpretierender Parameter. Im zweiten Ansatz wird für jede Variable nur ein einziger Parameter geschätzt. Durch die willkürliche Festlegung der Kategoriecodierungen werden jedoch Verallgemeinerungen unmöglich.

Wenn einige Variablen nicht stetig sind, stehen alternative Analysen zur Verfügung. Bei stetiger Antwortvariabler und kategorialen Prädiktoren wird häufig eine Varianzanalyse durchgeführt. Bei kategorialer Antwortvariabler und stetigen Prädiktoren kann eine logistische Regression oder eine Diskriminanzanalyse angemessen sein. Wenn sowohl die Antwortvariable als auch die Prädiktoren kategorial sind, werden häufig loglineare Modelle verwendet.

Die Regression mit optimaler Skalierung bietet drei Messniveaus für die Skalierung der einzelnen Variablen. Durch Kombinationen dieser Niveaus kann eine große Bandbreite an nicht linearen Beziehungen behandelt werden, für die eine einzelne "Standard"-Methode nicht geeignet ist. Folglich bietet die optimale Skalierung eine größere Flexibilität als die Standardansätze bei kaum höherer Komplexität.

Außerdem werden durch nicht lineare Transformationen der Prädiktoren normalerweise die Abhängigkeiten zwischen den einzelnen Prädiktoren verringert. Wenn Sie die Eigenwerte der Korrelationsmatrix für die Prädiktoren mit den Eigenwerten der Korrelationsmatrix für die optimal skalierten Prädiktoren vergleichen, ist die zweite Gruppe zumeist weniger variabel als die erste. Mit anderen Worten: bei der kategorialen Regression werden durch die optimale Skalierung die großen Eigenwerte der Korrelationsmatrix für die Prädiktoren kleiner und die kleinen Eigenwerte größer.