Korrelationen und Bedeutung

Um die Beiträge der Prädiktoren zur Regression zu interpretieren, reicht es nicht aus, nur die Regressionskoeffizienten zu untersuchen. Außerdem sollten die Korrelationen, partiellen Korrelationen und Teilkorrelationen überprüft werden. Die folgende Tabelle enthält diese korrelierenden Kennzahlen für jede Variable.

Die Korrelation nullter Ordnung ist die Korrelation zwischen dem transformierten Prädiktor und der transformierten Antwort. Für diese Daten tritt die größte Korrelation für das Paketdesignauf. Wenn Sie jedoch einen Teil der Variation im Prädiktor oder in der Antwort erklären können, erhalten Sie eine bessere Darstellung der Funktionsweise des Prädiktors.

Tabelle mit Prädiktoren in den Zeilen und Teilkorrelationen, Teilkorrelationen und partielle Korrelationen, Wichtigkeit und Toleranz in den Spalten — Abb. 1. Korrelationen nullter Ordnung, Teil und partielle Korrelationen (transformierte Variablen)

Andere Variablen im Modell können die Leistung eines bestimmten Prädiktors bei der Vorhersage der Antwort beeinträchtigen. Der partielle Korrelationskoeffizient entfernt die linearen Effekte anderer Prädiktoren sowohl aus dem Prädiktor als auch aus der Antwort. Dieses Maß entspricht der Korrelation zwischen den Residuen aus der Regression des Prädiktors auf die anderen Prädiktoren und den Residuen aus der Regression der Antwort auf die anderen Prädiktoren. Die quadrierte partielle Korrelation entspricht dem Anteil der erklärten Varianz relativ zur Residuenvarianz der nach dem Entfernen der Effekte der anderen Variablen verbleibenden Antwort. Beispiel: Paketdesign hat eine partielle Korrelation von-0.955. Wenn Sie die Effekte der anderen Variablen entfernen, erklärt Package design (-0.955)² = 0.91 = 91% der Variation in den Rangfolgen der Vorgaben. Sowohl Price als auch Good Housekeeping seal erklären auch einen großen Anteil der Varianz, wenn die Effekte der anderen Variablen entfernt werden.

Als Alternative zum Entfernen der Effekte von Variablen aus der Antwort und einem Prädiktor können Sie die Effekte nur aus dem Prädiktor entfernen. Die Korrelation zwischen der Antwort und den Residuen aus der Regression eines Prädiktors auf die anderen Prädiktoren ist die Teilkorrelation. Wenn dieser Wert quadriert wird, ergibt sich ein Maß für den Anteil der erklärten Varianz relativ zur Gesamtvarianz der Antwort. Wenn Sie die Auswirkungen von Markenname, Good Housekeeping seal, Geld-zurück-Garantieund Preis aus Package designentfernen, wird der restliche Teil von Package design erklärt (-0.733)² = 0.54 = 54% der Variation in den Rangfolgen der Präferenzen.

Wichtigkeit

Zusätzlich zu den Regressionskoeffizienten und den Korrelationen hilft das Pratt-Maß für die relative Wichtigkeit ¹ bei der Interpretation der Prädiktorbeiträge zur Regression. Große individuelle Wichtigkeiten im Verhältnis zu den anderen Wichtigkeiten entsprechen Prädiktoren, die für die Regression entscheidend sind. Außerdem wird das Vorhandensein von Suppressorvariablen durch einen geringen Stellenwert für eine Variable signalisiert, die einen Koeffizienten ähnlicher Größe wie die wichtigen Prädiktoren hat.

Im Gegensatz zu den Regressionskoeffizienten definiert dieses Maß den Einfluss der Prädiktoren additiv, d. h., der Einfluss eines Sets von Prädiktoren ist die Summe der einzelnen Wichtigkeiten der Prädiktoren. Das Pratt-Maß entspricht dem Produkt aus dem Regressionskoeffizienten und der Korrelation nullter Ordnung für einen Prädiktor. Diese Produkte addieren sich zu R ², sodass sie durch R ²dividiert werden, was eine Summe von 1 ergibt. Die Gruppe der Prädiktoren Package design und Brand namehaben beispielsweise einen Stellenwert von 0.654. Der größte Stellenwert entspricht Package design, wobei Package design, Priceund Good Housekeeping seal 95% des Stellenwerts für diese Kombination von Prädiktoren ausmachen.

Multicollinearität

Große Korrelationen zwischen Prädiktoren verringern die Stabilität eines Regressionsmodells dramatisch. Korrelierte Prädiktoren führen zu instabilen Parameterschätzungen. Die Toleranz gibt an, wie sehr die unabhängigen Variablen linear zueinander in Beziehung stehen. Dieses Maß ist der Anteil der Varianz einer Variablen, der nicht durch andere unabhängige Variablen in der Gleichung erklärt wird. Wenn die anderen Prädiktoren eine große Menge der Varianz eines Prädiktors erklären, ist dieser Prädiktor im Modell nicht erforderlich. Ein Toleranzwert nahe 1 gibt an, dass die Variable aus den anderen Prädiktoren nicht sehr gut vorhergesagt werden kann. Im Gegensatz dazu liefert eine Variable mit einer sehr niedrigen Toleranz wenig Informationen zu einem Modell und kann zu Berechnungsproblemen führen. Außerdem weisen große negative Werte des Wichtigkeitsmaßes von Pratt auf Multikollinearität hin.

Alle Toleranzmaße sind sehr hoch. Keiner der Prädiktoren wird von den anderen Prädiktoren sehr gut vorhergesagt und die Multikollinearität ist nicht vorhanden.

Weiter

¹ Pratt, J. W. 1987. Dividing the indivisible: Using simple symmetry to partition variance explained. In: Proceedings of the Second International Conference in Statistics, T. Pukkila und S. Puntanen, eds. Tampere, Finnland: Universität Tampere.