Statistiche R-Squared

Nel modello di regressione lineare, il coefficiente di determinazione, R ², sintetizza la proporzione di varianza nella variabile dipendente associata alle variabili predittiva (indipendente), con valori R ² più ampi che indicano che più la variazione è spiegato dal modello, ad un massimo di 1. Per i modelli di regressione con una variabile dipendente categoriale, non è possibile calcolare una singola statistica R ² che abbia tutte le caratteristiche di R ² nel modello di regressione lineare, quindi queste approssimazioni vengono calcolate invece. Si utilizzano i seguenti metodi per stimare il coefficiente di determinazione.

Cox e l' R ² ¹ di Snell si basa sulla verosimiglianza logica del modello rispetto alla verosimiglianza logica di un modello di base. Tuttavia, con esiti categoriali, ha un valore massimo teorico inferiore a 1, anche per un modello "perfetto".
L' R ² ² di Nagelkerke è una versione corretta dell' R-quadrato di Cox & Snell che aggiusta la scala della statistica in modo da coprire l'intero intervallo da 0 a 1.
McFadden's R ² ³ è un'altra versione, basata sui kernel di log-likelihood per il modello di sola intercetta e per il modello completo stimato.

Ciò che costituisce un valore "buono" R ² varia tra diverse aree di applicazione. Mentre queste statistiche possono essere suggestive da sole, sono più utili quando si confronta modelli concorrenti per gli stessi dati. Il modello con la statistica R ² più grande è "migliore" secondo questa misura.

Avanti

¹ Cox, D. R., e E. J. Snell. 1989. Analisi dei dati binari, 2a edizione. Londra: Chapman and Hall.

² Nagelkerke, N. J. D. 1991. A note on the general definition of the coefficient of determination. Biometrika, 78:3, 691-692.

³ McFadden, D. 1974. Conditional logit analysis of qualitative choice behavior. In: Frontiers in Economics, P. Zarembka. New York: Press Academic.