Cos'è la regressione lineare?

L'analisi di regressione lineare viene utilizzata per prevedere il valore di una variabile in base al valore di un'altra variabile. La variabile che si desidera prevedere viene chiamata variabile dipendente. La variabile che si utilizza per prevedere il valore dell'altra variabile si chiama variabile indipendente.

Questa forma di analisi stima i coefficienti dell'equazione lineare e implica una o più variabili indipendenti che meglio predicono il valore della variabile dipendente. La regressione lineare corrisponde a una linea retta o a una superficie che minimizza le discrepanze tra i valori di output previsti ed effettivi. Esistono semplici calcolatrici di regressione lineare che usano un metodo detto dei “minimi quadrati” per trovare la retta ottimale per una serie di dati accoppiati. Quindi, si calcola il valore di X (variabile dipendente) da Y (variabile indipendente).

Un esempio di grafico di dispersione di regressione lineare

Genera più facilmente previsioni

È possibile eseguire la regressione lineare in Microsoft Excel o utilizzare pacchetti software statistici, come ad esempio IBM SPSS® Statistics, che semplificano notevolmente il processo di utilizzo delle equazioni di regressione lineare, dei modelli di regressione lineare e delle formule di regressione lineare. SPSS Statistics può essere utilizzato efficacemente in tecniche quali la regressione lineare semplice e la regressione lineare multipla.

È possibile eseguire il metodo di regressione lineare in vari programmi e ambienti, che includono:

  • Regressione lineare in R
  • Regressione lineare in MATLAB
  • Regressione lineare in Sklearn
  • Regressione lineare in Python
  • Regressione lineare in Excel

Perché la regressione lineare è importante?

I modelli di regressione lineare sono relativamente semplici e forniscono una formula matematica di facile interpretazione, che può generare previsioni. La regressione lineare può essere applicata a vari settori dell'attività aziendale e accademica.

Scoprirai che la regressione lineare viene utilizzata in qualsiasi ambito, dalle scienze biologiche, comportamentali, ambientali e sociali fino all'attività aziendale. I modelli di regressione lineare sono ormai un modo collaudato per prevedere scientificamente e attendibilmente il futuro. Poiché la regressione lineare è una procedura statistica consolidata, le proprietà dei modelli di regressione lineare sono ben assimilate e l'addestramento può essere davvero rapido.

Un modo collaudato di prevedere scientificamente e attendibilmente il futuro

I leader di aziende e organizzazioni possono prendere decisioni più accurate utilizzando tecniche di regressione lineare. Le organizzazioni raccolgono enormi quantità di dati e la regressione lineare le aiuta ad utilizzare quei dati per una gestione più efficace della realtà — invece di affidarsi all'esperienza e all'intuizione. È possibile prendere grandi quantità di dati grezzi e trasformarli in informazioni utilizzabili praticamente.

Si può anche utilizzare la regressione lineare per generare insight più accurati, evidenziando schemi e relazioni che i colleghi di business potrebbero aver visto in precedenza e pensato di aver già compreso. Ad esempio, l'esecuzione di un'analisi dei dati di vendita e acquisto può aiutare a scoprire schemi di acquisto specifici in determinati giorni o in certi momenti. Gli insight raccolti dall'analisi di regressione possono aiutare i business leader a prevedere i periodi in cui si avrà una forte richiesta dei prodotti della loro azienda.

Presupposti fondamentali della regressione lineare efficace

Presupposti da prendere in considerazione per il successo dell'analisi di regressione lineare:

  • Per ogni variabile: Considerare il numero di casi validi, la media e la deviazione standard. 
  • Per ogni modello: Considerare i coefficienti di regressione, la matrice di correlazione, le correlazioni di parti e parziali, l'R multiplo, l'R2, l'R2 corretto, la variazione in R2, l'errore standard della stima, la tabella di analisi della varianza, i valori previsti e i residui. Inoltre, considerare intervalli di confidenza del 95% per ogni coefficiente di regressione, la matrice di varianza- covarianza, il fattore di inflazione della varianza, la tolleranza, il test di Durbin-Watson test, le misure di distanza (Mahalanobis, Cook e valori di influenza), DfBeta, DfFit, intervalli di previsione e informazioni di case-wise diagnostic. 
  • Grafici: Considerare i grafici a dispersione, i grafici parziali, gli istogrammi e i grafici di probabilità normale.
  • Dati: Le variabili dipendenti e indipendenti devono essere quantitative. Le variabili categoriali, come la religione, il principale campo di studio o la regione di residenza, devono essere ricodificate in variabili binarie (dummy/fittizie) o in altri tipi di variabili di contrasto.  
  • Altri presupposti: Per ogni valore della variabile indipendente, la distribuzione della variabile dipendente deve essere normale. La varianza della distribuzione della variabile dipendente deve essere costante per tutti i valori della variabile indipendente. La relazione tra la variabile dipendente e ogni variabile indipendente deve essere lineare e tutte le osservazioni devono essere indipendenti.

Assicurati che i tuoi dati soddisfino i presupposti della regressione lineare

Prima di tentare di eseguire la regressione lineare, è necessario assicurarsi che i dati possano essere analizzati utilizzando questa procedura. I tuoi dati devono superare l'esame per quanto riguarda alcuni presupposti obbligatori.

Ecco come si possono verificare questi presupposti:

  1. Le variabili devono essere misurate a livello continuo. Esempi di variabili continue sono il tempo, le vendite, il peso e i punteggi di test. 
  2. Utilizzare un grafico a dispersione per scoprire rapidamente se esiste una relazione lineare tra quelle due variabili.
  3. Le osservazioni dovrebbero essere indipendenti una dall'altra (cioè, non dovrebbe esserci alcuna dipendenza).
  4. I tuoi dati non dovrebbero avere valori anomali significativi. 
  5. Controllare l'omoschedasticità — un concetto statistico secondo cui le varianze lungo la linea di regressione lineare ottimale rimangono simili per tutta la linea.
  6. I residui (errori) della linea di regressione ottimale seguono la distribuzione normale.

Valutare le tendenze e le stime di vendita

Si può anche utilizzare l'analisi di regressione lineare per cercare di prevedere le vendite totali annue di un/a addetto/a alle vendite (la variabile dipendente) da variabili indipendenti quali l'età, l'istruzione e gli anni di esperienza.

Analizzare l'elasticità dei prezzi

Variazioni nei prezzi spesso incidono sul comportamento dei consumatori — e la regressione lineare può aiutare ad analizzare come. Ad esempio, se il prezzo di un particolare prodotto continua a cambiare, è possibile utilizzare l'analisi di regressione per scoprire se il consumo cala quando il prezzo aumenta. Cosa succede se il consumo non diminuisce in modo significativo con l'aumento del prezzo? A che punto di prezzo gli acquirenti smettono di acquistare il prodotto? Queste informazioni sarebbero molto utili per i leader di un'azienda di vendita al dettaglio.

Valutare il rischio in una compagnia di assicurazioni

Le tecniche di regressione lineare possono essere utilizzate per analizzare il rischio. Ad esempio, una compagnia di assicurazioni potrebbe avere risorse limitate con le quali indagare sulle richieste di risarcimento assicurativo da parte dei proprietari di case; con la regressione lineare, il team della compagnia può costruire un modello per la stima dei costi delle richieste di risarcimento. L'analisi potrebbe aiutare i leader aziendali a prendere importanti decisioni di business su quali rischi correre.

Analisi dello sport

La regressione lineare non è sempre una questione di business. È importante anche nello sport. Ad esempio, potreste chiedervi se il numero di partite vinte da una squadra di basket in una stagione è collegato al numero medio di punti che la squadra mette a segno in ogni partita. Un grafico a dispersione indica che queste variabili sono correlate linearmente. Anche il numero di partite vinte e il numero medio di punti segnati dall'avversario sono correlati linearmente. Queste variabili hanno una relazione negativa. Quando il numero di partite vinte aumenta, il numero medio di punti segnati dall'avversario diminuisce. Con la regressione lineare, è possibile creare un modello della relazione tra queste variabili. Un modello valido potrà essere utilizzato per prevedere quante partite saranno vinte dalle varie squadre.

Prodotti per la regressione lineare

Software IBM SPSS Statistics

Promuovi la ricerca e l'analisi con questa soluzione rapida e potente.

IBM SPSS Statistics Grad Pack and Faculty Packs

Studenti, docenti e ricercatori ottengono un accesso a costi accettabili al software di predictive analytics.

IBM Cognos Statistics

Questa collaudata soluzione di analytics self-service consente di combinare e abbinare i propri dati e creare visualizzazioni efficaci.