Qu'est-ce que la régression linéaire ?

L'analyse de régression linéaire sert à prévoir la valeur d'une variable en fonction de la valeur d'une autre variable. La variable dont vous souhaitez prévoir la valeur est la variable dépendante. La variable que vous utilisez pour prévoir la valeur de l'autre variable est la variable indépendante.

Ce type d'analyse estime les coefficients de l'équation linéaire, impliquant une ou plusieurs variables indépendantes, qui estiment le mieux la valeur de la variable dépendante. La régression linéaire consiste en la détermination d'une droite ou d'une surface qui réduit les écarts entre les valeurs de sortie prévues et réelles. Il existe des calculatrices de régression linéaire simple qui utilisent une méthode des moindres carrés pour découvrir la ligne la mieux adaptée pour un ensemble de données appariées. La valeur de X (variable dépendante) est ensuite estimée à partir de Y (variable indépendante).

Exemple de graphique de nuage de points de régression linéaire

Faciliter la génération des prévisions

Vous pouvez effectuer une régression linéaire dans Microsoft Excel ou utiliser des progiciels statistiques tels que IBM SPSS® Statistics qui simplifient considérablement le processus d'utilisation d'équations, de modèles et de formules de régression linéaire. SPSS Statistics peut être utilisé dans des techniques telles que la régression linéaire simple et la régression linéaire multiple.

Vous pouvez appliquer la méthode de régression linéaire dans divers programmes et environnements, notamment :

  • Régression linéaire R
  • Régression linéaire MATLAB
  • Régression linéaire de Sklearn
  • Régression linéaire Python
  • Régression linéaire Excel

L'importance de la régression linéaire

Les modèles de régression linéaire sont relativement simples. Ils génèrent une formule mathématique facile à interpréter qui peut générer des prévisions. Une régression linéaire peut être appliquée à divers domaines d'études commerciales et universitaires.

La régression linéaire est utilisée dans de nombreux domaines tels que les sciences biologiques, comportementales, environnementales et sociales ou dans les entreprises. Les modèles de régression linéaire constituent un moyen éprouvé de prévision scientifique et fiable du futur. La régression linéaire étant une procédure statistique établie de longue date, les propriétés de ses modèles sont bien connues et peuvent donc être enseignées très rapidement.

Un moyen éprouvé de prévision scientifique et fiable du futur

Les responsables d'entreprises peuvent prendre de meilleures décisions via les techniques de régression linéaire.Les entreprises collectent d'importants volumes de données ; la régression linéaire les aide à les utiliser pour mieux gérer la réalité, au lieu de se fier à l'expérience et à l'intuition. De grandes quantités de données brutes peuvent être transformées en informations exploitables.

La régression linéaire permet également de fournir de meilleures informations en mettant au jour des schémas et des relations que vos collègues ont déjà pu avoir décelés et qu'ils pensaient avoir compris. Par exemple, une analyse des données de vente et d'achat peut vous aider à découvrir des habitudes d'achat spécifiques, à certains jours ou à certains moments. Les éclairages recueillis via l'analyse de régression peuvent aider les dirigeants à anticiper les périodes de forte demande de leurs produits.

Hypothèses fondamentales d'une régression linéaire efficace

Hypothèses à prendre en compte pour obtenir une analyse de régression linéaire performante :

  • Pour chaque variable : Nombre de cas valides, moyenne et écart type. 
  • Pour chaque modèle : Coefficients de régression, matrice de corrélation, corrélations partielles et semi-partielles, R multiple, R2, R2 ajusté, variation de R2, erreur standard de l'estimation, tableau d'analyse de variance, valeurs prévues et résidus. Egalement, intervalles de confiance de 95% pour chaque coefficient de régression, matrice variance-covariance, facteur d'inflation de la variance, tolérance, test de Durbin-Watson, mesures de distance (valeurs de Mahalanobis, de Cook et valeurs levier), variation de la variable beta, différence du degré d'ajustement, intervalles de prévision et informations de diagnostic des cas. 
  • Diagrammes : Diagrammes de dispersion, diagrammes partiels, histogrammes et diagrammes de probabilité normaux.
  • Données : Les variables dépendantes et indépendantes doivent être quantitatives. Les variables catégorielles, telles que la religion, le principal domaine d'études ou le pays de résidence, doivent être recodées en variables binaires (fictives) ou en d'autres types de variables de contraste.  
  • Autres hypothèses : Pour chaque valeur de la variable indépendante, la distribution de la variable dépendante doit être normale. La variance de la distribution de la variable dépendante doit être constante pour toutes les valeurs de la variable indépendante. La relation entre la variable dépendante et chaque variable indépendante doit être linéaire et toutes les observations doivent être indépendantes.

Assurez-vous que vos données sont conformes aux hypothèses de régression linéaire

Avant de tenter d'effectuer une régression linéaire, vous devez vous assurer que vos données peuvent être analysées à l'aide de cette procédure. Vos données doivent se conformer à certaines hypothèses requises.

Vérifiez le respect de ces hypothèses :

  1. Les variables doivent être mesurées en continu. Des exemples de variables continues sont l'heure, les ventes, le poids et les résultats de tests. 
  2. Utilisez un diagramme de dispersion pour déterminer rapidement s'il existe une relation linéaire entre ces deux variables.
  3. Les observations doivent être indépendantes les unes des autres (il ne doit pas y avoir de dépendance).
  4. Vos données ne doivent comporter aucune valeur extrême importante. 
  5. Vérifiez l'homoscédasticité : un concept statistique dans lequel les variances le long de la courbe de régression linéaire la mieux ajustée sont semblables d'un bout à l'autre de cette courbe.
  6. Les résidus (erreurs) de la courbe de régression la mieux ajustée suivent une distribution normale.

Evaluation des tendances et des estimations de ventes

Vous pouvez également utiliser une analyse de régression linéaire pour essayer de prévoir les ventes annuelles totales d'un vendeur (la variable dépendante) à partir de variables indépendantes telles que l'âge, la formation et les années d'expérience.

Analyse de l'élasticité des prix

Les changements de tarification ont souvent une incidence sur le comportement des consommateurs. La régression linéaire va vous permettre d'en analyser la nature. Par exemple, si le prix d'un produit particulier change en permanence, vous pouvez utiliser l'analyse de régression pour déterminer si la consommation baisse à mesure que le prix augmente. Et si la consommation ne baisse pas de manière significative à mesure que le prix augmente ? À quel point de prix les acheteurs cessent-ils d'acheter le produit ? Cette information serait très utile pour les dirigeants d'une entreprise de distribution.

Evaluation des risques dans une compagnie d'assurance

Des techniques de régression linéaire peuvent être utilisées pour analyser les risques. Par exemple, les ressources dont dispose une compagnie d'assurance pour enquêter sur les demandes de remboursement des propriétaires peuvent être limitées. Avec une régression linéaire, son équipe peut construire un modèle pour estimer les coûts des demandes. L'analyse pourrait aider les dirigeants à prendre des décisions métier importantes sur les risques à prendre.

L'analyse appliquée au sport

La régression linéaire n'est pas seulement pertinente dans l'entreprise. Elle l'est aussi dans le sport. Par exemple, il peut être intéressant de déterminer si le nombre de matchs remportés par une équipe de basket-ball en une saison est lié au nombre moyen de points marqués par l'équipe à chaque match. Un diagramme de dispersion indique que ces variables sont liées linéairement. Le nombre de matchs remportés et le nombre moyen de points marqués par le challenger le sont également. Ces variables ont une relation négative. Au fur et à mesure que le nombre de matchs gagnés augmente, le nombre moyen de points marqués par le challenger diminue. Avec la régression linéaire, vous pouvez modéliser la relation de ces variables. Un bon modèle peut être utilisé pour prévoir le nombre de matchs qui seront remportés par des équipes.

Produits relatifs à la régression linéaire

Logiciel IBM SPSS Statistics

Boostez la recherche et l'analyse avec cette solution rapide et puissante.

Grad Pack et Faculty Packs IBM SPSS Statistics

Les étudiants, les enseignants et les chercheurs bénéficient d'un accès abordable aux logiciels d'analyse prédictive.

IBM Cognos Statistics

Cette solution d'analyse en libre-service éprouvée vous permet de combiner vos données et de créer des visualisations attractives.