Analyse exploratoire des données
Apprenez tout ce que vous devez savoir sur l'analyse exploratoire des données, une méthode utilisée pour analyser et résumer des ensembles de données
Arrière-plan noir et bleu
Qu'est-ce que l'analyse exploratoire des données ?

Apprenez tout ce que vous devez savoir sur l'analyse exploratoire des données, une méthode utilisée pour analyser et résumer des ensembles de données. 

L'analyse exploratoire des données (AED) est utilisée par les spécialistes des données pour analyser et étudier des ensembles de données, et en résumer les principales caractéristiques, souvent à l'aide de méthodes de visualisation des données. Elle aide à déterminer la meilleure façon de manipuler les sources de données pour obtenir les réponses dont vous avez besoin et aide les spécialistes des données à découvrir des modèles, à repérer des anomalies, à tester une hypothèse ou à vérifier des suppositions.

L'AED est principalement utilisée pour voir ce que les données peuvent révéler au-delà de la tâche formelle de modélisation ou de test d'hypothèse, et permet de mieux comprendre les variables d'un ensemble de données et les relations entre elles. Elle peut en outre permettre de déterminer si les techniques statistiques que vous envisagez pour l'analyse des données sont appropriées. Développées à l'origine par le mathématicien américain John Tukey dans les années 1970, les techniques AED restent aujourd'hui largement utilisées dans le processus de découverte des données.

Pourquoi l'analyse exploratoire des données est-elle importante dans la science des données ?

L'objectif principal de l'AED est de faciliter l'examen des données avant d'élaborer des hypothèses. Elle peut aider à identifier les erreurs évidentes, mais aussi à mieux comprendre les modèles au sein des données, à détecter les valeurs aberrantes ou les évènements anormaux, à trouver des relations intéressantes entre les variables.

Les spécialistes des données peuvent utiliser l'analyse exploratoire pour s'assurer que les résultats qu'ils produisent sont valides et applicables à tous les résultats et objectifs commerciaux souhaités. L'AED aide également les parties prenantes en confirmant qu'elles posent les bonnes questions. L'AED peut aider à répondre à des questions sur les écarts-types, les variables catégorielles et les intervalles de confiance. Une fois l'AED terminée et les conclusions tirées, ses fonctionnalités peuvent être utilisées pour des analyses de données ou des modélisations plus sophistiquées, en particulier pour l'apprentissage automatique.

Outils d'analyse exploratoire des données

Les fonctions et techniques statistiques spécifiques que vous pouvez mette en œuvre avec les outils d'AED incluent :

  • Les techniques de classification et de réduction de la dimensionnalité qui permettent de créer des représentations graphiques de données à fortes dimensions contenant de nombreuses variables.
  • La visualisation univariée de chaque champ dans l'ensemble de données brutes, avec des statistiques récapitulatives.
  • Des visualisations bivariées et des statistiques récapitulatives qui vous permettent d'évaluer la relation entre chaque variable de l'ensemble de données et la variable cible que vous étudiez.
  • Les visualisations multivariées, pour le mappage et la compréhension des interactions entre les différents champs des données.
  • La classification en K-moyennes est une méthode de classification de l'apprentissage non supervisé dans laquelle les points de données sont affectés à k groupes (où k représente le nombre de groupes) selon la distance par rapport au centroïde de chaque groupe. Les points de données les plus proches d'un centroïde particulier sont regroupés dans une même catégorie. La classification en K-moyennes est couramment utilisée dans la segmentation des marchés, la reconnaissance de modèle et la compression des images.
  • Les modèles prédictifs, tels que la régression linéaire, utilisent les statistiques et les données pour prédire les résultats.
Types d'analyse exploratoire des données

Il existe quatre principaux types d'AED :

  • Univarié non graphique. Il s'agit de la forme la plus simple d'analyse des données, où les données analysées ne comportent qu'une seule variable. Comme il s'agit d'une variable unique, elle ne traite pas des causes ou des relations. L'objectif principal de l'analyse univariée est de décrire les données et de déterminer les modèles qui existent en leur sein.
  • Univarié graphique. Les méthodes non graphiques ne fournissent pas une image complète des données. Des méthodes graphiques sont donc nécessaires. Les types courants de graphiques univariés comprennent :
    • Les diagrammes branche-et-feuille, qui montrent toutes les valeurs des données et la forme de la distribution.
    • Les histogrammes, des diagrammes à barres dans lesquels chaque barre représente la fréquence (nombre) ou la proportion (nombre/nombre total) de cas pour une plage de valeurs.
    • Les diagrammes en boîte, qui représentent graphiquement le résumé en cinq chiffres du minimum, du premier quartile, de la médiane, du troisième quartile et du maximum.
  • Multivarié non graphique : Les données multivariées sont issues de plusieurs variables. Les techniques d'AED multivariées non graphiques montrent généralement la relation entre deux ou plusieurs variables des données par le biais de tableaux croisés ou de statistiques.
  • Multivarié graphique : Les données multivariées utilisent des graphiques pour afficher les relations entre deux ou plusieurs ensembles de données. Le graphique le plus utilisé est un diagramme à barres groupées ou un diagramme à bâtons, chaque groupe représentant un niveau d'une des variables et chaque barre à l'intérieur d'un groupe représentant les niveaux de l'autre variable.

Les autres types courants de graphiques multivariés incluent :

  • Le nuage de points, qui est utilisé pour représenter des points de données sur un axe horizontal et un axe vertical afin de montrer dans quelle mesure une variable est affectée par une autre.
  • Graphique multivarié, qui est une représentation graphique des relations entre les facteurs et une réponse.
  • Le graphique de progression, qui est un graphique linéaire de données tracées dans le temps.
  • Le graphique à bulles, qui est une visualisation des données affichant plusieurs cercles (bulles) dans un graphique bidimensionnel.
  • La carte de densité, qui est une représentation graphique des données dans laquelle les valeurs sont représentées par des couleurs.
Outils d'analyse exploratoire des données

Parmi les outils de science des données les plus couramment utilisés pour créer une AED, citons :

  • Python : Un langage de programmation orienté objet et interprété, avec une sémantique dynamique. Ses structures de données intégrées de haut niveau, combinées au typage dynamique et à la liaison dynamique, le rendent très attrayant pour le développement rapide d'applications, ainsi que pour une utilisation en tant que langage de script ou langage de liaison pour connecter des composants existants. Le langage Python et l'AED peuvent être utilisés ensemble pour identifier les valeurs manquantes dans un ensemble de données, ce qui est important pour pouvoir décider du mode de traitement des valeurs manquantes pour l'apprentissage automatique.
  • R : Un langage de programmation open source et un environnement logiciel libre pour le calcul statistique et les graphiques, pris en charge par la R Foundation for Statistical Computing. Le langage R est largement utilisé par les statisticiens en science des données pour développer des observations statistiques et des analyses de données.

Pour consulter une analyse approfondie des différences entre ces approches, consultez « Différence entre Python et R »

Solutions connexes
IBM Watson® Studio

Utilisez IBM Watson® Studio pour déterminer si les techniques statistiques que vous envisagez d'utiliser pour l'analyse des données sont appropriées.

Explorer IBM Watson® Studio dès aujourd'hui
Pour aller plus loin

IBM Watson® Studio fournit une interface permettant aux analystes et aux spécialistes des données d'approfondir leurs ensembles de données. Cela les aide à fournir des informations récapitulatives à leurs parties prenantes et leur permet également d'évaluer si les ensembles de données sont suffisamment équilibrés pour construire des modèles significatifs.

Explorer IBM Watson® Studio dès aujourd'hui