Analyse exploratoire des données
Arrière-plan noir et bleu
Qu'est-ce que l'analyse exploratoire des données ?

Apprenez tout ce que vous devez savoir sur l'analyse exploratoire des données, une méthode utilisée pour analyser et résumer des ensembles de données. 

L'analyse exploratoire des données (AED) est utilisée par les spécialistes des données pour analyser et étudier des ensembles de données, et en résumer les principales caractéristiques, souvent à l'aide de méthodes de visualisation des données. Elle aide à déterminer la meilleure façon de manipuler les sources de données pour obtenir les réponses dont vous avez besoin, ce qui permet aux scientifiques des données de découvrir plus facilement des modèles, de repérer des anomalies, de tester une hypothèse ou de vérifier des hypothèses.

L'AED est principalement utilisée pour voir ce que les données peuvent révéler au-delà de la tâche formelle de modélisation ou de test d'hypothèse, et permet de mieux comprendre les variables d'un ensemble de données et les relations entre elles. Elle peut également aider à déterminer si les techniques statistiques que vous envisagez pour l'analyse des données sont appropriées. Développées à l'origine par le mathématicien américain John Tukey dans les années 1970, les techniques AED restent aujourd'hui largement utilisées dans le processus de découverte des données.


Pourquoi l'analyse exploratoire des données est-elle importante en science des données ?

L'objectif principal de l'AED est de faciliter l'examen des données avant d'élaborer des hypothèses. Elle peut aider à identifier les erreurs évidentes, mais aussi à mieux comprendre les modèles au sein des données, à détecter les valeurs aberrantes ou les évènements anormaux, à trouver des relations intéressantes entre les variables.

Les scientifiques des données peuvent utiliser l'analyse exploratoire pour s'assurer que les résultats qu'ils produisent sont valides et applicables à tous les résultats et objectifs métier souhaités. L'AED aide également les acteurs concernés en confirmant qu'ils posent les bonnes questions. L'AED peut aider à répondre à des questions sur les écarts types, les variables catégorielles et les intervalles de confiance. Une fois l'AED terminée et les conclusions tirées, ses fonctionnalités peuvent être utilisées pour des analyses de données ou des modélisations plus sophistiquées, en particulier pour l'apprentissage automatique.


Outils d'analyse des données exploratoires

Les fonctions et techniques statistiques spécifiques que vous pouvez mette en œuvre avec les outils d'AED incluent :

  • Les techniques de regroupement et de réduction des dimensions, qui permettent de créer des représentations graphiques de données à fortes dimensions contenant de nombreuses variables.
  • La visualisation univariée de chaque champ dans l'ensemble de données brutes, avec des statistiques récapitulatives.
  • Des visualisations bivariées et des statistiques récapitulatives qui vous permettent d'évaluer la relation entre chaque variable de l'ensemble de données et la variable cible que vous étudiez.
  • Les visualisations multivariées, pour le mappage et la compréhension des interactions entre les différents champs des données.
  • Le partitionnement en K-moyennes est une méthode de partitionnement de l'apprentissage non supervisé dans laquelle les points de données sont rassemblés dans des groupes K, c'est-à-dire le nombre de clusters, sur la base de la distance par rapport au centroïde de chaque groupe. Les points de données les plus proches d'un centroïde donné seront regroupés dans la même catégorie. Le partitionnement en K-moyennes est couramment utilisée dans la segmentation des marchés, la reconnaissance de modèle et la compression des images.
  • Les modèles prédictifs, tels que la régression linéaire, utilisent les statistiques et les données pour prédire les résultats.

Types d'analyse exploratoire des données

Il existe quatre principaux types d'AED :

  • Univarié non graphique. Il s'agit de la forme la plus simple d'analyse de données, où les données analysées ne comportent qu'une seule variable. Comme il s'agit d'une variable unique, elle ne traite pas des causes ou des relations. L'objectif principal de l'analyse univariée est de décrire les données et de déterminer les modèles qui existent en leur sein.
  • Univarié graphique. Les méthodes non graphiques ne fournissent pas une image complète des données. Des méthodes graphiques sont donc nécessaires. Les types courants de graphiques univariés comprennent :
    • Les diagrammes branche-et-feuille, qui montrent toutes les valeurs des données et la forme de la distribution.
    • Les histogrammes, des diagrammes à barres dans lesquels chaque barre représente la fréquence (nombre) ou la proportion (nombre/nombre total) de cas pour une plage de valeurs.
    • Les diagrammes en boîte, qui représentent graphiquement le résumé en cinq chiffres du minimum, du premier quartile, de la médiane, du troisième quartile et du maximum.
  • Multivarié non graphique : Les données multivariées sont issues de plusieurs variables. Les techniques d'AED multivariées non graphiques montrent généralement la relation entre deux ou plusieurs variables des données par le biais de tableaux croisés ou de statistiques.
  • Multivarié graphique : Les données multivariées utilisent des graphiques pour afficher les relations entre deux ou plusieurs ensembles de données. Le graphique le plus utilisé est un diagramme à barres groupées ou un diagramme à bâtons, chaque groupe représentant un niveau d'une des variables et chaque barre à l'intérieur d'un groupe représentant les niveaux de l'autre variable.

Les autres types courants de graphiques multivariés incluent :

  • Le nuage de points, qui est utilisé pour représenter des points de données sur un axe horizontal et un axe vertical afin de montrer dans quelle mesure une variable est affectée par une autre.
  • Le graphique multivarié, qui est une représentation graphique des relations entre les facteurs et une réponse.
  • Le graphique de progression, qui est un graphique linéaire de données tracées dans le temps.
  • Le graphique à bulles, qui est une visualisation des données affichant plusieurs cercles (bulles) dans un graphique bidimensionnel.
  • La carte de densité, qui est une représentation graphique des données dans laquelle les valeurs sont représentées par des couleurs.

Outils d'analyse exploratoire des données

Parmi les outils de science des données les plus couramment utilisés pour créer une AED, citons :

  • Python : Un langage de programmation orienté objet et interprété, avec une sémantique dynamique. Ses structures de données intégrées de haut niveau, combinées au typage dynamique et à la liaison dynamique, le rendent très attrayant pour le développement rapide d'applications, ainsi que pour une utilisation en tant que langage de script ou de liaison pour connecter des composants existants. Le langage Python et l'AED peuvent être utilisés ensemble pour identifier les valeurs manquantes dans un ensemble de données, ce qui est important pour pouvoir décider du mode de traitement des valeurs manquantes pour l'apprentissage automatique.
  • R : Un langage de programmation open source et un environnement logiciel libre pour le calcul statistique et les graphiques, pris en charge par la R Foundation for Statistical Computing. Le langage R est largement utilisé par les statisticiens en science des données pour développer des observations statistiques et des analyses de données.

Pour consulter une analyse approfondie des différences entre ces approches, consultez « Python vs R : quelle est la différence ? »


IBM et l'analyse exploratoire des données

La procédure Explore d'IBM fournit une variété de résumés visuels et numériques des données, soit pour tous les cas, soit séparément pour des groupes de cas. La variable dépendante doit être une variable d'échelle, tandis que les variables de regroupement peuvent être ordinales ou nominales.

À l'aide de la procédure Explore d'IBM, vous pouvez :

  • Présenter des données
  • Identifier les valeurs aberrantes
  • Vérifier les hypothèses
  • Caractériser les différences entre les groupes de cas

Pour en savoir plus sur la procédure Explore d'IBM, cliquez ici. Pour plus d'informations sur l'analyse exploratoire des données, inscrivez-vous pour obtenir un IBMid et créez votre compte IBM Cloud


Solutions connexes

Analyse exploratoire des données

L'exploration des données peut aider à déterminer si les techniques statistiques que vous envisagez d'utiliser pour l'analyse des données sont appropriées.