Analyse exploratoire des données

menu icon

Analyse exploratoire des données

Apprenez tout ce qu'il faut savoir sur l'analyse exploratoire des données, méthode utilisée pour analyser et résumer des ensembles de données.

Qu'est-ce que l'analyse exploratoire des données ?

L'analyse exploratoire des données (AED) est utilisée par les spécialistes des données pour analyser et étudier les ensembles de données puis résumer leurs principales caractéristiques, souvent en employant des méthodes de visualisation des données. Elle permet de déterminer la meilleure façon de manipuler des sources de données pour obtenir les réponses dont vous avez besoin. Ainsi, les spécialistes des données peuvent découvrir plus facilement des modèles (patterns), identifier des anomalies, tester une hypothèse ou vérifier des suppositions.

L'AED est principalement utilisée pour identifier ce que les données peuvent révéler au-delà de la tâche formelle de modélisation ou de test d'hypothèse, et permet de mieux comprendre les variables d'un ensemble de données et les relations entre elles. Elle peut en outre permettre de déterminer si les techniques statistiques que vous envisagez pour l'analyse des données sont appropriées. Développées à l'origine par le mathématicien américain John Tukey dans les années 1970, les techniques d'AED restent aujourd'hui une méthode largement utilisée dans le processus de reconnaissance de données.

Pourquoi l'analyse exploratoire des données est-elle importante dans la science des données ?

L'objectif principal de l'AED est d'aider à examiner les données avant de formuler des hypothèses.Elle peut permettre d'identifier les erreurs évidentes, mais aussi de mieux comprendre les modèles (patterns) au sein des données, de détecter les valeurs aberrantes ou les événements anormaux, de trouver des relations intéressantes entre les variables.

Les spécialistes des données peuvent utiliser l'analyse exploratoire pour s'assurer que les résultats qu'ils produisent sont valides et applicables à tous les résultats et objectifs métier souhaités. L'AED aide également les parties prenantes en confirmant qu'elles posent les bonnes questions. L'AED peut aider à répondre à des questions sur les écarts-types, les variables catégorielles et les intervalles de confiance. Une fois l'AED terminée et les conclusions tirées, ses fonctions peuvent être utilisées dans des analyses de données ou des modélisations plus sophistiquées, y compris l'apprentissage automatique.

Outils d'analyse des données exploratoires

Les fonctions et techniques statistiques spécifiques que vous pouvez réaliser avec les outils d'AED incluent :

  • Les techniques de regroupement et de réduction de dimension qui permettent de créer des représentations graphiques de données hautement dimensionnelles contenant de nombreuses variables.
  • La visualisation univariée de chaque zone dans l'ensemble de données brutes, avec des statistiques sommaires.
  • Les visualisations bivariées et les statistiques sommaires qui permettent d'évaluer la relation entre chaque variable de l'ensemble de données et la variable cible que vous étudiez.
  • Les visualisations multivariées, pour cartographier et comprendre les interactions entre les différents champs des données.
  • Le regroupement en k-moyennes, méthode de regroupement de l'apprentissage non supervisé où les points de données sont assignés à K groupes, c'est-à-dire le nombre de groupes, sur la base de la distance au centroïde de chaque groupe. Les points de données les plus proches d'un centroïde particulier sont regroupés dans une même catégorie. Le regroupement en k-moyennes est couramment utilisé dans la segmentation des marchés, la reconnaissance des formes et la compression d'image.
  • Les modèles prédictifs, tels que la régression linéaire, qui utilisent les statistiques et les données pour prévoir les résultats.

Types d'analyse exploratoire des données

Il existe quatre principaux types d'AED :

  • Univariée non graphique. Il s'agit de la forme la plus simple d'analyse des données, où les données analysées ne comportent qu'une seule variable. Comme il s'agit d'une variable unique, elle ne traite pas des causes ou des relations. L'objectif principal de l'analyse univariée est de décrire les données et de rechercher des modèles (patterns) existant au sein de ces données.
  • Univariée graphique. Les méthodes non graphiques ne fournissent pas une image complète des données. Des méthodes graphiques sont donc nécessaires. Les types courants de graphiques univariés incluent :
    • Les diagrammes tige et feuille, qui montrent toutes les valeurs des données et la forme de la distribution.
    • Les histogrammes, diagrammes à barres dans lesquels chaque barre représente la fréquence (nombre) ou la proportion (nombre/nombre total) de cas pour une plage de valeurs.
    • Les diagramme à surfaces, qui représentent graphiquement le résumé en cinq chiffres du minimum, du premier quartile, de la médiane, du troisième quartile et du maximum.
  • Multivariée non graphique. Les données multivariées proviennent de plusieurs variables. Les techniques d'AED multivariées non graphiques montrent généralement la relation entre deux variables de données ou plus, par le biais de tableaux croisés ou de statistiques.
  • Multivariée graphique. Les données multivariées utilisent des graphiques pour afficher les relations entre deux ensembles de données ou plus. Le graphique le plus utilisé est un diagramme à barres groupées ou un diagramme à barres, chaque groupe représentant un niveau d'une des variables et chaque barre à l'intérieur d'un groupe représentant les niveaux de l'autre variable.

Les autres types courants de graphiques multivariés incluent :

  • Le diagramme de dispersion (en nuage de points), utilisé pour représenter des points de données sur un axe horizontal et un axe vertical afin de montrer dans quelle mesure une variable est affectée par une autre.
  • Le graphique multivarié, représentation graphique des relations entre des facteurs et une réponse.
  • Le diagramme d'exécution, graphique linéaire de données tracées dans le temps.
  • Le graphique à bulles, visualisation des données qui affiche plusieurs cercles (bulles) dans un tracé bidimensionnel.
  • La carte de densité, représentation graphique des données où les valeurs sont représentées par des couleurs.

Outils d'analyse exploratoire des données

Les outils de science des données les plus couramment utilisés pour créer une AED incluent :

  • Python : Langage de programmation interprété, orienté objet, avec une sémantique dynamique. Ses structures de données intégrées de haut niveau, combinées au typage dynamique et à la liaison dynamique, le rendent très attrayant pour le développement rapide d'applications, ainsi que pour une utilisation en tant que langage de script ou langage de liaison pour connecter des composants existants. Python et AED peuvent être utilisés ensemble pour identifier des valeurs manquantes dans un ensemble de données, ce qui est important pour pouvoir décider de la manière de traiter les valeurs manquantes pour l'apprentissage automatique.
  • R : Langage de programmation open source et environnement logiciel libre pour le calcul statistique et les graphiques, soutenu par la R Foundation for Statistical Computing. Le langage R est largement utilisé par les statisticiens en science des données pour développer des observations statistiques et des analyses de données.

Pour un examen approfondi des différences entre ces approches, voir « Python vs. R: What's the Difference? »

IBM et l'analyse exploratoire des données

La procédure Explore d'IBM fournit divers résumés visuels et numériques des données, soit pour tous les cas, soit séparément pour des groupes de cas. La variable dépendante doit être une variable d'échelle, tandis que les variables de regroupement peuvent être ordinales ou nominales.

Avec la procédure Explore d'IBM, vous pouvez :

  • Sélectionner des données
  • Identifier les valeurs aberrantes
  • Vérifier les hypothèses
  • Caractériser les différences entre groupes de cas

Pour en savoir plus sur la procédure Explore d'IBM, cliquez ici. Pour plus d'informations sur l'analyse exploratoire des données, inscrivez-vous pour obtenir un IBMid et créer votre compte IBM Cloud.