Qu’est-ce que l’analyse exploratoire des données

Qu’est-ce que l’EDA ?

L’analyse exploratoire des données (EDA) est utilisée par les data scientists pour analyser et étudier des jeux de données et résumer leurs principales caractéristiques, souvent à l’aide de méthodes de visualisation des données.

L’EDA permet de déterminer la meilleure façon de manipuler les sources de données pour obtenir les réponses recherchées. Elle permet aux data scientists de plus facilement découvrir des schémas, repérer des anomalies, tester des hypothèses ou vérifier des suppositions.

L’EDA est principalement utilisée pour découvrir ce que les données peuvent révéler au-delà de la modélisation formelle ou du test d’hypothèses, et elle permet de mieux comprendre les variables des jeux de données et les relations entre elles. Elle permet également de déterminer si les techniques statistiques que vous envisagez d’utiliser pour l’analyse des données sont adaptées. Développées à l’origine par le mathématicien américain John Tukey dans les années 1970, les techniques d’EDA restent aujourd’hui une méthode largement utilisée dans le processus de découverte de données.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA  

La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Pourquoi l’EDA est-elle importante dans le domaine de la science des données ?

L’objectif principal de l’EDA, c’est de vous aider à examiner les données avant de faire des suppositions. Elle peut permettre d’identifier les erreurs évidentes, de mieux comprendre les schémas dans les données, de détecter les données aberrantes ou les événements anormaux, et de trouver des relations intéressantes entre les variables.

Les data scientists peuvent utiliser l’analyse exploratoire pour s’assurer que les résultats produits sont valides et applicables à tous les résultats commerciaux et objectifs métier visés. L’EDA permet également aux parties prenantes de confirmer qu’elles posent les bonnes questions. Elle peut vous aider à répondre aux questions que vous avez sur les écarts-types, les variables nominales et les intervalles de confiance. Une fois l’EDA terminée et les informations déduites, ses fonctionnalités peuvent être employées pour une analyse ou une modélisation des données plus sophistiquée, y compris le machine learning.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Outils d’EDA

Les fonctions et techniques statistiques spécifiques que vous pouvez exécuter avec les outils EDA sont notamment les suivantes :

Les techniques de clustering et de réduction de la dimensionnalité, qui permettent de créer des représentations graphiques des données de grande dimension comptant de nombreuses variables.
La visualisation univariée de chaque champ du jeu de données brutes, avec des statistiques récapitulatives.
Des visualisations bivariées et des statistiques récapitulatives qui vous permettent d’évaluer la relation entre chaque variable du jeu de données et la variable cible examinée.
Des visualisations multivariées, pour mapper et comprendre les interactions entre les différents champs des données.
Le partitionnement en k-moyennes ou k-means clustering est une méthode utilisée dans l’apprentissage non supervisé où les points de données sont divisés en k groupes, c’est-à-dire le nombre de clusters, en fonction de la distance par rapport au centroïde de chaque groupe. Les points de données les plus proches d’un centroïde particulier seront regroupés dans la même catégorie. Le clustering en k-moyennes est couramment utilisé dans la segmentation du marché, la reconnaissance de formes et la compression d’images.
Les modèles prédictifs, tels que la régression linéaire, utilisent des statistiques et des données pour prédire des résultats.

Types d’EDA

Il existe quatre principaux types d’EDA :

Univariée sans représentation graphique
Univariée avec représentation graphique
Multivariée sans représentation graphique
Multivariée avec représentation graphique

Univariée sans représentation graphique

Il s’agit de la forme la plus simple d’analyse des données, où les données analysées sont constituées d’une seule variable. De ce fait, il n’existe aucune cause ni relation à traiter. L’objectif principal de l’analyse univariée, c’est de décrire les données et d’y trouver des schémas.

Univariée avec représentation graphique

Les méthodes sans représentation graphique ne fournissent pas une image complète des données. Des méthodes avec représentations graphiques sont donc nécessaires. Les types courants d’analyses univariées avec représentations graphiques sont les suivants :

Le diagramme branche-et-feuille, qui affiche toutes les valeurs de données et la forme de la distribution.
L’histogramme, un diagramme à barres dans lequel chaque barre représente la fréquence (nombre) ou la proportion (nombre/nombre total) de cas pour une plage de valeurs.
La boîte à moustaches, ou diagramme en boîte, qui représente sous forme graphique le résumé en cinq chiffres du minimum, du premier quartile, de la médiane, du troisième quartile et du maximum.

Multivariée sans représentation graphique

Les données multivariées proviennent de plusieurs variables. Les techniques d’EDA multivariée sans représentation graphique montrent généralement la relation entre deux ou plusieurs variables des données sous forme de tableaux croisés ou de statistiques.

Multivariée avec représentation graphique

Les données multivariées utilisent des graphiques pour afficher les relations entre deux jeux de données ou plus. Le graphique le plus employé pour ce type d’analyse est le diagramme à barres groupées, chaque groupe représentant un niveau de l’une des variables et chaque barre d’un groupe représentant les niveaux de l’autre variable.

Les autres types courants d’analyses multivariées avec représentations graphiques sont les suivants :

Le diagramme de dispersion, utilisé pour représenter des points de données sur un axe horizontal et un axe vertical afin de montrer dans quelle mesure une variable est affectée par une autre.
Un graphique multivarié, qui est une représentation graphique des relations entre des facteurs et une réponse.
Le diagramme de séquence, qui est un line graph de données représentées dans le temps.
Le graphique à bulles, qui est une visualisation des données qui contient plusieurs cercles (bulles) dans une représentation en deux dimensions.
La carte thermique, qui est une représentation graphique des données où les valeurs sont représentées par des couleurs.

Langues d’analyse exploratoire des données

Voici quelques-uns des langages de programmation de science des données les plus couramment utilisés dans le contexte de l’EDA :

Python : un langage de programmation interprété orienté objet avec une sémantique dynamique. Ses structures de données intégrées globales, associées au typage et à la liaison dynamiques, le rendent très intéressant pour le développement rapide d’applications, ainsi que comme langage de script ou de liaison pour connecter des composants existants entre eux. Python et l’EDA peuvent être utilisés ensemble pour identifier les valeurs manquantes dans un jeu de données. Ceci est essentiel pour vous aider à déterminer comment gérer ces valeurs manquantes pour le machine learning.
R : Un langage de programmation open source et un environnement logiciel libre pour les calculs et les graphiques statistiques, soutenus par la R Foundation for Statistical Computing. Le langage R est largement utilisé par les statisticiens en science des données pour développer des observations statistiques et des analyses de données.

Pour en savoir plus sur les différences entre ces approches, consultez l’article « Python et R : quelle est la différence ? »

Quatre étapes pour améliorer le forecasting commercial grâce à l’analytique

Exploitez tout le potentiel de l’analytique et de la business intelligence pour planifier, prévoir et façonner des résultats futurs optimaux pour votre entreprise et vos clients.

Qu’est-ce que l’analyse exploratoire des données (EDA) ?