L’analyse exploratoire des données (EDA) est utilisée par les data scientists pour analyser et étudier des jeux de données et résumer leurs principales caractéristiques, souvent à l’aide de méthodes de visualisation des données.
L’EDA permet de déterminer la meilleure façon de manipuler les sources de données pour obtenir les réponses recherchées. Elle permet aux data scientists de plus facilement découvrir des schémas, repérer des anomalies, tester des hypothèses ou vérifier des suppositions.
L’EDA est principalement utilisée pour découvrir ce que les données peuvent révéler au-delà de la modélisation formelle ou du test d’hypothèses, et elle permet de mieux comprendre les variables des jeux de données et les relations entre elles. Elle permet également de déterminer si les techniques statistiques que vous envisagez d’utiliser pour l’analyse des données sont adaptées. Développées à l’origine par le mathématicien américain John Tukey dans les années 1970, les techniques d’EDA restent aujourd’hui une méthode largement utilisée dans le processus de découverte de données.
Découvrez comment exploiter les bases de données adéquates pour les applications, les analyses et l’IA générative.
Obtenir l’e-book sur l’IA générative
L’objectif principal de l’EDA, c’est de vous aider à examiner les données avant de faire des suppositions. Elle peut permettre d’identifier les erreurs évidentes, de mieux comprendre les schémas dans les données, de détecter les données aberrantes ou les événements anormaux, et de trouver des relations intéressantes entre les variables.
Les data scientists peuvent utiliser l’analyse exploratoire pour s’assurer que les résultats produits sont valides et applicables à tous les résultats commerciaux et objectifs métier visés. L’EDA permet également aux parties prenantes de confirmer qu’elles posent les bonnes questions. L’EDA peut vous aider à répondre aux questions que vous avez sur les écarts-types, les variables nominales et les intervalles de confiance. Une fois l’EDA terminée et les informations déduites, ses fonctionnalités peuvent être utilisées pour une analyse ou une modélisation des données plus sophistiquée, y compris le machine learning.
Les fonctions et techniques statistiques spécifiques que vous pouvez exécuter avec les outils EDA sont notamment les suivantes :
Il existe quatre principaux types d’EDA :
Les autres types courants d’analyses multivariées avec représentations graphiques sont les suivants :
Voici quelques-uns des outils de science des données les plus couramment utilisés dans le contexte de l’EDA :
Pour en savoir plus sur les différences entre ces approches, consultez l’article «Python et R : quelle est la différence ?»
Faites appel à IBM Watson Studio pour déterminer si les techniques statistiques que vous envisagez d’utiliser pour l’analyse des données sont adaptées.
Découvrez l’importance et le rôle de l’EDA et des techniques de visualisation des données dans la détection des problèmes de qualité des données, et dans la préparation des données pour la création de pipelines de ML.
Apprenez les techniques courantes pour récupérer vos données, les nettoyer, y appliquer l’ingénierie des caractéristiques et les préparer pour l’analyse préliminaire et le test d’hypothèses.