Apprenez tout ce que vous devez savoir sur l'analyse exploratoire des données, une méthode utilisée pour analyser et résumer des ensembles de données.
L'analyse exploratoire des données (AED) est utilisée par les spécialistes des données pour analyser et étudier des ensembles de données, et en résumer les principales caractéristiques, souvent à l'aide de méthodes de visualisation des données. Elle aide à déterminer la meilleure façon de manipuler les sources de données pour obtenir les réponses dont vous avez besoin et aide les spécialistes des données à découvrir des modèles, à repérer des anomalies, à tester une hypothèse ou à vérifier des suppositions.
L'AED est principalement utilisée pour voir ce que les données peuvent révéler au-delà de la tâche formelle de modélisation ou de test d'hypothèse, et permet de mieux comprendre les variables d'un ensemble de données et les relations entre elles. Elle peut en outre permettre de déterminer si les techniques statistiques que vous envisagez pour l'analyse des données sont appropriées. Développées à l'origine par le mathématicien américain John Tukey dans les années 1970, les techniques AED restent aujourd'hui largement utilisées dans le processus de découverte des données.
L'objectif principal de l'AED est de faciliter l'examen des données avant d'élaborer des hypothèses. Elle peut aider à identifier les erreurs évidentes, mais aussi à mieux comprendre les modèles au sein des données, à détecter les valeurs aberrantes ou les évènements anormaux, à trouver des relations intéressantes entre les variables.
Les spécialistes des données peuvent utiliser l'analyse exploratoire pour s'assurer que les résultats qu'ils produisent sont valides et applicables à tous les résultats et objectifs commerciaux souhaités. L'AED aide également les parties prenantes en confirmant qu'elles posent les bonnes questions. L'AED peut aider à répondre à des questions sur les écarts-types, les variables catégorielles et les intervalles de confiance. Une fois l'AED terminée et les conclusions tirées, ses fonctionnalités peuvent être utilisées pour des analyses de données ou des modélisations plus sophistiquées, en particulier pour l'apprentissage automatique.
Les fonctions et techniques statistiques spécifiques que vous pouvez mette en œuvre avec les outils d'AED incluent :
Il existe quatre principaux types d'AED :
Les autres types courants de graphiques multivariés incluent :
Parmi les outils de science des données les plus couramment utilisés pour créer une AED, citons :
Pour consulter une analyse approfondie des différences entre ces approches, consultez « Différence entre Python et R »
Utilisez IBM Watson® Studio pour déterminer si les techniques statistiques que vous envisagez d'utiliser pour l'analyse des données sont appropriées.