L’analyse exploratoire des données (EDA) est utilisée par les data scientists pour analyser et étudier des jeux de données et résumer leurs principales caractéristiques, souvent à l’aide de méthodes de visualisation des données.
L’EDA permet de déterminer la meilleure façon de manipuler les sources de données pour obtenir les réponses recherchées. Elle permet aux data scientists de plus facilement découvrir des schémas, repérer des anomalies, tester des hypothèses ou vérifier des suppositions.
L’EDA est principalement utilisée pour découvrir ce que les données peuvent révéler au-delà de la modélisation formelle ou du test d’hypothèses, et elle permet de mieux comprendre les variables des jeux de données et les relations entre elles. Elle permet également de déterminer si les techniques statistiques que vous envisagez d’utiliser pour l’analyse des données sont adaptées. Développées à l’origine par le mathématicien américain John Tukey dans les années 1970, les techniques d’EDA restent aujourd’hui une méthode largement utilisée dans le processus de découverte de données.
L’objectif principal de l’EDA, c’est de vous aider à examiner les données avant de faire des suppositions. Elle peut permettre d’identifier les erreurs évidentes, de mieux comprendre les schémas dans les données, de détecter les données aberrantes ou les événements anormaux, et de trouver des relations intéressantes entre les variables.
Les data scientists peuvent utiliser l’analyse exploratoire pour s’assurer que les résultats produits sont valides et applicables à tous les résultats commerciaux et objectifs métier visés. L’EDA permet également aux parties prenantes de confirmer qu’elles posent les bonnes questions. Elle peut vous aider à répondre aux questions que vous avez sur les écarts-types, les variables nominales et les intervalles de confiance. Une fois l’EDA terminée et les informations déduites, ses fonctionnalités peuvent être employées pour une analyse ou une modélisation des données plus sophistiquée, y compris le machine learning.
Les fonctions et techniques statistiques spécifiques que vous pouvez exécuter avec les outils EDA sont notamment les suivantes :
Il existe quatre principaux types d’EDA :
Il s’agit de la forme la plus simple d’analyse des données, où les données analysées sont constituées d’une seule variable. De ce fait, il n’existe aucune cause ni relation à traiter. L’objectif principal de l’analyse univariée, c’est de décrire les données et d’y trouver des schémas.
Les méthodes sans représentation graphique ne fournissent pas une image complète des données. Des méthodes avec représentations graphiques sont donc nécessaires. Les types courants d’analyses univariées avec représentations graphiques sont les suivants :
Les données multivariées proviennent de plusieurs variables. Les techniques d’EDA multivariée sans représentation graphique montrent généralement la relation entre deux ou plusieurs variables des données sous forme de tableaux croisés ou de statistiques.
Les données multivariées utilisent des graphiques pour afficher les relations entre deux jeux de données ou plus. Le graphique le plus employé pour ce type d’analyse est le diagramme à barres groupées, chaque groupe représentant un niveau de l’une des variables et chaque barre d’un groupe représentant les niveaux de l’autre variable.
Les autres types courants d’analyses multivariées avec représentations graphiques sont les suivants :
Voici quelques-uns des langages de programmation de science des données les plus couramment utilisés dans le contexte de l’EDA :
Pour en savoir plus sur les différences entre ces approches, consultez l’article « Python et R : quelle est la différence ? »
Obtenez des informations uniques sur l’évolution des solutions ABI, mettant en évidence les principales conclusions, hypothèses et recommandations pour les responsables des données et de l’analytique.
Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.
Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.
Découvrez comment l’hôpital général de North York améliore la prise en charge des patients et assure son financement en utilisant des informations fondées sur les données.
Comprenez ce qui s’est passé et pourquoi, ce qui pourrait arriver et ce que vous pouvez faire à ce sujet. Grâce à des explications claires de son raisonnement étape par étape, Project Ripasso permet à chaque utilisateur professionnel de bénéficier d’informations de valeur pour prendre des décisions en toute confiance à la vitesse de la pensée.
Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io