Qu’est-ce que le data wrangling ?

Personne assise devant plusieurs écrans d’ordinateur affichant des données

Auteurs

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce que le data wrangling ?

Le data wrangling est le processus de nettoyage, de structuration et d’enrichissement des données brutes en vue de leur utilisation dans les domaines de la science des données, du machine learning (ML) et d’autres applications fondées sur les données.

Également appelé « data munging » ou préparation des données, le data wrangling permet de résoudre les problèmes de qualité des données, tels que les valeurs manquantes, les doublons, les données aberrantes ainsi que les anomalies de formatage. Son objectif est de transformer les données brutes, non structurées ou problématiques en jeux de données propres pouvant être analysés efficacement. Cette opération permet aux data scientists, aux analystes et à d’autres utilisateurs professionnels de prendre des décisions en s’appuyant sur les données.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Pourquoi le data wrangling est-il important ?

Aujourd’hui, les organisations ont accès à une profusion de données provenant de différentes sources. Cependant, ces données brutes peuvent être confuses, incohérentes ou inadaptées aux divers processus et outils qui les transformeront en informations précieuses. En l’absence de data wrangling, les résultats de l’analyse des données peuvent s’avérer trompeurs. Et les entreprises pourraient tirer des conclusions inexactes et prendre des décisions erronées.

Le processus de data wrangling est essentiel pour obtenir des résultats de qualité. Composé de plusieurs étapes, il consiste à transformer et à mapper les données pour s’assurer qu’elles sont propres, cohérentes, fiables et utiles à l’application prévue. Les jeux de données ainsi obtenus sont utilisés pour diverses tâches : construction de modèles de machine learning, analyse des données, création de visualisations des données, production de rapports de Business Intelligence et prise de décision éclairée.

À mesure que les technologies fondées sur les données, notamment l’intelligence artificielle (IA), se perfectionnent, le data wrangling gagne en importance. En effet, la qualité des modèles d’IA dépend des données avec lesquelles ils sont entraînés.

Le processus de data wrangling garantit l’exactitude des informations utilisées pour développer et améliorer les modèles. Il augmente l’interprétabilité, car les données propres et bien structurées sont plus faciles à comprendre pour les humains et les algorithmes. Il contribue également à l’intégration des données, en facilitant la mise en commun et l’interconnexion d’informations provenant de sources disparates.

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Le processus de data wrangling

Le processus de data wrangling comprend généralement les étapes suivantes :

  • Découverte
  • Structuration
  • Nettoyage
  • Enrichissement
  • Validation

Découverte

Cette étape initiale vise à évaluer la qualité du jeu de données, y compris des sources et des formats de données. Les données proviennent-elles de bases de données, d’interfaces de programmation des applications (API), de fichiers CSV, du Web scraping ou d’autres sources ? Comment sont-elles structurées ? Comment seront-elles utilisées ?

Le processus de découverte met en évidence et traite les problèmes de qualité, tels que les données manquantes, les anomalies de formatage, les erreurs ou les biais et les données aberrantes susceptibles de fausser l’analyse. Les résultats sont généralement consignés dans un rapport sur la qualité des données ou dans un document plus technique appelé « rapport de profilage des données », qui comprend des statistiques, des distributions ainsi que d’autres résultats.

Structuration

La structuration des données, également appelée transformation des données, consiste à organiser les données dans un format unifié pour faciliter l’analyse. Cette étape comporte les tâches suivantes :

  • Agrégation : combiner les lignes de données à l’aide de statistiques récapitulatives et regrouper les données en fonction de certaines variables.

  • le pivotement : déplacement des données entre les lignes et les colonnes ou transformation des données dans d’autres formats pour les préparer à l’utilisation.

  • la jointure : regroupement de données provenant de plusieurs tables et regroupement d’informations connexes provenant de sources disparates.

  • la conversion du type de données : modification du type de données d’une variable pour faciliter les calculs et l’application de méthodes statistiques.

Nettoyage

Le nettoyage des données consiste à traiter les valeurs manquantes, à supprimer les doublons et à corriger les erreurs ou les incohérences. Ce processus peut également impliquer le lissage des données « bruyantes », c’est-à-dire l’application de techniques qui réduisent les effets des variations aléatoires ou d’autres problèmes dans les données. Lors du nettoyage, il est important d’éviter toute perte de données inutile ou tout nettoyage excessif susceptible de supprimer des informations précieuses ou de déformer les données.

Enrichissement

L’enrichissement des données consiste à ajouter de nouvelles informations à des jeux de données existants afin d’en accroître la valeur. Parfois appelé « augmentation des données », il s’agit d’évaluer les informations supplémentaires nécessaires et leur provenance. Les informations supplémentaires doivent ensuite être intégrées au jeu de données existant et nettoyées de la même manière que les données d’origine.

L’enrichissement des données peut impliquer l’intégration de données démographiques, géographiques, comportementales ou environnementales pertinentes pour le cas d’utilisation prévu. Par exemple, si le projet de data wrangling porte sur les opérations de la chaîne d’approvisionnement, l’enrichissement des données d’expédition avec les données météorologiques pourrait contribuer à prédire les retards.

Validation

Cette étape consiste à vérifier l’exactitude et la cohérence des données préparées. Il convient tout d’abord d’établir des règles de validation basées sur la logique de l’entreprise, les contraintes liées aux données ainsi que d’autres aspects. On applique ensuite des techniques de validation, par exemple :

  • Validation des types de données : s’assurer que les types de données sont appropriés.

  • Vérifications des plage ou des formats : vérifier que les valeurs se situent dans des plages acceptables et qu’elles respectent certains formats.

  • Vérification de la cohérence : vérifier qu’il existe une concordance logique entre les variables liées.

  • Contrôles d’unicité : vérifier que certaines variables (comme les références client ou produit) ont des valeurs uniques.

  • Validation transversale : vérifier les relations logiques entre les variables (par exemple, l’âge et la date de naissance).

  • Analyse statistique : identifier les données aberrantes ou les anomalies à l’aide de statistiques descriptives et de visualisations.

Une fois la validation effectuée, les données peuvent être publiées ou préparées en vue d’être utilisées dans des applications. Pour cela, il est possible de charger les données dans un entrepôt, de créer des visualisations ou de les exporter dans un format particulier afin de les utiliser avec des algorithmes de machine learning.

Le processus de data wrangling peut prendre beaucoup de temps, d’autant plus que le volume de données complexes ne cesse de croître. En fait, les études suggèrent que la préparation des données et leur transformation en un format utilisable occupent entre 45 % et 80 % du temps des analystes des données1 2.

Certes, le data wrangling nécessite une certaine maîtrise des langages de programmation, des techniques de manipulation des données et des outils spécialisés. Mais surtout, il permet d’améliorer la qualité des données et favorise une analyse plus efficace et plus efficiente de ces dernières.

Outils et technologies de data wrangling

Dans le cadre du data wrangling, les organisations utilisent divers outils et technologies pour préparer les données provenant de différentes sources et les intégrer dans un pipeline de données selon les besoins de l’entreprise. Voici quelques exemples :

  • Langages de programmation
  • Feuilles de calcul
  • Outils spécialisés
  • Plateforme de big data
  • Intelligence artificielle

Langages de programmation

Python et R sont largement utilisés dans les tâches de data wrangling, notamment l’exploration, la manipulation et l’analyse des données. Le langage de requête structuré (SQL) est quant à lui essentiel pour travailler avec les bases de données relationnelles et la gestion des données.

Feuilles de calcul

Les data wranglers utilisent des outils tels que Microsoft Excel et Google Sheets pour procéder au nettoyage et à la manipulation des données de base, en particulier pour les jeux de données de petite taille.

Outils spécialisés

Les outils de data wrangling fournissent une interface visuelle pour nettoyer et transformer les données, favorisant ainsi la rationalisation des flux de travail et l’automatisation des tâches. Par exemple, l’outil Data Refinery disponible sur les plateformes IBM peut rapidement transformer des données brutes en une forme utilisable pour l’analyse de données, entre autres.

Plateforme de big data

Les plateformes de big data permettent de préparer des jeux de données complexes, variés et de très grande taille. Les plateformes telles qu’Apache Hadoop et Apache Spark sont utilisées pour préparer des jeux de données volumineux. Elles utilisent les technologies de big data pour transformer les informations en un format utilisable pour l’analyse de haute qualité et la prise de décision.

Intelligence artificielle

L’IA facilite le data wrangling grâce à l’automatisation et à une analyse avancée. Les modèles et algorithmes de machine learning permettent de résoudre des problèmes tels que la détection et la mise à l’échelle des données aberrantes. D’autres outils d’IA sont capables de traiter rapidement les grands jeux de données, de gérer les transformations en temps réel et de reconnaître les schémas pour faciliter le nettoyage. Les interfaces de traitement automatique du langage naturel (TAL) permettent aux utilisateurs d’interagir avec les données de manière intuitive et réduisent ainsi les barrières techniques.

Notes de bas de page

Tous les liens sont externes à ibm.com

1 State of Data Science, Anaconda, juillet 2020.

2 Hellerstein et al. Principles of Data Wrangling. O’Reilly Media. Juillet 2017.

Solutions connexes
Outils et solutions de science des données

Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

Découvrir les solutions de science des données
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

Découvrir les solutions de science des données Découvrir les services d’analytique