Qu'est-ce que la transformation des données ?

Date de publication : 19 juin 2024
Contributrices : Molly Hayes, Amanda Downie

Qu’est-ce que la transformation des données ?

La transformation des données est un élément essentiel du processus d'intégration des données, au cours duquel les données brutes sont converties dans un format ou une structure unifié. Cette transformation garantit la compatibilité avec les systèmes cibles et améliore la qualité des données et leur facilité d'utilisation. C'est un aspect essentiel des pratiques de gestion des données, telles que le traitement des données, l'analyse et l'entreposage de données.

Si des spécialistes peuvent effectuer manuellement la transformation des données, les grandes quantités de données nécessaires pour alimenter les applications d'entreprise modernes requièrent souvent un certain niveau d'automatisation. Les outils et technologies utilisés dans ce processus de conversion peuvent être simples ou complexes.

Par exemple, une transformation de données peut être aussi basique que la conversion d'un champ de date (par ex. : MM/JJ/AA) dans un autre format ou la division d'une colonne Excel en deux. Cependant, les transformations de données plus complexes, qui nettoient et normalisent des données provenant de sources disparates et impliquent plusieurs workflows, peuvent nécessiter des compétences avancées en science des données.

Ces fonctions avancées d'ingénierie des données comprennent la normalisation des données, qui établit les relations entre les points de données, et l'enrichissement des données, qui complète les informations existantes avec des jeux de données tiers.

Dans l'économie mondiale d'aujourd'hui, axée sur le numérique, les transformations de données permettent aux organisations de tirer parti de grands volumes de données provenant de diverses sources pour améliorer leurs services, former des modèles de machine learning et déployer des analyses de big data.

L’IA exige une nouvelle gestion des données

Accédez au guide d’IBM sur l’IA et la gestion des données pour savoir comment investir de manière optimale dans un socle de données ouvert et fiable.

Cas d’utilisation de la transformation des données

En normalisant les jeux de données et en les préparant pour un traitement ultérieur, la transformation des données permet d'établir plusieurs pratiques essentielles en matière de gestion des données d'entreprise. Voici quelques raisons courantes pour lesquelles les entreprises procèdent à des transformations de données :

Business Intelligence

Les organisations transforment leurs données pour les utiliser dans des applications de business intelligence, telles que des tableaux de bord en temps réel et des rapports prévisionnels, ce qui permet de prendre des décisions fondées sur des données en tenant compte de vastes quantités d'informations.

création d'entrepôts de données

La transformation des données prépare celles-ci à être stockées et gérées dans un entrepôt de données ou un data lake, facilitant ainsi l'interrogation et l'analyse efficaces.

Machine learning

Les modèles de machine learning nécessitent des données propres et organisées. En veillant à ce que les données soient fiables et au bon format, les organisations peuvent les utiliser pour former et optimiser leurs outils d'intelligence artificielle (IA).

analyse du big data

Avant que les big data puissent être exploitées pour la business intelligence, les études de marché ou d'autres applications, elles doivent être collectées et formatées de manière appropriée.

Migration de données

Le déplacement des données depuis d'anciens systèmes sur site vers des plateformes modernes, telles qu'un entrepôt de données dans le cloud ou un data lakehouse, implique souvent des transformations de données complexes.

Processus de transformation des données

Les transformations de données suivent généralement un processus structuré pour rendre des données brutes utilisables et pertinentes. En règle générale, les étapes de transformation des données sont les suivantes :

1. Découverte de données

Lors de la phase de découverte, les données sources sont collectées. Ce processus peut inclure l'extraction de données brutes à partir d'API, d'une base de données SQL ou de fichiers internes dans des formats variés. En identifiant et en extrayant ces informations, les professionnels des données veillent à ce que les données collectées soient complètes et pertinentes pour leur utilisation future. Les ingénieurs commencent également à analyser les caractéristiques et la structure des données dans un processus appelé profilage des données.

2. Nettoyage des données

La préparation et le nettoyage des données consistent à identifier et corriger les erreurs, incohérences et inexactitudes des données brutes. Cette étape permet d'assurer la qualité et la fiabilité des données en éliminant les doublons, en gérant les valeurs manquantes ou en supprimant les données aberrantes.

3. Mappage des données

Le mappage des données implique la création d’un schéma ou d’un processus de correspondance pour guider le processus de transformation. Au cours de ce processus, les ingénieurs définissent la façon dont les éléments des systèmes sources correspondent à ceux du format cible.

4. Génération de code

Que ce soit en utilisant un outil tiers ou en générant du code en interne, cette étape consiste à créer le code qui effectuera la transformation des données.

5. Exécution et validation du code

C'est ici que la transformation des données se produit réellement, lorsque le code est appliqué aux données brutes. Les données transformées sont ensuite chargées dans le système cible pour une analyse ou un traitement ultérieur. Le modèle de données ainsi que les données transformées sont validés pour garantir leur exactitude et leur cohérence.

6. Révision

Durant la phase de révision, les analystes, ingénieurs ou utilisateurs finaux examinent les données transformées pour s'assurer qu'elles respectent bien les exigences définies.

Transformation des données ETL et transformation des données ELT

L'ETL (extraction, transformation, chargement) et l'ELT (extraction, chargement, transformation) sont deux processus couramment utilisés pour la transformation des données, chacun reposant sur des techniques de pipeline de données légèrement différentes. Ces deux approches ont des avantages et des inconvénients selon la taille et la complexité de la transformation à réaliser.

Extraire, transformer, charger : transformation des données dans une zone de transit

Dans le cadre du processus ETL, un sous-ensemble prédéterminé de données structurées est extrait de sa source, transformé dans une zone de transit ou un serveur de traitement secondaire, avant d’être chargé dans le système cible. L'ETL est souvent mieux adapté aux environnements de stockage sur site et aux ensembles de données de plus petite taille. Toutefois, l'ETL peut s'avérer préférable dans les cas où des exigences spécifiques de qualité et de cohérence des données doivent être respectées, car il permet d'ajouter des étapes plus rigoureuses de nettoyage et de validation. De plus, l'ETL peut être nécessaire pour protéger des données sensibles, telles que celles régies par la loi HIPAA, lors de leur migration.

Extraire, charger, transformer
: la transformation des données dans le cloud

Dans le processus ELT, les informations sont extraites des sources de données et chargées dans le système cible basé sur le cloud, où elles sont ensuite transformées. Cette approche, qui exploite la puissance du cloud computing, permet généralement un traitement plus rapide et une gestion plus flexible des données. Elle est également adaptée aux données non structurées, comme les images. Grâce à la capacité de calcul et de stockage du cloud, le processus ELT bénéficie d'une meilleure évolutivité.

Types de transformation des données

Les data scientists et les ingénieurs des données utilisent différentes techniques tout au long du processus de transformation des données. Les méthodes déployées dépendent du projet et de l'utilisation prévue des données, bien que plusieurs techniques puissent être combinées dans des processus complexes.

Nettoyage des données : le nettoyage des données améliore leur qualité en corrigeant les erreurs et les incohérences, comme l’élimination des doublons.

Agrégation des données : l'agrégation résume les données en combinant plusieurs enregistrements en une seule valeur ou un jeu de données.

Normalisation des données : la normalisation standardise les données en ramenant toutes les valeurs à une échelle ou à un format commun, par exemple de 1 à 10.

Encodage des données : l'encodage convertit les données catégorielles en format numérique, facilitant ainsi leur analyse. Par exemple, un numéro unique peut être attribué à chaque catégorie.

Enrichissement des données : l'enrichissement consiste à ajouter des informations pertinentes provenant de sources externes, comme des données démographiques ou des métadonnées.

Imputation des données : l'imputation remplace les données manquantes par des valeurs plausibles, comme la valeur médiane ou moyenne.

Séparation des données : cette méthode divise les données en sous-ensembles à des fins spécifiques. Par exemple, les ingénieurs peuvent diviser un jeu de données pour l'utiliser à la fois pour l'entraînement et pour les tests dans un cadre de machine learning.

Discrétisation des données : la discrétisation consiste à convertir des données continues en intervalles ou catégories discrètes, un processus parfois appelé binning. À titre d’exemple, la discrétisation peut être utilisée dans un contexte de soins de santé pour traduire des données telles que l’âge du patient en categories telles que « nourrisson » ou « adulte ».

Généralisation des données : la généralisation abstrait les grands jeux de données pour en extraire des résumés, réduisant ainsi les détails tout en facilitant la compréhension globale.

Visualisation des données : la visualisation représente les données sous forme de graphiques, révélant des tendances ou des informations qui pourraient ne pas être immédiatement visibles.

Outils de transformation des données

Bien qu'il soit possible d'effectuer une transformation de données en mobilisant uniquement des ingénieurs internes, de nombreux services tiers facilitent le processus de conversion et de migration. Parmi les plus courants, on trouve :

Outils ETL et ELT : des solutions comme Apache NiFi et Informatica offrent un processus ETL ou ELT prêt à l'emploi.

Plateformes d'intégration des données : de nombreux outils tels qu'IBM Cloud Pak for Data permettent l'intégration des données et leur traitement en temps réel.

Outils de préparation des données : ces outils sont spécifiquement conçus pour le nettoyage et la transformation des données avant leur transformation ou migration.

Langages de programmation : les langages comme Python et R, accompagnés de bibliothèques open source comme pandas, offrent des capacités robustes pour la transformation des données.

Avantages de la transformation des données

La transformation des données est une étape essentielle du traitement des données. Elle permet d'améliorer la capacité d'une organisation en matière d'analyse, de reporting, de prise de décision et de stockage. On compte parmi ces principaux avantages :

Qualité des données améliorée

La transformation des données implique des processus comme le nettoyage des données, ce qui améliore la qualité globale d'un jeu de données. Avec des données plus précises et des architectures bien définies, les organisations optimisent leur efficacité opérationnelle, notamment dans des domaines comme la gestion des stocks ou le traitement des commandes. De plus, une meilleure qualité des données améliore l'expérience client en offrant une vue complète à 360 degrés des clients actuels et potentiels.

Compatibilité et intégration des données améliorées

La transformation des données standardise les formats et les structures, facilitant ainsi l'intégration des informations dans un jeu de données cohérent. En brisant les silos de données et en unifiant les informations issues de différents départements ou systèmes, les organisations éliminent les incohérences et obtiennent une vue unifiée de leurs activités.

Amélioration de la visualisation des données

Les données transformées sont généralement mieux organisées et structurées, ce qui rend plus facile la création de visualisations qui présentent efficacement les informations. Ces représentations graphiques permettent aux décideurs de repérer des tendances ou des opportunités et de présenter des informations cruciales, telles que les pipelines de ventes ou d'approvisionnement, en temps quasi réel.

Meilleure accessibilité des données

La transformation des données convertit des informations complexes ou non structurées en formats plus faciles à comprendre, à consulter et à analyser. Cela permet aux organisations d'utiliser ces données pour générer des prévisions de marché avancées ou pour identifier les domaines nécessitant des améliorations.

Sécurité et conformité renforcées

La transformation des données peut inclure des processus comme l'anonymisation et le chiffrement, qui permettent de protéger les informations sensibles tout en respectant les réglementations en matière de confidentialité. Cette sécurité est primordiale pour les secteurs hautement réglementés tels que la santé et la finance, ainsi que pour les organisations opérant dans plusieurs juridictions aux lois de confidentialité variées.

Meilleure évolutivité et flexibilité

Les données transformées sont souvent plus flexibles et plus faciles à rationaliser, ce qui permet une adaptation plus aisée à de nouveaux cas d'utilisation ou à un accroissement du traitement des données au fur et à mesure de l'augmentation de leur volume. Cette évolutivité permet aux organisations de se développer sans avoir besoin de procéder à de coûteuses réorganisations ou à des mises en œuvre informatiques répétées.

Solutions et produits connexes

Conseil en données et en analyses IBM

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les analyses pour tirer des avantages métier.

Découvrir les services de conseil d’IBM en matière de données et d'analyse

Plateforme IBM DataOps

Grâce à la plateforme IBM DataOps, les organisations peuvent supprimer la distinction entre les équipes de données et celles de développement, augmentant ainsi l'efficacité dans tous les processus, depuis la correction des bogues jusqu'à la définition des objectifs.

Découvrir la plateforme DataOps d’IBM

Gestion des données IBM

Les solutions de données et d’IA d’IBM permettent aux organisations d’utiliser les données d’entreprise pour améliorer la résilience, la fiabilité et la rentabilité, tout en garantissant la sécurité et la qualité des données.

Découvrir les produits de gestion des données d’IBM

IBM watsonx.data

IBM watsonx.data permet aux entreprises de faire évoluer leurs initiatives en IA et en analytique avec toutes leurs données, où qu'elles soient stockées.

Découvrir IBM watsonx.data

Produits IBM data fabric

Les architectures de données modernes, comme le data fabric, aident à façonner et unifier une organisation axée sur les données, tout en améliorant la prise de décision, la gouvernance et l'intégration des données.

Découvrir les produits de data fabric d’IBM

Ressources

AI Academy : Gestion des données

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative et apprenez comment les données d’entreprise peuvent générer des gains de productivité.

IBM watsonx.data

Découvrez l’expérience d’essai de watsonx.data en suivant Amelia, ingénieure en données, qui se connecte à des sources de données externes, accède aux données et les interroge, puis décharge les données de son entrepôt pour optimiser les coûts.

La différence par les données

Explorez les ressources destinées au leadership en matière de données à l’aide de ce guide, qui vous aidera à déployer la stratégie, les technologies et la culture nécessaires à la gestion d’une organisation axée sur les données et propulsée par l’IA.

Améliorer la visibilité de la chaîne d'approvisionnement pharmaceutique pour la sécurité des patients

Découvrez comment IBM et la National Association of Boards of Pharmacy (NABP) ont centralisé un hub numérique pour accroître la transparence et préserver l’intégrité de la chaîne d’approvisionnement des médicaments.

La virtualisation des données unifie les données pour une IA et une analyse transparentes

Découvrez comment la virtualisation des données permet de fusionner les données issues de diverses sources et alimente le machine learning en éliminant les silos de données.

Révolutionner l'analyse et l'investigation des données non structurées pour lutter contre la fraude et le crime organisé

Découvrez comment IBM watsonx.data et Cogniware ont unifié des données provenant de sources disparates pour visualiser les connexions et analyser les activités de personnes faisant l’objet d’une enquête.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo live

Qu’est-ce que la transformation des données ?