ETL (Extraction, Transformation, Chargement)
ETL est un processus qui extrait, transforme et charge des données de plusieurs sources vers un entrepôt de données ou un autre référentiel de données unifié.
Arrière-plan noir et bleu
Que signifie l'acronyme ETL ?

ETL, qui signifie extraction, transformation et chargement, est un processus d'intégration de données qui combine les données de plusieurs sources de données dans un seul magasin de données cohérent qui est chargé dans un entrepôt de données ou autre système cible.

Au fur et à mesure que les bases de données gagnaient en popularité dans les années 1970, ETL a été introduit en tant que processus d'intégration et de chargement de données pour le calcul et l'analyse, devenant finalement la principale méthode de traitement des données pour les projets d'entreposage de données.

ETL fournit la base des flux de travail d'analyse de données et d'apprentissage automatique. Grâce à une série de règles métier, ETL nettoie et organise les données d'une manière qui répond à des besoins spécifiques d'intelligence d'entreprise, comme les rapports mensuels, mais il peut également s'attaquer à des analyses plus avancées, qui peuvent améliorer les processus back-end ou les ou les expériences de l' utilisateur final . ETL est souvent utilisé par une organisation pour : 

  • Extrait les données à partir de systèmes existants
  • Nettoyer les données pour améliorer leur qualité et établir la cohérence
  • Charger des données dans une base de données cible
En savoir plus

Regarder comment créer et exécuter une tâche ETL

Lire le rapport Gartner Magic Quadrant 2021 pour plus d'informations sur les outils d'intégration de données

Lire le brief IBM DataStage (169 Ko)

ETL vs ELT

La différence la plus évidente entre ETL et ELT si situe au niveau de l'ordre des opérations. ELT copie ou exporte les données à partir des emplacements source, mais au lieu de les charger dans une zone de transit pour la transformation, il charge les données brutes directement dans le magasin de données cible pour les transformer selon les besoins.

Bien que les deux processus exploitent une variété de référentiels de données, tels que des bases de données, des entrepôts de données et des datalakes, chaque processus a ses avantages et ses inconvénients. ELT est particulièrement utile pour les jeux de données non structurés et volumineux, car le chargement peut se produire directement à partir de la source. ELT peut être plus idéal pour la gestion du Big Data, car il ne nécessite pas beaucoup de planification préalable pour l'extraction et le stockage des données. Le processus ETL, en revanche, nécessite plus de définition au départ. Des points de données spécifiques doivent être identifiés pour l'extraction ainsi que toutes les « clés » potentielles à intégrer dans des systèmes sources disparates. Même une fois ce travail terminé, les règles métier doivent être élaborées pour les transformations de données. Ce travail peut généralement avoir des dépendances sur les exigences en matière de données pour un type donné d'analyse de données, ce qui déterminera le niveau de récapitulation que les données doivent avoir. Alors que le processus ELT est devenu de plus en plus populaire avec l'adoption des bases de données cloud, il a ses propres inconvénients en tant que processus plus récent, ce qui signifie que les meilleures pratiques sont encore en train d'être établies.

Fonctionnement du processus ETL

Le moyen le plus simple de comprendre le fonctionnement du processus ETL est de comprendre ce qui se passe à chaque étape du processus.

Extraction

Lors de l'extraction des données, les données brutes sont copiées ou exportées des emplacements source vers une zone de transfert. Les équipes de gestion des données peuvent extraire des données à partir de diverses sources de données, qui peuvent être structurées ou non. Ces sources incluent, mais ne sont pas limitées à :

  • Des serveurs SQL ou  NoSQL
  • Les systèmes CRM et ERP
  • Les fichiers plats
  • Les courriers électroniques
  • Les pages Web

Transformer

Dans la zone de transfert, les données brutes font l'objet d'un traitement de l'information. Ici, les données sont transformées et consolidées pour leur cas d'utilisation analytique prévu. Cette phase peut impliquer les tâches suivantes :

  • Filtrer, nettoyer, dédupliquer, valider et authentifier des données.
  • Effectuer des calculs, des traductions ou des récapitulations sur la base des données brutes. Ceci peut  inclure la modification des en-têtes de ligne et de colonne pour plus de cohérence, la conversion de devises ou d'autres unités de mesure, la modification de chaînes de texte, etc.
  • Mener des audits pour assurer la qualité et la conformité des données
  • Supprimer, crypter ou protéger les données régies par l'industrie ou les régulateurs gouvernementaux
  • Formater les données dans des tables ou des tables jointes pour les mettre en corrélation avec le schéma de l'entrepôt de données cible.

Chargement

Dans cette dernière étape, les données transformées sont déplacées de la zone de transfert vers un entrepôt de données cible. En règle générale, cela implique un chargement initial de toutes les données, suivi d'un chargement périodique des modifications de données incrémentielles et, moins souvent, d'actualisations complètes pour effacer et remplacer les données dans l'entrepôt. Pour la plupart des organisations qui utilisent ETL, le processus est automatisé, bien défini, continu et piloté par lots. En règle générale, le processus ETL a lieu pendant les heures creuses, lorsque le trafic sur les systèmes sources et l'entrepôt de données est au plus bas.

ETL et autres méthodes d'intégration de données

ETL et ELT ne sont que deux méthodes d'intégration de données, d'autres approches sont également utilisées pour faciliter les flux de travail d'intégration de données. Notamment :

  • La Capture de données modifiées (CDC) identifie et capture uniquement les données source qui ont changé et déplace ces données vers le système cible. La CDC peut être utilisée pour réduire les ressources nécessaires lors de l'étape « extraction » du processus ETL ; elle peut également être utilisée indépendamment pour déplacer des données qui ont été transformées en un datalake ou un autre référentiel en temps réel.
  • La réplication de données copie les modifications des sources de données en temps réel ou par lots dans une base de données centrale. La réplication données est souvent répertorié comme une méthode d'intégration de données. En fait, elle est le plus souvent utilisée pour créer des sauvegardes pour la reprise après incident.
  • La virtualisation des données utilise une couche d'abstraction logicielle pour créer une  vue unifiée, intégrée et entièrement utilisable des données, sans copier, transformer ou charger physiquement les données source sur un système cible. La fonctionnalité de virtualisation données permet à une organisation de créer des entrepôts de données virtuels, des datalakes et des datamarts à partir des mêmes données source pour le stockage de données sans les frais et la complexité liés à la création et à la gestion de plateformes distinctes pour chacun. Bien que la virtualisation des données puisse être utilisée parallèlement au processus ETL, elle est de plus en plus considérée comme une alternative au processus ETL et aux autres méthodes d'intégration de données physiques.
  • Le Stream Data Integration (SDI) est exactement ce à quoi cela ressemble : il consomme en permanence des flux de données en temps réel, les transforme et les charge sur un système cible pour analyse. Le mot clé ici est en continu. Au lieu d'intégrer des instantanés de données extraites de sources à un moment donné, SDI intègre les données en continu au fur et à mesure qu'elles deviennent disponibles. SDI permet à un magasin de données d'alimenter l'analyse, l'apprentissage automatique et les applications en temps réel pour améliorer l'expérience client, la détection des fraudes, etc. 
Les avantages et les défis du processus ETL

Les solutions ETL améliorent la qualité en effectuant un nettoyage des données avant de charger les données dans un référentiel différent. Le processus ETL, une opération par lots chronophage, est plus souvent recommandé pour créer des référentiels de données cibles plus petits qui nécessitent des mises à jour moins fréquentes, tandis que d'autres méthodes d'intégration de données, notamment le processus ELT (extraction, chargement, transformation), la capture de données modifiées (CDC) et la virtualisation des données, sont utilisés pour intégrer des volumes de données de plus en plus importants qui modifient ou diffusent des flux de données en temps réel.

 

En savoir plus sur l'intégration des données
Outils ETL

Dans le passé, les organisations écrivaient leur propre code ETL. Il existe désormais de nombreux outils ETL commerciaux et open source et des services cloud parmi lesquels choisir. Les fonctionnalités typiques de ces produits incluent les éléments suivants :

  • Automatisation complète et facilité d'utilisation : les principaux outils ETL automatisent l'ensemble du flux de données, des sources de données à l'entrepôt de données cible. De nombreux outils recommandent des règles pour extraire, transformer et charger les données.
  • Une interface visuelle par glisser-déposer : cette fonctionnalité peut être utilisée pour spécifier des règles et des flux de données.
  • Prise en charge de la gestion de données complexes : cela inclut une assistance pour les calculs complexes, les intégrations de données et les manipulations de chaînes.
  • Sécurité et conformité : les meilleurs outils ETL chiffrent les données en mouvement et au repos et sont certifiés conformes aux réglementations sectorielles ou gouvernementales, telles que HIPAA et GDPR.

En outre, de nombreux outils ETL ont évolué pour inclure la capacité ELT et prendre en charge l'intégration de données en temps réel et en continu pour les applications d'intelligence artificielle (IA).

L'avenir de l'intégration - API utilisant EAI

Les interfaces de programmation d'applications (API) utilisant l'intégration d'applications d'entreprise (EAI) peuvent être utilisées à la place du processus ETL pour une solution plus flexible et évolutive qui inclut l'intégration des  flux de travail . Alors que le processus ETL est toujours la  principale ressource d' intégration de données , EAI est de plus en plus utilisée avec des API dans les paramètres Web.

Solutions connexes
IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit un ensemble de nœuds de données pour rendre toutes les données disponibles pour l'IA et l'analyse dans n'importe quel nuage.

Explorer IBM Cloud Pak for Data
IBM DataOps

L'IA invente de nouvelles façons de libérer la valeur des données. Organisez vos données pour les préparer à un univers régi par l'IA et le multicloud avec des solutions DataOps.

Explorer IBM DataOps
Intégration des données

Les outils d'intégration de données vous permettent de transformer des données structurées et non structurées et de les fournir aux systèmes de votre choix, sur une plateforme big data évolutive.

Explorer l'intégration des données
Ressources Hive comme outil pour ETL ou ELT

Extraire, transformer et charger OU extraire, charger puis transformer

ELT et ETL : quelles différences ?

Découvrez les similitudes et les différences des définitions, les avantages et les cas d'utilisation d'ELT et d'ETL.

Simplifier les données : Al Martin et Michel Tricot discutent des technologies ELT et ETL airbyte et de l'entrepreneuriat

Animé par Al Martin, vice-président d'IBM Expert Services Delivery, Simplifier les données présente les dernières réflexions d'un certain nombre d'experts sur le big data, l'IA et les implications pour l'entreprise.

Pour aller plus loin

IBM propose plusieurs solutions et services d'intégration de données conçus pour prendre en charge un pipeline de données prêt pour l'entreprise et donner à votre entreprise les outils dont elle a besoin pour évoluer efficacement. IBM, leader de l'intégration de données, fournit aux entreprises la confiance dont elles ont besoin pour gérer des projets big data, des applications et des technologies d'apprentissage automatique. Avec des plateformes de pointe comme IBM Cloud Pak® for Data, les organisations peuvent moderniser leurs processus DataOpstout en utilisant les meilleurs outils de virtualisation pour atteindre la vitesse et l'évolutivité dont leur entreprise a besoin aujourd'hui et ultérieurement.

Explorer IBM Cloud Pak® for Data