Qu’est-ce que l’ETL (extraction, transformation, chargement) ?
Découvrir la solution ETL d’IBM S’abonner aux actualités concernant l’IA
Fond noir et bleu
Qu’est-ce que l’ETL ?

L’ETL (acronyme anglais pour « extraction, transformation, chargement ») est un processus d’intégration de données utilisé depuis longtemps pour combiner des données provenant de sources multiples en un ensemble de données unique et cohérent à charger dans un entrepôt de données, un data lake ou un autre système cible.

Alors que les bases de données gagnaient en popularité dans les années 1970, la solution ETL a été introduite en tant que processus d’intégration et de chargement de données à des fins de calcul et d’analyse, devenant finalement la principale méthode de traitement des données pour les projets d’entreposage de données.

L’ETL constitue la base des flux de travail d’analyse des données et de machine learning. Grâce à une série de règles métier, l’ETL nettoie et organise les données de manière à répondre à des besoins spécifiques en matière de Business Intelligence, tels que les rapports mensuels, mais il peut également prendre en charge des analyses plus avancées, qui peuvent améliorer les processus principaux ou l’expérience des utilisateurs finaux. L’ETL est souvent utilisé par une organisation pour : 

  • Extraire des données à partir de systèmes existants
  • Nettoyer les données pour améliorer leur qualité et leur cohérence
  • Charger des données dans une base de données cible
Apprendre à utiliser Presto

Découvrez l'e-book gratuit d'O'Reilly pour apprendre à vous lancer avec Presto, le moteur SQL open source destiné à l'analyse des données.

Contenu connexe

Obtenir le livre blanc sur la gouvernance de l’IA

ETL ou ELT

La différence majeure entre l’ETL et l’ELT apparaît dans l’ordre des opérations. L’ELT copie ou exporte les données à partir des emplacements sources, mais au lieu de les charger dans une zone de transformation, il charge les données brutes directement dans l’entrepôt de données cible pour les transformer en fonction des besoins.

Bien que les deux processus exploitent une variété de référentiels de données, tels que des bases de données, des entrepôts de données et des data lakes, chaque processus présente des avantages et des inconvénients. L’ELT est particulièrement utile pour les jeux de données volumineux et non structurés, car le chargement peut avoir lieu directement à partir de la source. L’ELT peut être mieux adapté à la gestion du big data car il ne nécessite pas une longue planification initiale pour l’extraction et le stockage des données.

Le processus ETL, quant à lui, nécessite une définition plus précise dès le départ. Des points de données spécifiques doivent être identifiés pour l’extraction, ainsi que toutes les « clés » potentielles à intégrer dans des systèmes sources disparates. Même une fois ce travail terminé, les règles métier de transformation des données doivent être élaborées. Cette tâche repose en général sur les règles de données pour un type donné d’analyse de données qui déterminera le niveau de résumé dont les données doivent disposer.

Avec l’adoption des bases de données cloud, l’ETL a gagné en popularité, mais c’est un processus récent qui présente encore certains inconvénients, notamment dans la mise en œuvre des bonnes pratiques.

Fonctionnement de l’ETL

Le moyen le plus simple de comprendre le fonctionnement de l’ETL est de comprendre ce qui se passe à chaque étape du processus.

Extraire

Lors de l’extraction des données, les données brutes sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Les équipes de gestion des données peuvent extraire des données à partir de diverses sources de données, structurées ou non structurées. Ces sources incluent, sans toutefois s’y limiter :

  • Des serveurs SQL ou NoSQL
  • Des systèmes CRM et ERP
  • Des fichiers à plat
  • E-mail
  • Des pages web

Transformer

Dans la zone de préparation, les données brutes font l’objet d’un traitement. Ici, les données sont transformées et consolidées pour le cas d’utilisation analytique prévu. Cette phase peut impliquer les tâches suivantes :

  • Filtrage, nettoyage, déduplication, validation et authentification des données.
  • Réalisation des calculs, des traductions ou des synthèses à partir des données brutes. Cela peut inclure la modification des en-têtes de ligne et de colonne à des fins de cohérence, la conversion de devises ou d’autres unités de mesure, la modification de chaînes de texte, etc.
  • Réalisation d’audits pour garantir la qualité et la conformité des données.
  • Suppression, chiffrement ou protection des données sous l’autorité des régulateurs du secteur ou des autorités publiques.
  • Formatage des données dans des tables ou des tables jointes en fonction du schéma de l’entrepôt de données cible.

Charger

Lors de cette dernière étape, les données transformées sont déplacées de la zone de préparation vers un entrepôt de données cible. En règle générale, il s’agit d’un chargement initial de toutes les données, suivi d’un chargement périodique des modifications incrémentielles et, moins souvent, de mises à jour complètes pour effacer et remplacer les données dans l’entrepôt. Pour la plupart des organisations qui utilisent l’ETL, le processus est automatisé, bien défini, continu et géré par lots. En règle générale, l’ETL a lieu en dehors des heures d’ouverture, au moment où le trafic est réduit sur les systèmes sources et l’entrepôt de données.

ETL et autres méthodes d’intégration de données

L’ETL et l’ELT ne sont que deux méthodes d’intégration de données. D’autres approches sont également utilisées pour faciliter les workflows d’intégration de données. En voici quelques-unes :

  • La Capture de données modifiées (CDC) identifie et capture uniquement les données source qui ont changé et déplace ces données vers le système cible. La CDC peut être utilisée pour réduire les ressources requises lors de l’étape « d’extraction » du processus ETL ; elle peut également être utilisée indépendamment pour déplacer en temps réel des données qui ont été transformées dans un data lake ou un autre référentiel.
  • La Réplication des données copie les modifications apportées aux sources de données en temps réel ou par lots vers une base de données centrale. La réplication des données est souvent considérée comme une méthode d’intégration des données. Dans les faits, elle est le plus souvent utilisée pour créer des sauvegardes dans le cadre d’une reprise après incident.
  • La virtualisation des données utilise une couche d’abstraction logicielle pour créer une vue des données unifiée, intégrée et entièrement exploitable, sans copier, transformer ou charger physiquement les données sources dans un système cible. La fonctionnalité de virtualisation des données permet à une organisation de créer des entrepôts de données virtuels, des data lakes et des datamarts à partir des mêmes données sources pour le stockage, sans les coûts et la complexité liés à la création et à la gestion de plateformes distinctes pour chacun d’entre eux. Bien que la virtualisation des données puisse être utilisée parallèlement à l’ETL, elle est de plus en plus considérée comme une alternative à l’ETL et à d’autres méthodes d’intégration de données physiques.
  • L’intégration des données de flux (SDI) consomme de manière continue des flux de données en temps réel, les transforme et les charge vers un système cible à des fins d’analyse. Ici, le mot clé est « continu ». Au lieu d’intégrer des données extraites de sources à un instant donné, la SDI intègre les données dès qu’elles sont disponibles sous forme de flux continu. La SDI fournit un entrepôt de données pour alimenter les analyses, le machine learning et les applications en temps réel afin d’améliorer l’expérience client, la détection des fraudes, etc. 
Les avantages et les défis de l’ETL

Les solutions ETL améliorent la qualité en effectuant un nettoyage des données avant de les charger dans un référentiel différent. L’ETL est une opération par lots qui prend du temps et qui est recommandée plus souvent pour créer des référentiels de données cibles plus petits qui nécessitent des mises à jour moins fréquentes, alors que d’autres méthodes d’intégration de données (comme l’ELT (extraction, chargement, transformation), la capture des données modifiées (CDC) et la virtualisation des données), sont utilisées pour intégrer des volumes de données de plus en plus importants qui changent ou des flux de données en temps réel.

 

En savoir plus sur l’intégration des données
Outils ETL

Dans le passé, les organisations écrivaient leur propre code ETL. Il existe désormais de nombreux outils ETL et services cloud en open source ou payants. Les fonctionnalités typiques de ces produits sont les suivantes :

  • Automatisation complète et facilité d’utilisation : les principaux outils ETL automatisent l’ensemble du flux de données, des sources de données à l’entrepôt de données cible. De nombreux outils recommandent des règles pour extraire, transformer et charger les données.
  • Une interface visuelle par glisser-déposer : cette fonctionnalité peut être utilisée pour spécifier des règles et des flux de données.
  • Aide à la gestion de données complexes : il s’agit d’une assistance pour les calculs complexes, les intégrations de données et les manipulations de chaînes de caractères.
  • Sécurité et conformité : les meilleurs outils ETL chiffrent les données en mouvement et au repos et sont conformes aux réglementations sectorielles ou gouvernementales, HIPAA et RGPD notamment.

En outre, de nombreux outils ETL ont évolué pour inclure des fonctionnalités ELT et prendre en charge  l’intégration de données en temps réel et en continu pour les applications d’intelligence artificielle (IA).

L’avenir de l’intégration - API utilisant l’EAI

Les interfaces de programmation d’applications (API) utilisant l’intégration d’applications d’entreprise (EAI) peuvent être utilisées à la place de l’ETL pour une solution plus flexible et évolutive qui inclut l’intégration des workflows. Si l’ETL reste la principale ressource d’intégration des données, l’EAI est de plus en plus utilisée avec des API dans des environnements basés sur le Web.

Solutions connexes
IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une data fabric afin de rendre toutes les données disponibles pour l’IA et l’analytique, sur n’importe quel cloud.

Explorer IBM Cloud Pak for Data
IBM DataOps

L’IA libère la valeur des données de manière inédite. Grâce aux solutions DataOps, préparez vos données au monde de l’IA et du multicloud.

Découvrir IBM DataOps
Intégration de données

L’intégration des données vous permet de transformer des données structurées et non structurées et de les diffuser dans n’importe quel système sur une plateforme big data évolutive.

Découvrir l’intégration des données
Ressources Hive en tant qu’outil pour ETL ou ELT

Découvrez comment extraire, transformer et charger OU extraire, charger puis transformer en découvrant des moyens de traiter et d’analyser facilement de grands jeux de données à l’aide de cet outil.

ELT ou ETL : quelle est la différence ?

Découvrez les similitudes et les différences dans les définitions, les avantages et les cas d’utilisation de l’ELT et de l’ETL.

Implémenter des flux ETL avec Node-RED

Découvrez la puissance des flux ETL avec Node-RED et apprenez à rationaliser, implémenter et automatiser ces processus critiques pour libérer tout le potentiel de vos données.