L’ETL (acronyme anglais pour « extraction, transformation, chargement ») est un processus d’intégration de données utilisé depuis longtemps pour combiner des données provenant de sources multiples en un ensemble de données unique et cohérent à charger dans un entrepôt de données, un data lake ou un autre système cible.
Alors que les bases de données gagnaient en popularité dans les années 1970, la solution ETL a été introduite en tant que processus d’intégration et de chargement de données à des fins de calcul et d’analyse, devenant finalement la principale méthode de traitement des données pour les projets d’entreposage de données.
L’ETL constitue la base des flux de travail d’analyse des données et de machine learning. Grâce à une série de règles métier, l’ETL nettoie et organise les données de manière à répondre à des besoins spécifiques en matière de Business Intelligence, tels que les rapports mensuels, mais il peut également prendre en charge des analyses plus avancées, qui peuvent améliorer les processus principaux ou l’expérience des utilisateurs finaux. L’ETL est souvent utilisé par une organisation pour :
Découvrez l'e-book gratuit d'O'Reilly pour apprendre à vous lancer avec Presto, le moteur SQL open source destiné à l'analyse des données.
Obtenir le livre blanc sur la gouvernance de l’IA
La différence majeure entre l’ETL et l’ELT apparaît dans l’ordre des opérations. L’ELT copie ou exporte les données à partir des emplacements sources, mais au lieu de les charger dans une zone de transformation, il charge les données brutes directement dans l’entrepôt de données cible pour les transformer en fonction des besoins.
Bien que les deux processus exploitent une variété de référentiels de données, tels que des bases de données, des entrepôts de données et des data lakes, chaque processus présente des avantages et des inconvénients. L’ELT est particulièrement utile pour les jeux de données volumineux et non structurés, car le chargement peut avoir lieu directement à partir de la source. L’ELT peut être mieux adapté à la gestion du big data car il ne nécessite pas une longue planification initiale pour l’extraction et le stockage des données.
Le processus ETL, quant à lui, nécessite une définition plus précise dès le départ. Des points de données spécifiques doivent être identifiés pour l’extraction, ainsi que toutes les « clés » potentielles à intégrer dans des systèmes sources disparates. Même une fois ce travail terminé, les règles métier de transformation des données doivent être élaborées. Cette tâche repose en général sur les règles de données pour un type donné d’analyse de données qui déterminera le niveau de résumé dont les données doivent disposer.
Avec l’adoption des bases de données cloud, l’ETL a gagné en popularité, mais c’est un processus récent qui présente encore certains inconvénients, notamment dans la mise en œuvre des bonnes pratiques.
Le moyen le plus simple de comprendre le fonctionnement de l’ETL est de comprendre ce qui se passe à chaque étape du processus.
Lors de l’extraction des données, les données brutes sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Les équipes de gestion des données peuvent extraire des données à partir de diverses sources de données, structurées ou non structurées. Ces sources incluent, sans toutefois s’y limiter :
Dans la zone de préparation, les données brutes font l’objet d’un traitement. Ici, les données sont transformées et consolidées pour le cas d’utilisation analytique prévu. Cette phase peut impliquer les tâches suivantes :
Lors de cette dernière étape, les données transformées sont déplacées de la zone de préparation vers un entrepôt de données cible. En règle générale, il s’agit d’un chargement initial de toutes les données, suivi d’un chargement périodique des modifications incrémentielles et, moins souvent, de mises à jour complètes pour effacer et remplacer les données dans l’entrepôt. Pour la plupart des organisations qui utilisent l’ETL, le processus est automatisé, bien défini, continu et géré par lots. En règle générale, l’ETL a lieu en dehors des heures d’ouverture, au moment où le trafic est réduit sur les systèmes sources et l’entrepôt de données.
L’ETL et l’ELT ne sont que deux méthodes d’intégration de données. D’autres approches sont également utilisées pour faciliter les workflows d’intégration de données. En voici quelques-unes :
Les solutions ETL améliorent la qualité en effectuant un nettoyage des données avant de les charger dans un référentiel différent. L’ETL est une opération par lots qui prend du temps et qui est recommandée plus souvent pour créer des référentiels de données cibles plus petits qui nécessitent des mises à jour moins fréquentes, alors que d’autres méthodes d’intégration de données (comme l’ELT (extraction, chargement, transformation), la capture des données modifiées (CDC) et la virtualisation des données), sont utilisées pour intégrer des volumes de données de plus en plus importants qui changent ou des flux de données en temps réel.
Dans le passé, les organisations écrivaient leur propre code ETL. Il existe désormais de nombreux outils ETL et services cloud en open source ou payants. Les fonctionnalités typiques de ces produits sont les suivantes :
En outre, de nombreux outils ETL ont évolué pour inclure des fonctionnalités ELT et prendre en charge l’intégration de données en temps réel et en continu pour les applications d’intelligence artificielle (IA).
Les interfaces de programmation d’applications (API) utilisant l’intégration d’applications d’entreprise (EAI) peuvent être utilisées à la place de l’ETL pour une solution plus flexible et évolutive qui inclut l’intégration des workflows. Si l’ETL reste la principale ressource d’intégration des données, l’EAI est de plus en plus utilisée avec des API dans des environnements basés sur le Web.
IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une data fabric afin de rendre toutes les données disponibles pour l’IA et l’analytique, sur n’importe quel cloud.
L’IA libère la valeur des données de manière inédite. Grâce aux solutions DataOps, préparez vos données au monde de l’IA et du multicloud.
L’intégration des données vous permet de transformer des données structurées et non structurées et de les diffuser dans n’importe quel système sur une plateforme big data évolutive.
Découvrez comment extraire, transformer et charger OU extraire, charger puis transformer en découvrant des moyens de traiter et d’analyser facilement de grands jeux de données à l’aide de cet outil.
Découvrez les similitudes et les différences dans les définitions, les avantages et les cas d’utilisation de l’ELT et de l’ETL.
Découvrez la puissance des flux ETL avec Node-RED et apprenez à rationaliser, implémenter et automatiser ces processus critiques pour libérer tout le potentiel de vos données.