ETL, qui signifie extraction, transformation et chargement, est un processus d'intégration de données qui combine les données de plusieurs sources de données dans un seul magasin de données cohérent qui est chargé dans un entrepôt de données ou autre système cible.
Au fur et à mesure que les bases de données gagnaient en popularité dans les années 1970, ETL a été introduit en tant que processus d'intégration et de chargement de données pour le calcul et l'analyse, devenant finalement la principale méthode de traitement des données pour les projets d'entreposage de données.
ETL fournit la base des flux de travail d'analyse de données et d'apprentissage automatique. Grâce à une série de règles métier, ETL nettoie et organise les données d'une manière qui répond à des besoins spécifiques d'intelligence d'entreprise, comme les rapports mensuels, mais il peut également s'attaquer à des analyses plus avancées, qui peuvent améliorer les processus back-end ou les ou les expériences de l' utilisateur final . ETL est souvent utilisé par une organisation pour :
Regarder comment créer et exécuter une tâche ETL
Lire le rapport Gartner Magic Quadrant 2021 pour plus d'informations sur les outils d'intégration de données
Lire le brief IBM DataStage (169 Ko)
La différence la plus évidente entre ETL et ELT si situe au niveau de l'ordre des opérations. ELT copie ou exporte les données à partir des emplacements source, mais au lieu de les charger dans une zone de transit pour la transformation, il charge les données brutes directement dans le magasin de données cible pour les transformer selon les besoins.
Bien que les deux processus exploitent une variété de référentiels de données, tels que des bases de données, des entrepôts de données et des datalakes, chaque processus a ses avantages et ses inconvénients. ELT est particulièrement utile pour les jeux de données non structurés et volumineux, car le chargement peut se produire directement à partir de la source. ELT peut être plus idéal pour la gestion du Big Data, car il ne nécessite pas beaucoup de planification préalable pour l'extraction et le stockage des données. Le processus ETL, en revanche, nécessite plus de définition au départ. Des points de données spécifiques doivent être identifiés pour l'extraction ainsi que toutes les « clés » potentielles à intégrer dans des systèmes sources disparates. Même une fois ce travail terminé, les règles métier doivent être élaborées pour les transformations de données. Ce travail peut généralement avoir des dépendances sur les exigences en matière de données pour un type donné d'analyse de données, ce qui déterminera le niveau de récapitulation que les données doivent avoir. Alors que le processus ELT est devenu de plus en plus populaire avec l'adoption des bases de données cloud, il a ses propres inconvénients en tant que processus plus récent, ce qui signifie que les meilleures pratiques sont encore en train d'être établies.
Le moyen le plus simple de comprendre le fonctionnement du processus ETL est de comprendre ce qui se passe à chaque étape du processus.
Lors de l'extraction des données, les données brutes sont copiées ou exportées des emplacements source vers une zone de transfert. Les équipes de gestion des données peuvent extraire des données à partir de diverses sources de données, qui peuvent être structurées ou non. Ces sources incluent, mais ne sont pas limitées à :
Dans la zone de transfert, les données brutes font l'objet d'un traitement de l'information. Ici, les données sont transformées et consolidées pour leur cas d'utilisation analytique prévu. Cette phase peut impliquer les tâches suivantes :
Dans cette dernière étape, les données transformées sont déplacées de la zone de transfert vers un entrepôt de données cible. En règle générale, cela implique un chargement initial de toutes les données, suivi d'un chargement périodique des modifications de données incrémentielles et, moins souvent, d'actualisations complètes pour effacer et remplacer les données dans l'entrepôt. Pour la plupart des organisations qui utilisent ETL, le processus est automatisé, bien défini, continu et piloté par lots. En règle générale, le processus ETL a lieu pendant les heures creuses, lorsque le trafic sur les systèmes sources et l'entrepôt de données est au plus bas.
ETL et ELT ne sont que deux méthodes d'intégration de données, d'autres approches sont également utilisées pour faciliter les flux de travail d'intégration de données. Notamment :
Les solutions ETL améliorent la qualité en effectuant un nettoyage des données avant de charger les données dans un référentiel différent. Le processus ETL, une opération par lots chronophage, est plus souvent recommandé pour créer des référentiels de données cibles plus petits qui nécessitent des mises à jour moins fréquentes, tandis que d'autres méthodes d'intégration de données, notamment le processus ELT (extraction, chargement, transformation), la capture de données modifiées (CDC) et la virtualisation des données, sont utilisés pour intégrer des volumes de données de plus en plus importants qui modifient ou diffusent des flux de données en temps réel.
Dans le passé, les organisations écrivaient leur propre code ETL. Il existe désormais de nombreux outils ETL commerciaux et open source et des services cloud parmi lesquels choisir. Les fonctionnalités typiques de ces produits incluent les éléments suivants :
En outre, de nombreux outils ETL ont évolué pour inclure la capacité ELT et prendre en charge l'intégration de données en temps réel et en continu pour les applications d'intelligence artificielle (IA).
Les interfaces de programmation d'applications (API) utilisant l'intégration d'applications d'entreprise (EAI) peuvent être utilisées à la place du processus ETL pour une solution plus flexible et évolutive qui inclut l'intégration des flux de travail . Alors que le processus ETL est toujours la principale ressource d' intégration de données , EAI est de plus en plus utilisée avec des API dans les paramètres Web.
IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit un ensemble de nœuds de données pour rendre toutes les données disponibles pour l'IA et l'analyse dans n'importe quel nuage.
L'IA invente de nouvelles façons de libérer la valeur des données. Organisez vos données pour les préparer à un univers régi par l'IA et le multicloud avec des solutions DataOps.
Les outils d'intégration de données vous permettent de transformer des données structurées et non structurées et de les fournir aux systèmes de votre choix, sur une plateforme big data évolutive.
Extraire, transformer et charger OU extraire, charger puis transformer
Découvrez les similitudes et les différences des définitions, les avantages et les cas d'utilisation d'ELT et d'ETL.
Animé par Al Martin, vice-président d'IBM Expert Services Delivery, Simplifier les données présente les dernières réflexions d'un certain nombre d'experts sur le big data, l'IA et les implications pour l'entreprise.