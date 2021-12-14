L’ELT (extraction, chargement, transformation) et l’ETL (extraction, transformation, chargement) sont deux processus d’intégration qui déplacent les données brutes d’un système source vers une base de données cible telle qu’un data lake ou un entrepôt de données. Ces sources de données peuvent se trouver dans des référentiels différents ou dans des systèmes hérités qui sont ensuite transférés à l’aide de l’ELT ou de l’ETL vers un emplacement de données cible.
Avec l’ELT, les données non structurées sont extraites d’un système source et chargées dans un système cible pour être transformées ultérieurement, selon les besoins. Ces données extraites non structurées sont mises à la disposition des systèmes de Business Intelligence, et aucune préparation n’est nécessaire. L’ELT tire parti de l’entreposage de données pour effectuer des opérations de transformation simples telles que la validation des données et la suppression des données dupliquées. Ces processus sont mis à jour en temps réel et utilisés pour de grandes quantités de données brutes. L’ELT est un processus plus récent, qui n’a pas atteint son plein potentiel comme l’a fait son aîné, l’ETL. Le processus ELT était initialement basé sur des scripts SQL codés en dur. Ces scripts SQL sont plus susceptibles de contenir des erreurs de codage que les méthodes plus avancées utilisées dans l’ETL.
Avec l’ETL, les données non structurées sont extraites d’un système source, et certains points de données et « clés » possibles sont identifiés avant de charger les données dans les systèmes cibles. Dans un scénario ETL traditionnel, les données sources sont extraites vers une zone de préparation et déplacées vers le système cible. Dans la zone de préparation, les données sont soumises à un processus de transformation qui organise et nettoie chaque type de données. Ce processus de transformation permet aux données désormais structurées d’être compatibles avec les systèmes de stockage cibles. L’ETL a été conçu à l’origine pour fonctionner avec les bases de données relationnelles, qui dominaient le marché. Les ingénieurs en données travaillent sur les processus ETL depuis les années 1970, ce qui leur a permis de les affiner considérablement pour servir la science des données.
Si l’approche ELT permet une mise en œuvre plus rapide que le processus ETL, les données sont désordonnées une fois déplacées. La transformation intervient après la fonction de chargement, ce qui évite tout ralentissement de la migration. L’ELT dissocie les étapes de transformation et de chargement, en veillant à ce qu’aucune erreur de codage (ou toute autre erreur lors de l’étape de transformation) n’entrave la migration. De plus, l’ELT évite les problèmes de dimensionnement des serveurs en utilisant la puissance de traitement et la taille de l’entrepôt de données pour permettre une transformation (ou un calcul évolutif) à grande échelle. L’ELT s’associe également aux solutions d’entrepôt de données cloud pour prendre en charge les données structurées, non structurées, semi-structurées et brutes.
L’ETL est plus long à mettre en œuvre, mais il donne des données plus propres. Ce processus convient parfaitement aux petits référentiels de données cibles qui nécessitent des mises à jour moins fréquentes. L’ETL fonctionne également avec les entrepôts de données cloud en utilisant des plateformes SaaS basées sur le cloud et des entrepôts de données sur site.
Par ailleurs, il existe de nombreux outils ETL commerciaux et open source dotés des fonctionnalités et avantages suivants :
Le processus ELT fonctionne mieux avec de gros volumes de données ou des environnements d’utilisation de données en temps réel.
En voici quelques exemples :
L’ETL est idéal pour synchroniser plusieurs environnements d’utilisation de données et migrer des données à partir de systèmes existants.
Voici quelques exemples précis :
La principale différence entre l’ELT et l’ETL réside dans l’ordre des opérations entre les deux processus, qui les rend particulièrement adaptés à différentes situations. D’autres différences concernent le volume et les types de données que chaque processus peut gérer. Bien que l’ELT et l’ETL se ressemblent, leur application est différente.
Avec l’ELT, le processus est simplifié dans la mesure où il n’a pas besoin de « clés » ou d’autres identifiants pour transférer et utiliser les données. Le processus ELT a été affiné et de nombreux outils ELT évolués sont utilisés pour faciliter la migration des données. Les temps de chargement sont plus courts car le processus ne comporte pas autant d’étapes. Pour les systèmes de business intelligence, la solution ELT résulte d’un besoin de pouvoir charger rapidement des données non structurées. Une solution ELT automatisée basée sur le cloud peut également nécessiter une maintenance relativement faible.
Les données ETL offrent une meilleure définition dès le départ, ce qui nécessite généralement plus de temps pour transférer les données avec précision. Ce processus ne nécessite que des mises à jour périodiques des informations, plutôt que des mises à jour en temps réel. Les temps de chargement de l’ETL sont plus longs que ceux de l’ELT en raison des nombreuses étapes de la phase de transformation qui doivent avoir lieu avant le chargement des données.
