L’ELT (extraction, chargement, transformation) et l’ETL (extraction, transformation, chargement) sont deux processus d’intégration qui déplacent les données brutes d’un système source vers une base de données cible telle qu’un data lake ou un entrepôt de données. Ces sources de données peuvent se trouver dans des référentiels différents ou dans des systèmes hérités qui sont ensuite transférés à l’aide de l’ELT ou de l’ETL vers un emplacement de données cible.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Avec l’ELT, les données non structurées sont extraites d’un système source et chargées dans un système cible pour être transformées ultérieurement, selon les besoins. Ces données extraites non structurées sont mises à la disposition des systèmes de Business Intelligence, et aucune préparation n’est nécessaire. L’ELT tire parti de l’entreposage de données pour effectuer des opérations de transformation simples telles que la validation des données et la suppression des données dupliquées. Ces processus sont mis à jour en temps réel et utilisés pour de grandes quantités de données brutes. L’ELT est un processus plus récent, qui n’a pas atteint son plein potentiel comme l’a fait son aîné, l’ETL. Le processus ELT était initialement basé sur des scripts SQL codés en dur. Ces scripts SQL sont plus susceptibles de contenir des erreurs de codage que les méthodes plus avancées utilisées dans l’ETL.
Avec l’ETL, les données non structurées sont extraites d’un système source, et certains points de données et « clés » possibles sont identifiés avant de charger les données dans les systèmes cibles. Dans un scénario ETL traditionnel, les données sources sont extraites vers une zone de préparation et déplacées vers le système cible. Dans la zone de préparation, les données sont soumises à un processus de transformation qui organise et nettoie chaque type de données. Ce processus de transformation permet aux données désormais structurées d’être compatibles avec les systèmes de stockage cibles. L’ETL a été conçu à l’origine pour fonctionner avec les bases de données relationnelles, qui dominaient le marché. Les ingénieurs en données travaillent sur les processus ETL depuis les années 1970, ce qui leur a permis de les affiner considérablement pour servir la science des données.
Dans la vidéo suivante, Jamil Spain explique plus en détail l’ETL :
Si l’approche ELT permet une mise en œuvre plus rapide que le processus ETL, les données sont désordonnées une fois déplacées. La transformation intervient après la fonction de chargement, ce qui évite tout ralentissement de la migration. L’ELT dissocie les étapes de transformation et de chargement, en veillant à ce qu’aucune erreur de codage (ou toute autre erreur lors de l’étape de transformation) n’entrave la migration. De plus, l’ELT évite les problèmes de dimensionnement des serveurs en utilisant la puissance de traitement et la taille de l’entrepôt de données pour permettre une transformation (ou un calcul évolutif) à grande échelle. L’ELT s’associe également aux solutions d’entrepôt de données cloud pour prendre en charge les données structurées, non structurées, semi-structurées et brutes.
L’ETL est plus long à mettre en œuvre, mais il donne des données plus propres. Ce processus convient parfaitement aux petits référentiels de données cibles qui nécessitent des mises à jour moins fréquentes. L’ETL fonctionne également avec les entrepôts de données cloud en utilisant des plateformes SaaS basées sur le cloud et des entrepôts de données sur site.
Par ailleurs, il existe de nombreux outils ETL commerciaux et open source dotés des fonctionnalités et avantages suivants :
Le processus ELT fonctionne mieux avec de gros volumes de données ou des environnements d’utilisation de données en temps réel.
En voici quelques exemples :
L’ETL est idéal pour synchroniser plusieurs environnements d’utilisation de données et migrer des données à partir de systèmes existants.
Voici quelques exemples précis :
La principale différence entre l’ELT et l’ETL réside dans l’ordre des opérations entre les deux processus, qui les rend particulièrement adaptés à différentes situations. D’autres différences concernent le volume et les types de données que chaque processus peut gérer. Bien que l’ELT et l’ETL se ressemblent, leur application est différente.
Avec l’ELT, le processus est simplifié dans la mesure où il n’a pas besoin de « clés » ou d’autres identifiants pour transférer et utiliser les données. Le processus ELT a été affiné et de nombreux outils ELT évolués sont utilisés pour faciliter la migration des données. Les temps de chargement sont plus courts car le processus ne comporte pas autant d’étapes. Pour les systèmes de business intelligence, la solution ELT résulte d’un besoin de pouvoir charger rapidement des données non structurées. Une solution ELT automatisée basée sur le cloud peut également nécessiter une maintenance relativement faible.
Les données ETL offrent une meilleure définition dès le départ, ce qui nécessite généralement plus de temps pour transférer les données avec précision. Ce processus ne nécessite que des mises à jour périodiques des informations, plutôt que des mises à jour en temps réel. Les temps de chargement de l’ETL sont plus longs que ceux de l’ELT en raison des nombreuses étapes de la phase de transformation qui doivent avoir lieu avant le chargement des données.
IBM propose plusieurs services et solutions d’intégration des données conçus pour créer un pipeline de données prêt à l’emploi et donner à votre entreprise les outils dont elle a besoin pour évoluer efficacement.
IBM, leader en intégration de données sur site et basée sur le cloud, donne aux entreprises la confiance dont elles ont besoin pour gérer des projets de big data, des applications et des technologies de machine learning. Grâce à des plateformes de pointe comme IBM Cloud Pak for Data, les entreprises peuvent moderniser leurs processus DataOps tout en utilisant les meilleurs outils de virtualisation pour atteindre la vitesse et l’évolutivité dont elles ont besoin maintenant et à l’avenir.
Pour en savoir plus sur la manière dont votre entreprise peut élaborer et mettre en œuvre une stratégie efficace d’intégration des données, découvrez la suite d’offres d’intégration de données d’IBM.
Inscrivez-vous pour obtenir un IBMid et créez votre compte IBM Cloud
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.