Qu’est-ce que l’ELT (Extraction, chargement, transformation) ?

Qu’est-ce que l’ELT ?

L’ELT (extraction, chargement, transformation) est un autre type de processus d’intégration de données, similaire à son homologue l’ETL (extraction, transformation, chargement). Ce processus déplace les données brutes d’un système source vers une ressource de destination, telle qu’un entrepôt de données.

Bien que similaire à l’ETL, l’ELT est une approche fondamentalement différente du prétraitement des données, qui n’a été adoptée que plus récemment avec la transition vers les environnements cloud.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Fonctionnement de l’ELT

L’ELT comprend trois étapes principales : extraction, chargement et transformation. Chacune de ces étapes est détaillée ci-dessous.

Extraction

Lors de l’extraction, les données sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Le jeu de données peut être constitué de nombreux types de données provenant de n’importe quelle source structurée ou non structurée ou presque, y compris, mais sans s’y limiter :

Des serveurs SQL ou NoSQL
Des systèmes CRM et ERP
Fichiers texte et documents
E-mail
Des pages web

Cela dit, ce sont généralement des données non structurées qui sont utilisées.

Chargement

Lors de cette étape, les données transformées sont déplacées de la zone de préparation vers une zone de stockage, telle qu’un entrepôt de données ou un data lake.

Pour la plupart des organisations, le processus de chargement des données est automatisé, bien défini, continu et géré par lots. En général, l’ELT a lieu pendant les heures de bureau, lorsque le trafic sur les systèmes sources et l’entrepôt de données est à son maximum et que les consommateurs attendent d’utiliser les données à des fins d’analyse ou autre.

Transformation

À ce stade, une approche de schéma en écriture est employée, qui applique le schéma aux données avec SQL, ou transforme les données, avant l’analyse. Cette étape peut impliquer les tâches suivantes :

Filtrage, nettoyage, déduplication, validation et authentification des données.
Réalisation des calculs, des traductions, des analyses de données ou des synthèses à partir des données brutes. Cela peut inclure toutes les étapes, de la modification des en-têtes de lignes et de colonnes pour des raisons de cohérence à la conversion de devises ou d’unités de mesure, en passant par la modification de chaînes de texte et l’ajout de valeurs ou de la moyenne des valeurs : tous les éléments nécessaires pour répondre aux objectifs spécifiques de l’organisation en matière de BI ou d’analyse.
Suppression, chiffrement, masquage ou protection des données soumises à des réglementations gouvernementales ou sectorielles.
Mise en forme des données dans des tables ou des tables jointes en fonction du schéma déployé dans l’entrepôt.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

ETL ou ELT

Il est possible de confondre l’ELT avec son homologue à l’acronyme quasi identique. Cependant, il existe plusieurs différences distinctes entre l’ELT et l’ETL(extraction, transformation, chargement). Il s’agit d’un processus d’intégration des données qui combine les données de plusieurs sources dans un seul magasin cohérent chargé dans un entrepôt de données ou un autre système cible. Les outils ETL traditionnels ont été conçus pour créer des entrepôts de données destinés à venir à l’appui des applications de business intelligence (BI) et d’intelligence artificielle (IA).

ETL et ELT, quelles sont les différences ?

La différence évidente, c’est que le processus ELT exécute la fonction de chargement avant la fonction de transformation, ce qui revient à inverser les deuxième et troisième étapes du processus ETL. L’ELT copie ou exporte les données à partir des emplacements sources, mais au lieu de les déplacer dans une zone de préparation, il charge les données brutes directement dans le magasin de données cible pour les transformer en fonction des besoins. L’ELT ne transforme aucune donnée en transit.

Cependant, l’ordre des étapes n’est pas la seule différence. Dans l’ELT, le magasin de données cible peut être un entrepôt de données, mais le plus souvent, il s’agit d’un data lake, un vaste magasin central conçu pour stocker des données structurées et non structurées à très grande échelle.

Les data lakes sont gérés à l’aide d’une plateforme de big data (comme Apache Hadoop) ou d’un système de gestion de données NoSQL distribué. Ils peuvent soutenir la business intelligence, mais le plus souvent, ils sont créés pour soutenir l’intelligence artificielle, le machine learning, l’analyse prédictive et les applications pilotées par les données en temps réel et les flux d’événements.

Il existe également d’autres différences entre l’ETL et l’ELT. Par exemple, comme il transforme les données avant de les transférer vers le référentiel central, l’ETL peut faciliter la conformité en matière de confidentialité des données, voire la rendre plus systématique, que l’ELT (par exemple, si les analystes ne transforment pas les données sensibles avant leur utilisation, elles pourraient apparaître sans masquage dans le data lake). Cependant, les data scientists préféreront peut-être l’ELT, qui leur permet de jouer dans un « bac à sable » de données brutes et d’effectuer une transformation de données adaptée à des applications spécifiques. Mais, dans la plupart des cas, le choix entre l’ETL et l’ELT dépendra du choix entre les ressources disponibles et les besoins de l’entreprise.

Avantages de l’ELT

L’ELT offre plusieurs avantages aux utilisateurs qui intègrent le processus dans leurs workflows. Jetons un coup d’œil à certains de ses avantages notables :

Déplacement plus rapide des données vers la destination pour une disponibilité accélérée

Lorsque de grandes quantités de données de streaming sont générées, l’ELT permet de les charger immédiatement et les transforme une fois à leur destination. Cela permet d’éviter les ralentissements qui se produisent souvent si la transformation intervient avant la fonction de chargement, comme dans l’ETL. Souvent, des décisions dépendent de ces données, et les retards sont inacceptables. Le marché boursier, par exemple, génère de grandes quantités de données consommées en temps réel. Dans de tels scénarios, l’ELT est la solution de choix, car la transformation se produit une fois les données arrivées à destination.

Préoccupations dissociées

Comme les données sont transformées lorsqu’elles arrivent à destination, l’ELT permet à leur destinataire de contrôler leur manipulation. Avec l’ELT, la dissociation des étapes de transformation et de chargement garantit qu’une erreur de codage ou une autre erreur à l’étape de transformation n’affectera pas une autre étape.

Prévention des problèmes de mise à l’échelle du serveur

L’ELT utilise la puissance et la taille de l’entrepôt de données pour permettre la transformation, ou le calcul évolutif, à grande échelle. L’entrepôt de données de destination peut augmenter ou diminuer le nombre de nœuds selon les besoins, en particulier dans un scénario de cloud où il existe plusieurs nœuds dans chaque cluster, et où plusieurs clusters peuvent être utilisés. Cela permet une flexibilité et une évolutivité à la demande.

Économie d’argent

L’ELT nécessite un serveur moins puissant pour la transformation des données, et il tire parti des ressources déjà présentes dans l’entrepôt. Cela se traduit par des économies et une utilisation plus efficace des ressources.

Flexibilité

L’ELT permet d’utiliser le référentiel de destination de son choix, pour une meilleure flexibilité en termes de coûts et de ressources. Les entrepôts de données utilisent une architecture MPP (Massively Parallel Processing), notamment le stockage de volumes de données basé sur une mémoire en colonnes. Les processus de data lake qui appliquent un schéma, ou modèle de transformation, dès la réception des données (également appelé « schéma en lecture ») sont également pris en charge. Ces processus efficaces offrent une flexibilité qui permet de traiter de grandes quantités de données.

Opération ininterrompue

Un fonctionnement continu est idéal pour tout environnement où un accès rapide aux données est nécessaire. L’ELT est particulièrement adapté aux données utilisées dans des environnements cloud qui incluent souvent des applications accessibles à la demande en continu. De même, la transformation ELT cloud native offre cette évolutivité et cette flexibilité.

Défis associés au passage d’une architecture ETL à une architecture ELT

Une organisation peut choisir de passer d’une architecture ETL à une architecture ELT. La raison justifiant cette transition peut être un changement dans l’utilisation d’un produit ou service qui nécessite une réponse et une interaction en temps réel. Il arrive également que la quantité de données augmente de manière exponentielle et que la transformation retarde l’étape de chargement en raison des demandes de traitement de volumes élevés sur l’infrastructure. Une organisation peut également choisir de passer de l’ETL à l’ELT après une migration vers le cloud, si elle souhaite décharger le traitement ou utiliser les données à l’emplacement de destination plus rapidement.

Dans le contexte de cette transition, il faut bien évidemment s’attendre à rencontrer des difficultés. Tout d’abord, l’ELT et l’ETL impliquent une logique et un code diamétralement opposés. Cela peut nécessiter une reconfiguration complète de l’environnement et éventuellement une nouvelle infrastructure ou un nouveau fournisseur d’infrastructure dans le cloud. De plus, avec l’ELT, les données brutes sont envoyées à l’entrepôt de destination. Par conséquent, la sécurité est un élément à prendre en compte et elle doit être mise en œuvre pour assurer la protection des données.

Le passé et l’avenir de l’ELT

L’ELT n’est pas une nouvelle technologie. Auparavant, des tables de transfert étaient utilisées pour déplacer les données vers un entrepôt de données à des fins de traitement et de transformation, souvent à l’aide de scripts SQL. Les scripts SQL sont codés en dur et sont donc sujets à des erreurs de codage potentielles. Avec l’utilisation de SQL, les clients devaient choisir entre l’exécution native de l’entrepôt à l’aide de scripts SQL et la programmation déclarative, également appelée création déclarative. La création déclarative offre les avantages des environnements d’entrepôt de données plus modernes basés sur le cloud avec la création d’un code qui décrit ce que le programme doit accomplir plutôt que la manière dont il l’accomplira. Cela évite les erreurs de codage inhérentes aux autres processus, en particulier lorsque la transformation intervient avant la fonction de chargement.

Cas d’utilisation

L’ELT est généralement utilisé dans les environnements d’utilisation de données à volume élevé ou en temps réel. En voici quelques exemples précis :

Les organisations ayant besoin d’un accès instantané aux données. Parmi les exemples, citons les marchés boursiers ou les grands distributeurs en gros d’actions, de composants industriels et d’autres matériaux, qui ont besoin d’accéder en temps réel aux données à jour pour un accès immédiat à la business intelligence.
Les organisations disposant d’énormes volumes de données. Citons par exemple les systèmes météorologiques tels que les services météo qui collectent, rassemblent et utilisent régulièrement de grandes quantités de données. Les entreprises dont les volumes de transactions sont importants peuvent également entrer dans cette catégorie. Une organisation telle qu’un laboratoire d’astronomie doté de très grands télescopes génère une grande quantité de données qui devront être rassemblées et analysées. Les deux catégories pourraient se chevaucher, car de nombreux secteurs produisent et utilisent une grande quantité de données et ont besoin d’y accéder en temps réel.

IBM et Confluent fournissent des données en temps réel pour les agents IA

Ensemble, IBM et Confluent transforment les flux continus de données en actions fiables et gouvernées dans les environnements hybrides.

Ressources

Rendu 3D de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Les agents d’IA se nourrissent de données. Les vôtres sont-elles prêtes ?

Vos données sont votre avantage concurrentiel. Découvrez comment les exploiter en toute sécurité et générer un ROI mesurable grâce à l’IA dans ce court webinaire.

Icônes d’applications alignées suivant une courbe

Vos données sont-elles prêtes pour l’IA générative ?

Découvrez comment notre hub ibm Data Matters peut vous aider à relever les défis liés aux données et à l’IA comme l’intégration.

Rationaliser et faire évoluer les enquêtes sur les fraudes grâce à l’IA

Découvrez comment Cogniware exploite les solutions d’IA d’IBM pour accroître l’efficacité dans le secteur de la criminalité financière.

Libérez la puissance de l’IA pour une intégration transparente des données

Découvrez pourquoi les entreprises doivent adopter une approche unifiée leur permettant de gérer l’ensemble des capacités d’intégration depuis une seule interface, sans dépendre de trop nombreux outils.

Libérez la valeur des données diffusées en temps réel pour l’IA

Découvrez comment moderniser votre pile de données, éliminer les retards coûteux et construire une base prête pour l’avenir, tant pour l’IA que pour les opérations quotidiennes.

Comment la direction transforme les informations en impact

Découvrez les retours de 1 700 CDO dans ce rapport intersectoriel dédié aux responsables de données.

IBM nommé leader dans l’évaluation des fournisseurs : Worldwide Data Integration Software Platforms 2025

Lisez l’évaluation des fournisseurs IDC MarketScape : Worldwide Data Integration Software Platforms 2025 pour comprendre pourquoi IBM a été nommé leader.

Combler le déficit de compétences en ingénierie des données

Regardez le webinaire pour découvrir en exclusivité trois styles d’intégration IBM watsonx.data et l’innovation qui guide notre feuille de route.

IBM nommé leader dans le rapport Magic Quadrant 2025 de Gartner pour les outils d’intégration de données

Accédez au rapport complet pour découvrir pourquoi IBM est reconnu comme un leader.

Solutions connexes

IBM® watsonx.data intégration

Transformez les données brutes en données adaptées à l’IA, grâce à une expérience utilisateur simplifiée pour l’intégration de n’importe quelle donnée avec n’importe quel style;

Découvrir watsonx.data integration

Solutions d’intégration de données

Créez des pipelines de données résilients, performants et optimisés en termes de coûts pour vos initiatives d’IA générative, vos analyses en temps réel, la modernisation de vos entrepôts et vos besoins opérationnels avec les solutions d’intégration des données d’IBM.

Découvrir les solutions d’intégration de données

Services de conseil en données et en IA

Réussissez le passage à l’échelle de l’IA avec la bonne stratégie, les données, la sécurité et la gouvernance adaptées.

Découvrir les services de conseil en données et en IA

Passez à l’étape suivante

Intégrez à la fois des données structurées et des données non structurées à l’aide d’un mélange de styles, y compris les lots, la diffusion en continu en temps réel et la réplication, afin d’éviter de perdre du temps et de l’argent à passer d’un outil à l’autre.