Qu’est-ce que l’ETL (extraction, transformation, chargement) ?

Une femme travaillant sur un ordinateur portable en ligne, vérifiant ses e-mails et planifiant ses tâches sur Internet, assise à son bureau, seule au travail

Qu’est-ce que l’ETL ?

L’ETL (extraction, transformation, chargement) est un processus d’intégration de données qui combine, nettoie et organise les données provenant de plusieurs sources en un jeu de données unique et cohérent pour le stockage dans un entrepôt de données, un data lake ou tout autre système cible.

Les pipelines de données ETL constituent la base des workflows d’analyse de données et de machine learning. Grâce à une série de règles métier, l’ETL nettoie et organise les données afin de répondre à des besoins spécifiques en matière de business intelligence, tels que le reporting mensuel, mais il peut également s’attaquer à des analyses plus avancées, susceptibles d’améliorer les processus back-end et l’expérience des utilisateurs finaux. Les pipelines ETL sont souvent utilisés par les entreprise pour :

  • extraire des données à partir de systèmes existants ;

  • Nettoyer les données pour améliorer leur qualité et leur cohérence

  • charger des données dans une base de données cible ;

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

L’évolution de l’ETL

Les entreprises génèrent des données depuis l’époque de l’abaque, mais l’analytique moderne n’est devenue possible qu’avec l’arrivée des ordinateurs numériques et du stockage de données.

Une avancée majeure a eu lieu dans les années 1970 avec l’émergence des bases de données centralisées de grande taille. La solution ETL a été introduite en tant que processus d’intégration et de chargement de données à des fins de calcul et d’analyse, devenant finalement la principale méthode de traitement des données pour les projets d’entreposage de données.

À la fin des années 1980, les entrepôts de données et le passage des bases de données transactionnelles aux bases de données relationnelles, qui stockaient les informations dans des formats de données relationnels, ont gagné en popularité. Les anciennes bases de données transactionnelles stockaient les informations transaction par transaction, avec des informations client en double pour chaque transaction, ce qui compliquait l’accès aux données client de manière unifiée au fil du temps. Avec les bases de données relationnelles, l’analytique est devenue le fondement de la business intelligence (BI) et un outil précieux pour la prise de décision.

Jusqu’à l’arrivée de logiciels ETL plus sophistiqués, les premières tentatives consistaient principalement en des efforts manuels de la part des équipes informatiques pour extraire les données de divers systèmes et connecteurs, les transformer en un format commun, puis les charger dans des tables interconnectées. Néanmoins, les premières étapes de l’ETL en valaient la peine, car les algorithmes avancés, associés à l’essor des réseaux de neurones, ont ouvert des possibilités toujours plus vastes en matière d’analyse.

L’ère du big data a débuté dans les années 1990, avec l’accélération rapide des vitesses de calcul et des capacités de stockage, et l’extraction de volumes considérables de données à partir de nouvelles sources, telles que les réseaux sociaux et l’Internet des objets (IdO). Un facteur limitant subsistait toutefois, les données étant souvent stockées dans des entrepôts de données sur site.

La prochaine étape majeure dans le domaine de l’informatique et de l’ETL a été le cloud computing, qui s’est popularisé à la fin des années 1990. Grâce à des entrepôts de données tels qu’Amazon Web Services (AWS), Microsoft Azure et Snowflake, les données sont désormais accessibles depuis n’importe où dans le monde et peuvent être rapidement mises à l’échelle pour permettre aux solutions ETL de fournir des informations détaillées remarquables et un nouvel avantage concurrentiel.

La dernière évolution en date est celle des solutions ETL exploitant des données de streaming pour fournir des informations actualisées à la seconde près à partir d’énormes volumes de données.

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

ETL ou ELT

La différence majeure entre l’ETL et l’ELT (extraction, chargement, transformation) apparaît dans l’ordre des opérations. L’ELT copie ou exporte les données à partir des emplacements sources, mais au lieu de les charger dans une zone de transformation, il charge les données brutes directement dans l’entrepôt de données cible pour les transformer en fonction des besoins.

Bien que les deux processus exploitent une variété de référentiels de données, tels que des bases de données, des entrepôts de données et des data lakes, chaque processus présente des avantages et des inconvénients. L’ELT est utile pour ingérer les jeux de données volumineux et non structurés, car le chargement peut avoir lieu directement à partir de la source. L’ELT peut être mieux adapté à la gestion du big data car il ne nécessite pas une longue planification initiale pour l’extraction et le stockage des données.

Le processus ETL nécessite une définition plus précise dès le départ. Des points de données spécifiques doivent être identifiés pour l’extraction, ainsi que toutes les « clés » potentielles à intégrer dans des systèmes sources disparates. La source des données d’entrée est souvent retracée à l’aide de métadonnées. Même une fois ce travail terminé, les règles métier de transformation des données doivent être élaborées. Cette tâche repose en général sur les règles de données pour un type donné d’analyse de données qui déterminera le niveau de résumé dont les données doivent disposer.

Si les pipelines ELT sont de plus en plus populaires avec l’adoption des bases de données cloud, la technologie ELT reste un processus en cours de développement, et les bonnes pratiques continuent donc d’être établies.

Fonctionnement de l’ETL

Le moyen le plus simple de comprendre le fonctionnement de l’ETL est de comprendre ce qui se passe à chaque étape du processus.

Extraction

Lors de l’extraction des données, les données brutes sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Les équipes de gestion des données peuvent extraire des données à partir de diverses sources, structurées ou non structurées. Ces types de données incluent, sans toutefois s’y limiter :

  • Des serveurs SQL ou NoSQL
  • Des systèmes CRM et ERP
  • JSON et XML
  • Bases de données de fichiers à plat
  • E-mail
  • Des pages web

Transformation

Dans la zone de préparation, les données brutes font l’objet d’un traitement. Ici, les données sont transformées et consolidées pour le cas d’utilisation analytique prévu. Cette phase du processus de transformation peut inclure :

  • Le filtrage, le nettoyage, la déduplication, la validation et l’authentification des données ;
  • Réalisation des calculs, des traductions ou des synthèses à partir des données brutes. Cela peut inclure la modification des en-têtes de ligne et de colonne à des fins de cohérence, la conversion de devises ou d’autres unités de mesure, la modification de chaînes de texte, etc.
  • la réalisation d’audits pour garantir la qualité et la conformité des données, et les indicateurs de calcul ;
  • la suppression, le chiffrement ou la protection des données sous l’autorité des régulateurs du secteur ou des autorités publiques ;
  • Formatage des données dans des tables ou des tables jointes en fonction du schéma de l’entrepôt de données cible.

Chargement

Lors de cette dernière étape, les données transformées sont déplacées de la zone de préparation vers un entrepôt de données cible. En règle générale, il s’agit d’un chargement initial de toutes les données, suivi d’un chargement périodique des modifications incrémentielles et, moins souvent, de mises à jour complètes pour effacer et remplacer les données dans l’entrepôt. Pour la plupart des entreprises qui utilisent l’ETL, le processus est automatisé, bien défini, continu et géré par lots. En règle générale, le processus de chargement ETL a lieu en dehors des heures d’ouverture, au moment où le trafic est réduit sur les systèmes sources et l’entrepôt de données.

ETL et autres méthodes d’intégration de données

L’ETL et l’ELT ne sont que deux méthodes d’intégration de données. D’autres approches sont également utilisées pour faciliter les workflows d’intégration de données. En voici quelques-uns :

  • La Capture de données modifiées (CDC) identifie et capture uniquement les données source qui ont changé et déplace ces données vers le système cible. La CDC peut être utilisée pour réduire les ressources requises lors de l’étape « d’extraction » du processus ETL ; elle peut également être utilisée indépendamment pour déplacer en temps réel des données qui ont été transformées dans un data lake ou un autre référentiel.

  • La Réplication des données copie les modifications apportées aux sources de données en temps réel ou par lots vers une base de données centrale. La réplication des données est souvent considérée comme une méthode d’intégration des données. Dans les faits, elle est le plus souvent utilisée pour créer des sauvegardes dans le cadre d’une reprise après sinistre.

  • La virtualisation des données utilise une couche d’abstraction logicielle pour créer une vue des données unifiée, intégrée et entièrement exploitable, sans copier, transformer ou charger physiquement les données sources dans un système cible.Les fonctions de virtualisation des données permettent à une entreprise de créer des entrepôts de données virtuels, des data lakes et des datamarts à partir des mêmes données sources pour le stockage, sans les coûts et la complexité liés à la création et à la gestion de plateformes distinctes pour chacun d’entre eux. Bien que la virtualisation des données puisse être utilisée parallèlement à l’ETL, elle est de plus en plus considérée comme une alternative à l’ETL et à d’autres méthodes d’intégration de données physiques.

  • L’intégration des données de flux (SDI) consomme de manière continue des flux de données en temps réel, les transforme et les charge vers un système cible à des fins d’analyse. Ici, le mot clé est « continue ». Au lieu d’intégrer des données extraites de sources à un instant donné, la SDI intègre les diverses données dès qu’elles sont disponibles sous forme de flux continu. La SDI fournit un entrepôt de données pour alimenter les analyses, le machine learning et les applications en temps réel afin d’améliorer l’expérience client, la détection des fraudes, etc.

Les avantages et les défis de l’ETL

Les solutions ETL améliorent la qualité en effectuant un nettoyage des données avant de les charger dans un référentiel différent. L’ETL est une opération par lots qui prend du temps et qui est recommandée plus souvent pour créer des référentiels de données cibles plus petits qui nécessitent des mises à jour moins fréquentes, alors que d’autres méthodes d’intégration de données (comme l’ELT (extraction, chargement, transformation), la capture des données modifiées (CDC) et la virtualisation des données), sont utilisées pour intégrer des volumes de données de plus en plus importants qui changent ou des flux de données en temps réel.

Outils ETL

Dans le passé, les entreprises écrivaient leur propre code ETL. Aujourd’hui, de nombreux outils ETL commerciaux en open source et services basés sur le cloud sont disponibles. Les capacités typiques de ces produits incluent :

  • Automatisation complète et facilité d’utilisation : les principaux outils ETL automatisent l’ensemble du flux de données, des sources de données à l’entrepôt de données cible. Cela évite aux ingénieurs de données des tâches fastidieuses de déplacement et de formatage des données afin de bénéficier de résultats plus rapides et d’opérations plus efficaces.

  • Une interface visuelle par glisser-déposer : cette fonctionnalité peut être utilisée pour spécifier des règles et des flux de données.

  • Aide à la gestion de données complexes : il s’agit d’une assistance pour les calculs complexes, les intégrations de données et les manipulations de chaînes de caractères.

  • Sécurité et conformité : les meilleurs outils ETL chiffrent les données en mouvement et au repos et sont conformes aux réglementations sectorielles ou gouvernementales, telles que la loi HIPAA et le RGPD.

En outre, de nombreux outils ETL ont évolué pour inclure des fonctionnalités ELT et prendre en charge l’intégration de données en temps réel et en continu pour les applications d’intelligence artificielle (IA).

L’avenir de l’intégration : les API utilisant l’EAI

Les interfaces de programmation des applications (API) utilisant l’intégration d’applications d’entreprise (EAI) peuvent être employées à la place de l’ETL pour une solution plus flexible et évolutive qui inclut l’intégration des workflows. Si l’ETL reste la principale ressource d’intégration des données, l’EAI est de plus en plus utilisée avec des API dans des environnements basés sur le Web.

Solutions connexes
IBM DataStage

Développez un pipeline de données de confiance avec une solution ETL moderne, reposant sur une plateforme cloud native.

Découvrir DataStage
Solutions d’intégration de données

Créez des pipelines de données résilients, performants et optimisés en termes de coûts pour vos initiatives d’IA générative, vos analyses en temps réel, la modernisation de vos entrepôts et vos besoins opérationnels avec les solutions d’intégration des données d’IBM.

Découvrir les solutions d’intégration des données
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Concevez, développez et exécutez des tâches qui déplacent et transforment les données. Découvrez de puissantes capacités d’intégration automatisée dans un environnement hybride ou multicloud avec IBM DataStage, un outil d’intégration de données de pointe.

Découvrir IBM DataStage Découvrir les solutions d’intégration de données