Alimenter l’entreprise agentique Regarder la conférence Think Keynote

Qu’est-ce que l’ETL (extraction, transformation, chargement) ?

Qu’est-ce que l’ETL ?

L’ETL (extraction, transformation, chargement) est un processus d’intégration de données qui combine, nettoie et organise les données provenant de plusieurs sources en un jeu de données unique et cohérent. Il stocke ensuite ces données dans un entrepôt de données, un data lake ou tout autre système cible.

Les pipelines de données ETL constituent la base des flux de travail d’analyse de données et d’apprentissage automatique. Grâce à une série de règles métier, l’ETL nettoie et organise les données afin de répondre à des besoins spécifiques en matière de solutions d’aide à la décision, tels que les rapports mensuels. Il peut également s’attaquer à des analyses plus avancées, susceptibles d’améliorer les processus back-end et l’expérience des utilisateurs finaux. Les pipelines ETL sont souvent utilisés par les entreprises pour :

  • extraire des données à partir de systèmes existants ;

  • Nettoyer les données pour améliorer leur qualité et leur cohérence

  • charger des données dans une base de données cible ;

L’évolution de l’ETL

Les entreprises génèrent des données depuis l’époque de l’abaque, mais l’analytique moderne n’est devenue possible qu’avec l’arrivée des ordinateurs numériques et du stockage de données.

Une avancée majeure a eu lieu dans les années 1970 avec l’émergence des bases de données centralisées de grande taille. La solution ETL a été introduite en tant que processus d’intégration et de chargement de données à des fins de calcul et d’analyse, devenant finalement la principale méthode de traitement des données pour les projets d’entreposage de données.

À la fin des années 1980, les entrepôts de données et le passage des bases de données transactionnelles aux bases de données relationnelles, qui stockaient les informations dans des formats de données relationnels, ont gagné en popularité. Les anciennes bases de données transactionnelles stockaient les informations transaction par transaction, avec des informations client en double pour chaque transaction, ce qui compliquait l’accès aux données client de manière unifiée au fil du temps. Avec les bases de données relationnelles, l’analytique est devenue le fondement de la business intelligence (BI) et un outil précieux pour la prise de décision.

Jusqu’à l’arrivée de logiciels ETL plus sophistiqués, les premières tentatives consistaient principalement en des efforts manuels de la part des équipes informatiques pour extraire les données de divers systèmes et connecteurs, les transformer en un format commun, puis les charger dans des tables interconnectées. Néanmoins, les premières étapes de l’ETL en valaient la peine, car les algorithmes avancés, associés à l’essor des réseaux de neurones, ont ouvert des possibilités toujours plus vastes en matière d’analyse.

L’ère des mégadonnées a débuté dans les années 1990, avec l’accélération rapide des vitesses de calcul et des capacités de stockage. L’extraction de volumes considérables de données à partir de nouvelles sources, telles que les réseaux sociaux et l’Internet des objets (IdO)a également changé la donne. Un facteur limitant subsistait toutefois, les données étant souvent stockées dans des entrepôts de données sur site.

L’étape majeure suivante dans le domaine de l’informatique et de l’ETL a été le cloud computing, qui s’est popularisé à la fin des années 1990. Grâce à des entrepôts de données comme Amazon Web Services (AWS)Microsoft Azure et Snowflake, il est désormais possible d’accéder aux données depuis le monde entier. Ces plate-formes peuvent également évoluer rapidement afin de permettre aux solutions ETL de fournir des informations remarquablement détaillées et un nouvel avantage concurrentiel.

La dernière évolution en date est celle des solutions ETL exploitant des données de streaming pour fournir des informations actualisées à la seconde près à partir d’énormes volumes de données.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

ETL ou ELT

La différence la plus évidente entre l’ETL et l’ELT (extraction, chargement, transformation) est la différence dans l’ordre des opérations. L’ELT copie ou exporte les données à partir des emplacements sources. Au lieu de les charger dans une zone de transformation, il charge les données brutes directement dans l’entrepôt de données cible pour les transformer selon les besoins.

Bien que les deux processus exploitent une variété de référentiels de données, tels que des bases de données, des entrepôts de données et des data lakes, chaque processus présente des avantages et des inconvénients. L’ELT est utile pour traiter les jeux de données volumineux et non structurés, car le chargement peut avoir lieu directement à partir de la source. L’ELT peut être mieux adapté à la gestion du big data car il ne nécessite pas une longue planification initiale pour l’extraction et le stockage des données.

Le processus ETL nécessite une définition plus précise dès le départ. Des points de données spécifiques doivent être identifiés pour l’extraction, ainsi que toutes les « clés » potentielles à intégrer dans des systèmes sources disparates. La source des données d’entrée est souvent retracée à l’aide de métadonnées. Même une fois ce travail terminé, les règles métier de transformation des données doivent être élaborées.

Cette tâche repose en général sur les règles de données pour un type spécifique d’analyse de données qui déterminera le niveau de résumé dont les données doivent disposer.

Si les pipelines ELT sont de plus en plus populaires avec l’adoption des bases de données cloud, la technologie ELT reste un processus en cours de développement, et les bonnes pratiques continuent donc d’être établies.

Fonctionnement de l’ETL

Le moyen le plus simple de comprendre le fonctionnement de l’ETL est de comprendre ce qui se passe à chaque étape du processus.

Extraction

Lors de l’extraction des données, les données brutes sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Les équipes de gestion des données peuvent extraire des données à partir de diverses sources, structurées ou non structurées. Ces types de données incluent, sans toutefois s’y limiter :

  • Des serveurs SQL ou NoSQL
  • Des systèmes CRM et ERP
  • JSON et XML
  • Bases de données de fichiers à plat
  • E-mail
  • Des pages web

Transformation

Dans la zone de préparation, les données brutes font l’objet d’un traitement. Ici, les données sont transformées et consolidées pour le cas d’utilisation analytique prévu. Cette phase du processus de transformation peut inclure :

  • Le filtrage, le nettoyage, la déduplication, la validation et l’authentification des données ;
  • Réalisation des calculs, des traductions ou des synthèses à partir des données brutes. Ce processus peut inclure la modification des en-têtes de ligne et de colonne à des fins de cohérence, la conversion de devises ou d’autres unités de mesure, la modification de chaînes de texte, etc.
  • la réalisation d’audits pour garantir la qualité et la conformité des données, et les indicateurs de calcul
  • la suppression, le chiffrement ou la protection des données sous l’autorité des régulateurs du secteur ou des autorités publiques ;
  • Formatage des données dans des tables ou des tables jointes en fonction du schéma de l’entrepôt de données cible.

Chargement

Lors de cette dernière étape, les données transformées sont déplacées de la zone de préparation vers un entrepôt de données cible. En règle générale, ce processus implique un chargement initial de toutes les données, suivi d’un chargement périodique des modifications incrémentielles et, moins souvent, de mises à jour complètes pour effacer et remplacer les données dans l’entrepôt.

Pour la plupart des entreprises qui utilisent l’ETL, le processus est automatisé, bien défini, continu et géré par lots. En règle générale, le processus de chargement ETL a lieu en dehors des heures d’ouverture, au moment où le trafic est réduit sur les systèmes sources et l’entrepôt de données.

ETL et autres méthodes d’intégration de données

L’ETL et l’ELT ne sont que deux méthodes d’intégration de données. D’autres approches sont également utilisées pour faciliter les flux de travail d’intégration de données. En voici quelques-unes :

  • La capture de données modifiées (CDC) identifie et capture uniquement les données source qui ont changé et déplace ces données vers le système cible. La CDC peut être utilisée pour réduire les ressources requises lors de l’étape d’« extraction » du processus ETL. Elle peut également être utilisée indépendamment pour déplacer en temps réel des données qui ont été transformées dans un data lake ou un autre référentiel.

  • La réplication des données copie les modifications apportées aux sources de données en temps réel ou par lots vers une base de données centrale. La réplication des données est souvent considérée comme une méthode d’intégration des données. Dans les faits, elle est le plus souvent utilisée pour créer des sauvegardes dans le cadre d’une reprise après sinistre.

  • La virtualisation des données utilise une couche d’abstraction logicielle pour créer une vue des données unifiée, intégrée et entièrement exploitable, sans copier, transformer ou charger physiquement les données sources dans un système cible.La virtualisation des données permet à une entreprise de créer des entrepôts de données virtuels, des lacs de données et des datamarts à partir des mêmes données sources pour le stockage. Cette approche évite les coûts et la complexité liés à la création et à la gestion de plate-formes séparées pour chacun d’entre eux. Bien que la virtualisation des données puisse être utilisée parallèlement à l’ETL, elle est de plus en plus considérée comme une alternative à l’ETL et à d’autres méthodes d’intégration de données physiques.

  • L’intégration des données de flux (SDI) consomme de manière continue des flux de données en temps réel, les transforme et les charge vers un système cible à des fins d’analyse. Ici, le mot clé est « continue ».Au lieu d’intégrer des instantanés de données pris à un moment précis, la SDI les diverses données dès qu’elles sont disponibles sous forme de flux continu. Elle traite les informations dès qu’elles sont disponibles. La SDI fournit un entrepôt de données pour alimenter les analyses, l’apprentissage automatique et les applications en temps réel afin d’améliorer l’expérience client, la détection des fraudes, etc.

Les avantages et les défis de l’ETL

Les solutions ETL améliorent la qualité en effectuant un nettoyage des données avant de les charger dans un référentiel différent. L’ETL est une opération par lots qui prend du temps et qui est recommandée plus souvent pour créer des référentiels de données cibles plus petits qui nécessitent des mises à jour moins fréquentes, alors que d’autres méthodes d’intégration de données (comme l’ELT (extraction, chargement, transformation), la capture des données modifiées (CDC) et la virtualisation des données), sont utilisées pour intégrer des volumes de données de plus en plus importants qui changent ou des flux de données en temps réel.

Outils ETL

Dans le passé, les entreprises écrivaient leur propre code ETL. Aujourd’hui, de nombreux outils ETL commerciaux en open source et services basés sur le cloud sont disponibles. Les capacités typiques de ces produits incluent :

  • Automatisation complète et facilité d’utilisation : les principaux outils ETL automatisent l’ensemble du flux de données, des sources de données à l’entrepôt de données cible. Cette automatisation épargne aux ingénieurs de données les tâches fastidieuses de déplacement et de formatage des données, afin de bénéficier de résultats plus rapides et d’opérations plus efficaces.

  • Une interface visuelle par glisser-déposer : cette fonctionnalité peut être utilisée pour spécifier des règles et des flux de données.

  • Aide à la gestion de données complexes : cette fonctionnalité comprend une assistance pour les calculs complexes, les intégrations de données et les manipulations de chaînes de caractères.

  • Sécurité et conformité : les meilleurs outils ETL chiffrent les données en mouvement et au repos et sont conformes aux réglementations sectorielles ou gouvernementales, telles que la loi HIPAA et le RGPD.

En outre, de nombreux outils ETL ont évolué pour inclure des fonctionnalités ELT et prendre en charge l’intégration de données en temps réel et en continu pour les applications d’intelligence artificielle (IA).

Foire aux questions sur l’ETL

Qu’est-ce qu’une zone de transit ?

Une zone de transit est un emplacement de stockage temporaire entre les sources de données et une destination cible (comme un entrepôt de données) utilisé pour stocker temporairement des données brutes. Il sert de quai de chargement où les données brutes sont nettoyées, inspectées et transformées avant d’être transférées vers une destination cible.

Quelle est la différence entre chargement initial et chargement incrémentiel ?

Le chargement initial correspond à l’extraction et au chargement pour la première fois des données historiques d’une source de données vers une destination cible. Il inclut l’ensemble des données et est réalisé une seule fois, au début d’un projet. Le chargement incrémentiel consiste à charger uniquement les données nouvelles, modifiées ou supprimées depuis le dernier chargement. Ces processus s’exécutent de manière programmée.

Qu’est-ce que les dimensions à évolution lente (SCD) ?

Ce terme est un peu ambigu et est utilisé de deux manières différentes. Les dimensions à évolution lente désignent les tableaux de dimensions d’un entrepôt de données qui changent sporadiquement au fil du temps, plutôt que selon un calendrier fixe. Un exemple courant est l’adresse d’un client. Le terme est également utilisé pour désigner les méthodes et les techniques utilisées pour traiter et suivre les changements dans les données dimensionnelles au fil du temps.

Comment gérer les doublons ?

Pour gérer les doublons, les entreprises doivent mettre en place un processus permettant d’identifier systématiquement les doublons et leur type, des règles claires pour les supprimer ou les fusionner, ainsi que des garde-fous pour empêcher les entrées futures.

Solutions connexes
IBM® watsonx.data intégration

Transformez les données brutes en données adaptées à l’IA, grâce à une expérience utilisateur simplifiée pour l’intégration de n’importe quelle donnée avec n’importe quel style;

Découvrir watsonx.data integration
Solutions d’intégration de données

Créez des pipelines de données résilients, performants et optimisés en termes de coûts pour vos initiatives d’IA générative, vos analyses en temps réel, la modernisation de vos entrepôts et vos besoins opérationnels avec les solutions d’intégration des données d’IBM.

Découvrir les solutions d’intégration de données
Services de conseil en données et en IA

Réussissez le passage à l’échelle de l’IA avec la bonne stratégie, les données, la sécurité et la gouvernance adaptées.

Découvrir les services de conseil en données et en IA
Passez à l’étape suivante

Intégrez à la fois des données structurées et des données non structurées à l’aide d’un mélange de styles, y compris les lots, la diffusion en continu en temps réel et la réplication, afin d’éviter de perdre du temps et de l’argent à passer d’un outil à l’autre.

  1. Découvrir IBM watsonx.data integration
  2. Découvrir les solutions d’intégration de données