L’ETL (extraction, transformation, chargement) est un processus d’intégration de données qui combine, nettoie et organise les données provenant de plusieurs sources en un jeu de données unique et cohérent pour le stockage dans un entrepôt de données, un data lake ou tout autre système cible.
Les pipelines de données ETL constituent la base des workflows d’analyse de données et de machine learning. Grâce à une série de règles métier, l’ETL nettoie et organise les données afin de répondre à des besoins spécifiques en matière de business intelligence, tels que le reporting mensuel, mais il peut également s’attaquer à des analyses plus avancées, susceptibles d’améliorer les processus back-end et l’expérience des utilisateurs finaux. Les pipelines ETL sont souvent utilisés par les entreprise pour :
extraire des données à partir de systèmes existants ;
Nettoyer les données pour améliorer leur qualité et leur cohérence
charger des données dans une base de données cible ;
Les entreprises génèrent des données depuis l’époque de l’abaque, mais l’analytique moderne n’est devenue possible qu’avec l’arrivée des ordinateurs numériques et du stockage de données.
Une avancée majeure a eu lieu dans les années 1970 avec l’émergence des bases de données centralisées de grande taille. La solution ETL a été introduite en tant que processus d’intégration et de chargement de données à des fins de calcul et d’analyse, devenant finalement la principale méthode de traitement des données pour les projets d’entreposage de données.
À la fin des années 1980, les entrepôts de données et le passage des bases de données transactionnelles aux bases de données relationnelles, qui stockaient les informations dans des formats de données relationnels, ont gagné en popularité. Les anciennes bases de données transactionnelles stockaient les informations transaction par transaction, avec des informations client en double pour chaque transaction, ce qui compliquait l’accès aux données client de manière unifiée au fil du temps. Avec les bases de données relationnelles, l’analytique est devenue le fondement de la business intelligence (BI) et un outil précieux pour la prise de décision.
Jusqu’à l’arrivée de logiciels ETL plus sophistiqués, les premières tentatives consistaient principalement en des efforts manuels de la part des équipes informatiques pour extraire les données de divers systèmes et connecteurs, les transformer en un format commun, puis les charger dans des tables interconnectées. Néanmoins, les premières étapes de l’ETL en valaient la peine, car les algorithmes avancés, associés à l’essor des réseaux de neurones, ont ouvert des possibilités toujours plus vastes en matière d’analyse.
L’ère du big data a débuté dans les années 1990, avec l’accélération rapide des vitesses de calcul et des capacités de stockage, et l’extraction de volumes considérables de données à partir de nouvelles sources, telles que les réseaux sociaux et l’Internet des objets (IdO). Un facteur limitant subsistait toutefois, les données étant souvent stockées dans des entrepôts de données sur site.
La prochaine étape majeure dans le domaine de l’informatique et de l’ETL a été le cloud computing, qui s’est popularisé à la fin des années 1990. Grâce à des entrepôts de données tels qu’Amazon Web Services (AWS), Microsoft Azure et Snowflake, les données sont désormais accessibles depuis n’importe où dans le monde et peuvent être rapidement mises à l’échelle pour permettre aux solutions ETL de fournir des informations détaillées remarquables et un nouvel avantage concurrentiel.
La dernière évolution en date est celle des solutions ETL exploitant des données de streaming pour fournir des informations actualisées à la seconde près à partir d’énormes volumes de données.
La différence majeure entre l’ETL et l’ELT (extraction, chargement, transformation) apparaît dans l’ordre des opérations. L’ELT copie ou exporte les données à partir des emplacements sources, mais au lieu de les charger dans une zone de transformation, il charge les données brutes directement dans l’entrepôt de données cible pour les transformer en fonction des besoins.
Bien que les deux processus exploitent une variété de référentiels de données, tels que des bases de données, des entrepôts de données et des data lakes, chaque processus présente des avantages et des inconvénients. L’ELT est utile pour ingérer les jeux de données volumineux et non structurés, car le chargement peut avoir lieu directement à partir de la source. L’ELT peut être mieux adapté à la gestion du big data car il ne nécessite pas une longue planification initiale pour l’extraction et le stockage des données.
Le processus ETL nécessite une définition plus précise dès le départ. Des points de données spécifiques doivent être identifiés pour l’extraction, ainsi que toutes les « clés » potentielles à intégrer dans des systèmes sources disparates. La source des données d’entrée est souvent retracée à l’aide de métadonnées. Même une fois ce travail terminé, les règles métier de transformation des données doivent être élaborées. Cette tâche repose en général sur les règles de données pour un type donné d’analyse de données qui déterminera le niveau de résumé dont les données doivent disposer.
Si les pipelines ELT sont de plus en plus populaires avec l’adoption des bases de données cloud, la technologie ELT reste un processus en cours de développement, et les bonnes pratiques continuent donc d’être établies.
Le moyen le plus simple de comprendre le fonctionnement de l’ETL est de comprendre ce qui se passe à chaque étape du processus.
Lors de l’extraction des données, les données brutes sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Les équipes de gestion des données peuvent extraire des données à partir de diverses sources, structurées ou non structurées. Ces types de données incluent, sans toutefois s’y limiter :
Dans la zone de préparation, les données brutes font l’objet d’un traitement. Ici, les données sont transformées et consolidées pour le cas d’utilisation analytique prévu. Cette phase du processus de transformation peut inclure :
Lors de cette dernière étape, les données transformées sont déplacées de la zone de préparation vers un entrepôt de données cible. En règle générale, il s’agit d’un chargement initial de toutes les données, suivi d’un chargement périodique des modifications incrémentielles et, moins souvent, de mises à jour complètes pour effacer et remplacer les données dans l’entrepôt. Pour la plupart des entreprises qui utilisent l’ETL, le processus est automatisé, bien défini, continu et géré par lots. En règle générale, le processus de chargement ETL a lieu en dehors des heures d’ouverture, au moment où le trafic est réduit sur les systèmes sources et l’entrepôt de données.
L’ETL et l’ELT ne sont que deux méthodes d’intégration de données. D’autres approches sont également utilisées pour faciliter les workflows d’intégration de données. En voici quelques-uns :
Les solutions ETL améliorent la qualité en effectuant un nettoyage des données avant de les charger dans un référentiel différent. L’ETL est une opération par lots qui prend du temps et qui est recommandée plus souvent pour créer des référentiels de données cibles plus petits qui nécessitent des mises à jour moins fréquentes, alors que d’autres méthodes d’intégration de données (comme l’ELT (extraction, chargement, transformation), la capture des données modifiées (CDC) et la virtualisation des données), sont utilisées pour intégrer des volumes de données de plus en plus importants qui changent ou des flux de données en temps réel.
Dans le passé, les entreprises écrivaient leur propre code ETL. Aujourd’hui, de nombreux outils ETL commerciaux en open source et services basés sur le cloud sont disponibles. Les capacités typiques de ces produits incluent :
En outre, de nombreux outils ETL ont évolué pour inclure des fonctionnalités ELT et prendre en charge l’intégration de données en temps réel et en continu pour les applications d’intelligence artificielle (IA).
Les interfaces de programmation des applications (API) utilisant l’intégration d’applications d’entreprise (EAI) peuvent être employées à la place de l’ETL pour une solution plus flexible et évolutive qui inclut l’intégration des workflows. Si l’ETL reste la principale ressource d’intégration des données, l’EAI est de plus en plus utilisée avec des API dans des environnements basés sur le Web.
Développez un pipeline de données de confiance avec une solution ETL moderne, reposant sur une plateforme cloud native.
Créez des pipelines de données résilients, performants et optimisés en termes de coûts pour vos initiatives d’IA générative, vos analyses en temps réel, la modernisation de vos entrepôts et vos besoins opérationnels avec les solutions d’intégration des données d’IBM.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.