Balises

Qu’est-ce qu’une pile de données moderne ?

Diverses piles de livres orientés horizontalement et verticalement

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce qu’une pile de données moderne ?

Une pile de données moderne (MDS) se compose d’outils et de technologies cloud intégrés qui facilitent la collecte, l’ingestion, le stockage , le nettoyage, la transformation, l’analyse et la gouvernance des données. Comme son nom l’indique, la pile de données, ou « plateforme de données », superpose les outils nécessaires aux entreprises pour assurer la qualité des données et tirer parti de la valeur de leurs informations.

Les piles de données traditionnelles (LDS) s’appuient sur une infrastructure rigide sur site qui peut avoir des difficultés en termes d’évolutivité, de flexibilité et de traitement en temps réel. En revanche, la MDS offre une solution modulaire et cloud native, conçue pour rationaliser l’automatisation, optimiser les coûts et accélérer la génération des informations. De manière plus notable, la MDS habilite les applications d’analyse en libre-service et d’intelligence artificielle (IA) sur lesquelles de nombreuses entreprises s’appuient aujourd’hui.

Les plateformes de données constituent l’épine dorsale du développement de logiciels modernes, offrant un réseau d’outils et de cadres réglementaires pour créer et gérer efficacement des applications. La MDS est la chaîne d’assemblage des opérations numériques où chaque composant joue un rôle dans l’acheminement des données vers l’analyse. En automatisant et en adaptant les workflows, la MDS permet aux organisations de traiter, de stocker et d’utiliser les données avec précision pour améliorer la prise de décision et l’innovation.

Voici les principales fonctions de la MDS :

Stockage : consolidation des données dans des entrepôts de données cloud, des data lakes ou des data lakehouses hybrides.
Ingestion : déplacement de données provenant de diverses sources vers un pipeline de données à des fins d’analyse.
Transformation : conversion des données brutes en formats structurés par le biais de processus tels que le nettoyage, la normalisation et l’agrégation.
Business Intelligence (BI) et analyse : utilisation d’outils d’analytique pour générer des informations, visualiser les tendances et alimenter les modèles de machine learning (ML).
Observabilité des données : veille, gestion et maintenance des données pour assurer leur qualité, leur disponibilité et leur fiabilité.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA  

La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Pourquoi la pile de données moderne est-elle importante ?

Entre 2012 et 2016, un changement majeur dans les workflows de données a remodelé la manière dont les entreprises stockent et traitent les données. Les plateformes basées sur le cloud telles que Snowflake, Google BigQuery et Amazon Redshift ont popularisé les entrepôts de données cloud, offrant une évolutivité, une puissance de calcul et une efficacité jamais vues.

Dans le même temps, les entreprises sont passées des workflows traditionnels qui consistaient à extraire, transformer et charger (ETL), où les données étaient transformées avant le stockage, à un workflow visant à extraire, charger, transformer (ELT), où les données sont stockées d’abord et traitées ensuite. Cette approche a permis d’améliorer la flexibilité et d’accéder aux informations en temps réel grâce aux connecteurs, ou aux extensions, qui ont permis de rationaliser le déplacement des données.

Au cours de cette période, des outils tels que Fivetran et Airflow ont automatisé l’ingestion de données, tandis que des plateformes telles que Tableau, Power BI et Looker ont révolutionné la BI. L’ETL inversé a amélioré le flux de données, en transmettant les informations des entrepôts aux systèmes opérationnels tels que les systèmes de gestion de la relation client (CRM), permettant ainsi d’améliorer l’automatisation, les prises de décision et la personnalisation. Ces innovations ont jeté les bases de la MDS, en permettant des workflows plus évolutifs, automatisés et flexibles. En rationalisant le transfert et l’intégration des données, les entreprises ont gagné en agilité opérationnelle.

Pile de données traditionnelle ou pile de données moderne

Pour comprendre l’importance de la MDS, il faut la comparer à la LDS :

Les principales différences en un coup d’œil

Infrastructure : la LDS repose sur des serveurs physiques alors que la MDS est cloud native.
Évolutivité : la LDS nécessite une mise à l’échelle manuelle ; la MDS évolue de manière dynamique en fonction de la demande.
Intégration : la LDS repose sur des workflows personnalisés ; la MDS automatise l’ingestion de données.
Flexibilité : la LDS est monolithique; la MDS est modulaire, ce qui permet une intégration transparente des outils.
Analytique: la LDS prend en charge les rapports par lots ; la MDS propose des informations en temps réel et des tableaux de bord interactifs.
Coût : la pile de données traditionnelle (LDS) demande un investissement initial important, tandis que la MDS est proposée selon différents modèles de paiement à l’utilisation.

Les LDS traditionnelles sont construites sur une infrastructure sur site, ce qui nécessite des investissements importants en matériel, en maintenance et en mise à l’échelle manuelle. Elles s’appuient sur des workflows ETL, ce qui signifie que les données doivent être nettoyées et structurées avant le stockage. Bien qu’elle soit efficace pour les rapports statiques, la LDS a du mal à gérer le traitement en temps réel, l’évolutivité et les données non structurées, telles que les journaux de capteurs, les images ou l’audio.

La MDS résout ces problèmes grâce à une approche modulaire et cloud native, ce qui permet aux entreprises de stocker, de traiter et d’analyser plus efficacement de grandes quantités de données structurées et non structurées. Les workflows ELT offrent une plus grande flexibilité, souvent en utilisant des scripts Python pour l’automatisation et le traitement de données.

Contrairement à la LDS, qui nécessite des extensions d’infrastructure coûteuses, la MDS offre une évolutivité à la demande. De plus, sa nature modulaire signifie que les entreprises peuvent intégrer des outils de pile de données sans enfermement propriétaire. Enfin, la MDS permet d’obtenir des informations en temps réel ainsi que des analyses et une automatisation pilotée par l’IA, ce qui rend les données plus accessibles et exploitables à l’échelle de l’entreprise.

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Écouter les derniers épisodes de podcast

Composants fondamentaux de la pile de données moderne

La MDS comporte plusieurs composants principaux :

Stockage de données
Intégration des données
Transformation des données
BI et analytique
Observabilité des données

Stockage de données

La couche de stockage de données constitue la base de la MDS, car elle fournit un environnement centralisé pour la gestion des données structurées et non structurées. Les entreprises peuvent choisir parmi les solutions de stockage proposées par des fournisseurs comme IBM, AWS ou Microsoft en fonction de facteurs tels que les coûts, les performances et les besoins d’évolutivité.

Types de stockage de données :

Entrepôts de données : les données structurées provenant de plusieurs sources sont regroupées dans un seul magasin de données central optimisé pour l’analytique, l’IA et le ML. Snowflake, GoogleBigQuery et Amazon Redshift sont quelques exemples de fournisseurs.
Data lakes : les data lakes contiennent des données brutes, structurées et non structurées dans différents formats. Ils permettent aux entreprises de stocker de grandes quantités de données, atteignant souvent l’échelle du pétaoctet et au-delà pour les applications d’IA, de ML et de recherche. De nombreux data lakes ont été initialement créés sur Hadoop, mais la plupart des architectures modernes utilisent désormais des solutions Cloud Object Storage comme AWS S3 et IBM Cloud Object Storage (COS).
Data lakehouses : approche hybride qui combine l’évolutivité des data lakes avec les capacités de requête structurées des entrepôts de données. En d’autres termes, une archive en apparence illimitée avec un index incroyablement précis. Les lakehouses stockent des données structurées, semi-structurées et non structurées, tout en prenant en charge les workloads de BI, d’analytique et de ML.

Intégration des données

L’ingestion de données est le processus de collecte et de transfert de données provenant de diverses sources vers un système de stockage centralisé en vue de leur traitement et de leur analyse. L’efficacité d’un pipeline de données dépend de la manière dont le big data est ingéré et intégré. Les ingénieurs de données jouent un rôle crucial car les erreurs à ce stade peuvent entraîner des problèmes en aval dans les modèles analytique et modèles IA.

Types d’ingestion de données :

Traitement par lots : la méthode d’ingestion la plus courante, le traitement par lots collecte des données dans des groupes (ou par lots) et les envoie au stockage à des intervalles programmés. Cette approche est rentable et idéale lorsque des mises à jour en temps réel ne sont pas nécessaires.
Traitement en temps réel : également appelée « traitement de flux », cette méthode ingère et traite les données en continu au fur et à mesure qu’elles sont générées. Ce processus est critique pour les applications d’IA, la détection des fraudes et l’analytique en temps réel. Cependant, il mobilise des ressources de calcul plus importants.

Les outils d’ingestion automatisés tels qu’Apache Airflow, Stitch et Fivetran aident les entreprises à déplacer de façon fluide les données entre les systèmes, réduisant ainsi les efforts manuels et améliorant l’efficacité de l’intégration des données.

Transformation des données

Les données brutes sont souvent incohérentes ou non structurées lorsqu’elles sont ingérées, ce qui les rend difficiles à analyser dans leur format natif. La couche de transformation des données garantit que les données sont propres, structurées et optimisées pour des tâches telles que l’analytique, les rapports et le ML.

Tâches courantes de transformation des données :

Nettoyage des données : suppression des erreurs, des valeurs nulles et des doublons.
Normalisation : normalisation des formats de données pour plus de cohérence.
Agrégation : synthèse de grands jeux de données pour la production de rapports.
Fusion : combinaison des données provenant de plusieurs sources dans un jeu de données unifié.

Historiquement, c’est le workflow ETL qui était utilisé pour la transformation des données. Cependant, avec l’essor des solutions de stockage basées sur le cloud, la plupart des entreprises utilisent désormais des processus ELT. Les outils de transformation des données tels que dbt et Dataform automatisent les workflows et contribuent à garantir que les données sont exactes, cohérentes et prêtes à être analysées.

BI et analytique

La couche BI et analytique convertit les données brutes en informations exploitables grâce à l’analyse de données, à la visualisation, à l’analyse des tendances, aux requêtes en langage de requête structuré (SQL) et à l’automatisation pilotée par l’IA. Des outils tels que Tableau, Power BI et Looker fournissent des tableaux de bord interactifs et des analyses de données en temps réel, aidant les entreprises à assurer le suivi de la performance et à affiner leur stratégie.

Au-delà de la visualisation des données, l’analytique et la science des données alimentées par l’IA améliorent la prise de décision en détectant les anomalies, en prévoyant les tendances et en automatisant les workflows, qui reposent tous sur des pratiques solides en matière de gestion des données. Qu’ils soient utilisés pour l’analyse du comportement des clients, les prévisions financières ou l’optimisation de la chaîne d’approvisionnement, les outils de BI permettent aux entreprises d’utiliser les données dans le cadre d’environnements stratégiques et opérationnels.

Observabilité des données

L’observabilité des données garantit la qualité des données, leur disponibilité et leur fiabilité, en surveillant en permanence l’intégrité des données. Cette couche aide les équipes en charge des données à détecter les ruptures de pipelines, les données manquantes ou la lenteur du traitement, avant que cela n’affecte l’analytique.

Les outils d’observabilité tels que Monte Carlo et Datadog fournissent des informations sur les flux de données, permettant aux ingénieurs de diagnostiquer et d’améliorer les workflows en temps réel. En résolvant les problèmes de manière proactive, les entreprises peuvent maintenir l’intégrité des données et améliorer la prise de décision fondée sur les données. Des pratiques d’observabilité solides soutiennent un modèle de données bien structuré et garantissent que les parties prenantes peuvent se fier aux informations tout au long du cycle de vie des données.

Couches de pile de données modernes supplémentaires

Au-delà des cinq couches fondamentales, les MDS incluent souvent d’autres composants pour améliorer l’accessibilité et la fonctionnalité. Ces composants peuvent inclure :

Découverte de données : la découverte de données aide les entreprises à faire apparaître et à évaluer les sources de données cachées ou cloisonnées, permettant ainsi aux équipes chargées des données d’extraire des informations précieuses et de les exploiter efficacement.
Gouvernance des données : l’établissement de politiques et de mesures de protection peut contribuer à garantir la sécurité, la conformité réglementaire et la cohérence des données. En gérant les flux de données et en appliquant un modèle de données structurées, la gouvernance prend en charge des workflows efficaces et permet d’assurer une surveillance de la conformité en temps réel.
Catalogage des données : les équipes peuvent utiliser des métadonnées pour créer un stock structuré d’actifs dans les entrepôts de données, les data lakes et d’autres environnements de stockage. Un catalogue bien entretenu prend en charge l’ensemble du cycle de vie des données et permet aux parties prenantes d’accéder rapidement aux informations essentielles et de les utiliser.
ML et IA : certaines plateformes de données intègrent le ML et l’IA pour affiner le traitement de données, améliorer la modélisation prédictive, automatiser les informations et améliorer la détection. Les modèles ML optimisent également les workflows en identifiant les inefficacités et en suggérant des améliorations en temps réel pour les équipes de données.

Cas d’utilisation des piles de données modernes

Les entreprises peuvent déployer leur propre MDS pour améliorer la personnalisation alimentée par l’IA, les informations des clients, la logistique et la détection des fraudes.

Personnalisation alimentée par l’IA

La MDS permet aux entreprises d’offrir une personnalisation de l’IA basée sur les données. Cette personnalisation peut contribuer à optimiser l’expérience utilisateur dans des domaines tels que le commerce électronique, les plateformes de streaming et les applications SaaS. En utilisant Apache Spark pour un traitement en temps réel et Databricks pour une analytique évolutive, les data scientists peuvent analyser les préférences et l’engagement des clients et améliorer ainsi les moteurs de recommandation et les réseaux de distribution de contenu.

Informations clients et optimisation des ventes

Les entreprises utilisent des outils d’analytique MDS et SaaS pour suivre le comportement des clients et affiner leurs stratégies marketing. Des plateformes cloud telles que Snowflake et Looker génèrent des tableaux de bord en temps réel pour des catégories telles que les habitudes d’achat et l’optimisation des tarifs, ce qui peut améliorer les taux de conversion et la fidélisation des clients pour les entreprises.

Optimisation de la logistique et de la chaîne d’approvisionnement

En intégrant Fivetran pour l’ingestion de données et dbt pour la transformation, les entreprises peuvent suivre leurs stocks en temps réel et anticiper les ruptures de stock. Cette intégration peut permettre d’accélérer le traitement des commandes, de réduire les coûts et d’améliorer la planification de la demande dans des secteurs tels que la vente au détail, la fabrication et les transports.

Détection des fraudes et gestion des risques

Les institutions financières et les plateformes de commerce électronique utilisent la MDS pour détecter les fraudes et prévenir les violations de données. En utilisant des modèles de ML, des interfaces de programmation des applications (API) et des services tels qu’Amazon Redshift, les entreprises peuvent identifier les transactions suspectes et automatiser la détection des fraudes.

Quelles entreprises ont besoin d’une pile de données moderne ?

Les entreprises qui s’appuient sur la prise de décision en temps réel, l’automatisation et les informations pilotées par l’IA utilisent une MDS pour améliorer l’accessibilité des données et rationaliser les opérations. Les secteurs tels que la technologie, la finance, la santé, le commerce électronique et la logistique utilisent souvent la MDS pour intégrer des sources de données à grande échelle, améliorer les capacités d’analyse et soutenir une prise de décision et une orchestration plus efficaces.

Toutefois, dans un monde où les données éclairent presque tous les aspects des opérations métier, la véritable question n’est pas de savoir à qui profite la MDS, mais comment elle peut aider les entreprises à gagner en efficacité et en adaptabilité. Avec l’adoption de l’IA, les outils open source et le traitement des données en temps réel continuent d’évoluer et la MDS devient une approche de plus en plus courante pour les entreprises qui doivent moderniser leur architecture de données.

Intégration de données pour les responsables de données

Explorez la complexité croissante des environnements de cloud hybride ainsi que les éléments de base de l’intégration des données multicloud, tels que la virtualisation des données, la réplication, le catalogage et l’automatisation, qui peuvent permettre d’en maîtriser la prolifération.

Ressources

2024 Gartner Magic Quadrant™ pour les outils d'intégration de données

IBM nommé leader en matière d’outils d’intégration de données, pour la 19e année consécutive, dans l’édition 2024 du rapport Magic Quadrant™ de Gartner.

Favoriser l’adoption de l’IA avec des données prêtes pour l’IA

Découvrez pourquoi l’intelligence des données et l’intégration des données alimentées par l’IA sont essentielles pour préparer les données structurées et non structurées et accélérer les résultats de l’IA.

Le data lakehouse hybride et ouvert pour l'IA

Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

La différence par les données

Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.

5 bonnes raisons de moderniser votre intégration de données

Découvrez 5 bonnes raisons de moderniser votre intégration des données sur IBM Cloud Pak for Data.

Gartner Predicts 2024: How AI will impact analytics users

Obtenez des informations uniques sur l’évolution des solutions ABI, mettant en évidence les principales conclusions, hypothèses et recommandations pour les responsables des données et de l’analytique.

Solutions connexes

IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets

Solutions de data fabric

Concevez une architecture de données qui accélère la préparation des données pour l’IA générative et libérez la productivité des équipes chargées des données.

Découvrir les solutions de data fabric

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passez à l’étape suivante

Découvrez IBM DataStage, un outil ETL (Extraction, Transformation, Chargement) qui offre une interface visuelle destinée à la conception, au développement et au déploiement de pipelines de données. Il est disponible en version SaaS géré sur IBM Cloud, en auto-hébergement et en tant qu’extension pour IBM Cloud Pak for Data.

Explorer DataStage

Découvrir les services d’analytique