Une plateforme de données moderne est une suite de produits logiciels cloud natifs et cloud-first conçue pour permettre aux entreprises de collecter, de nettoyer, de transformer et d’analyser leurs données afin d’optimiser la prise de décision.
Toujours plus complexes, les pipelines de données d’aujourd’hui s’avèrent incontournables pour l’analyse des données et la prise de décision axée sur les données. Pensées pour fiabiliser ces données, les plateformes modernes ingèrent, stockent, traitent et transforment afin de garantir l’exactitude des informations, d’accélérer leur mise à disposition, de réduire les silos de données, de favoriser le libre-service et d’améliorer la qualité des données.
Également appelée « pile de données moderne », la plateforme de données moderne comporte cinq couches essentielles : stockage et traitement des données, ingestion des données, transformation des données, Business Intelligence (BI) et analyse, et observabilité des données.
Les plateformes de données modernes s’appuient sur deux principes fondamentaux :
Découvrez comment l'observabilité proactive des données peut vous aider à détecter les incidents de données plus tôt et à les résoudre plus rapidement.
Abonnez-vous à la newsletter IBM
Les plateformes de données modernes s’appuient non seulement sur la technologie, mais aussi sur les principes DevOps, DataOps et Agile. Bien que leurs objectifs soient différents, le DevOps et le DataOps sont tous deux proches de la philosophie Agile, qui vise à accélérer les projets.
Le DevOps est axé sur le développement de produits, tandis que le DataOps consiste à mettre en œuvre et à maintenir une architecture de données distribuée qui apporte de la valeur à ces dernières.
Agile est une approche du développement logiciel qui vise à apporter rapidité et efficacité sans éliminer le facteur « humain ». Cette philosophie met l’accent sur les échanges en face à face afin de renforcer la communication, mais aussi sur l’automatisation afin de réduire le risque d’erreur.
La première couche fondamentale d'une plateforme de données moderne est le stockage et le traitement.
Les systèmes modernes de stockage de données sont axés sur l'utilisation optimale des données, ce qui implique de savoir où stocker les données et comment les traiter. Les deux formats de stockage les plus populaires sont les entrepôts de données et les data lakes, bien que les data lakehouses et les data mesh gagnent en popularité.
L'entrepôt de données
Les entrepôts de données sont conçus pour gérer des données structurées avec des cas d'utilisation clairs et définis.
L'utilisation des entrepôts de données remonte aux années 1990, lorsque les bases de données étaient utilisées pour stocker des données. Ils se trouvaient dans les locaux de l'entreprise et avaient une capacité de stockage très limitée.
Vers 2013, les entrepôts de données ont commencé à migrer vers le cloud, où l'évolutivité était soudainement devenue possible. Les entrepôts de données hébergés sur le cloud restent le système de stockage de données privilégié car ils optimisent la puissance de calcul et la vitesse de traitement.
Pour qu'un entrepôt de données fonctionne correctement, les données doivent être collectées, reformatées, nettoyées et téléchargées dans l'entrepôt. Les données qui ne peuvent pas être reformatées risquent d'être perdues.
Le data lake
En janvier 2008, Yahoo a publié Hadoop (basé sur NoSQL) en tant que projet open source à l'Apache Software Foundation. À l'origine, les data lakes étaient basés sur Hadoop. Ils étaient évolutifs et conçus pour une utilisation sur site. Malheureusement, l'écosystème Hadoop est extrêmement complexe et difficile à utiliser. Les data lakes ont commencé à migrer vers le cloud vers 2015, ce qui les a rendus beaucoup moins coûteux et plus intuitifs.
Les data lakes ont été conçus à l'origine pour collecter des données brutes et non structurées sans imposer de schémas (formats) afin que les chercheurs puissent obtenir davantage d'informations à partir d'un large éventail de données. En raison de problèmes liés à l'analyse des informations obsolètes, inexactes ou inutiles, les data lakes peuvent devenir des « marécages de données » moins fiables.
Dans une architecture typique de data lake, les données sont stockées sur un Object Storage tel qu'Amazon S3 d'AWS, associé à un outil tel que Spark pour traiter les données.
Le data lakehouse
Les data lakehouses associent la flexibilité, la rentabilité et les capacités d'évolutivité des data lakes aux fonctionnalités ACID (atomicité, cohérence, isolation et durabilité) des transactions et des fonctionnalités de gestion des données des entrepôts de données. (ACID est l’acronyme de l’ensemble des 4 propriétés clés qui définissent une transaction : l’atomicité, la cohérence, l’isolation et la durabilité.)
Les entrepôts de données soutiennent la BI et le machine learning, et l'un des principaux atouts de l'entrepôt de données est qu'il utilise des couches de métadonnées. Les data lakehouse utilisent également un nouveau moteur de requête, conçu pour les recherches SQL hautes performances.
Data mesh
Contrairement aux entrepôts de données, aux data lakes et aux data lakehouses, le data mesh décentralise la propriété des données. Avec ce modèle architectural, un domaine spécifique (par exemple un partenaire commercial ou un département) n'est pas propriétaire de ses données, mais les partage librement avec d'autres domaines. Cela signifie que toutes les données du système du data mesh doivent conserver un format uniforme.
Les systèmes de data mesh peuvent être utiles pour les entreprises qui prennent en charge plusieurs domaines de données. Le concept de data mesh comprend une couche de gouvernance des données et une couche d'observabilité. Il existe également une couche d'interopérabilité universelle.
Le data mesh peut être utile aux organisations qui se développent rapidement et qui ont besoin d'une certaine évolutivité pour le stockage des données.
Le processus consistant à placer des données dans un système de stockage en vue d'une utilisation ultérieure s'appelle l'intégration des données. Il constitue la deuxième couche d'une plateforme de données moderne.
En d'autres termes, l'intégration des données consiste à déplacer des données provenant de diverses sources vers un emplacement central. Les données peuvent ensuite être utilisées à des fins d'archivage ou de traitement et d'analyse ultérieurs, qui dépendent tous deux de l'accessibilité, de la cohérence et de l'exactitude des données.
Les organisations prennent des décisions commerciales en utilisant les données de leur infrastructure analytique. La valeur de ces données dépend de la manière dont elles sont intégrées. Si des problèmes surviennent au cours du processus d'intégration, tels que des groupes de données manquants ou obsolètes, toutes les étapes du processus d'analyse en pâtiront. C'est particulièrement vrai en ce qui concerne le big data.
Modèles de traitement de données
L'intégration des données peut se faire de différentes manières, et la façon dont une couche d'intégration de données particulière est conçue peut être basée sur différents modèles de traitement. Les données peuvent provenir d'une variété de sources distinctes, y compris les plateformes SaaS, les appareils de l'internet des objets (IoT) et les appareils mobiles. Un bon modèle de traitement de données constitue la base d'une stratégie efficace en matière de données, et les organisations doivent donc déterminer quel modèle est le mieux adapté à leur situation.
La couche suivante, la transformation des données, concerne la modification des valeurs, de la structure et du format des données, ce qui est souvent nécessaire pour les projets d'analyse des données. Les données peuvent être transformées avant ou après leur arrivée à leur emplacement de stockage lors de l'utilisation d'un pipeline de données.
Jusqu'à récemment, les modèles modernes d'intégration de données utilisaient une procédure ETL (extraction, transformation, chargement) pour extraire les données de leur source, les reformater et les transporter vers leur emplacement. Cette approche avait du sens lorsque les entreprises devaient utiliser des systèmes d'analyse internes coûteux. Le fait d'effectuer le travail préparatoire avant la livraison, y compris les transformations, a permis de réduire les coûts. Les organisations qui utilisent encore des entrepôts de données sur site ont normalement recours à un processus ETL.
De nombreuses organisations préfèrent aujourd'hui les entrepôts de données basés sur le cloud (IBM, Snowflake, Google BigQuery, Microsoft Azure et autres). Elles peuvent en effet moduler les ressources de calcul et de stockage en fonction de leurs besoins. L'évolutivité du cloud permet de contourner les transformations de préchargement, de sorte que les données brutes puissent être envoyées plus rapidement à l'entrepôt de données. Les données sont ensuite transformées après leur arrivée à l'aide d'un modèle ELT (extraction, chargement, transformation), généralement lors de la réponse à une requête.
À ce stade, les données peuvent être converties en format SQL et exécutées dans l'entrepôt de données pendant la recherche.
La transformation des données présente plusieurs avantages :
La quatrième couche de la plateforme de données moderne est constituée par les outils de business intelligence (BI) et d'analytique.
En 1865, Richard Millar Devens a introduit la notion de « business intelligence » dans le « Cyclopædia of Commercial and Business Anecdotes ». Il a utilisé ce terme pour décrire la manière dont le banquier Sir Henry Furnese profitait des informations en les recueillant et en les utilisant avant ses concurrents.
Actuellement, une grande partie des informations commerciales est recueillie à partir de l'analyse commerciale et de l'analyse des données. Les outils de BI et d'analytique peuvent être utilisés pour accéder aux données, les analyser et les transformer en représentations visuelles qui fournissent des informations compréhensibles. Fournir aux chercheurs et aux data scientists des informations détaillées peut les aider à prendre des décisions commerciales tactiques et stratégiques.
La dernière des cinq couches fondamentales d'une plateforme de données moderne est l'observabilité des données.
L'observabilité des données décrit la capacité de surveiller et d'observer l'état des données et leur fiabilité. Elle couvre un certain nombre d'activités et de technologies qui, lorsqu'elles sont combinées, permettent à l'utilisateur d'identifier et de résoudre les difficultés liées aux données en temps quasi réel.
L'observabilité permet aux équipes d'ingénierie des données de répondre à des questions spécifiques sur ce qui se passe dans les coulisses des systèmes extrêmement distribués. Elle peut révéler où les données circulent lentement et ce qui est défaillant.
Les responsables, les équipes chargées des données et diverses autres parties prenantes peuvent recevoir des alertes concernant des problèmes potentiels afin de pouvoir les résoudre de manière proactive. Si la fonction de prévisibilité peut être utile, elle ne garantit pas que tous les problèmes seront détectés.
Pour que l'observabilité des données soit utile, elle doit inclure ces fonctionnalités :
Pour de nombreuses organisations, l'observabilité est un processus hiérarchisé, ce qui signifie que seuls certains services peuvent accéder aux données. D'un point de vue philosophique, un système de data mesh permet de résoudre ce problème en exigeant que les données soient partagées, ce qui est généralement déconseillé dans les systèmes de stockage et de traitement classiques.
Outre les cinq couches fondamentales susmentionnées, d'autres couches sont souvent présentes dans une pile de données moderne :
Les données inaccessibles sont essentiellement des données inutiles. La découverte des données permet de s'assurer qu'elles ne restent pas inactives. Il s'agit de collecter, d'évaluer et d'explorer des données provenant de différentes sources afin d'aider les chefs d'entreprise à comprendre les tendances et les modèles qui se dégagent des données. Elle permet de traiter et de préparer les données et est parfois associée à la BI car elle permet de rassembler des données hiérarchisées à des fins d'analyse.
Les plateformes de données modernes mettent l'accent sur la gouvernance et la sécurité des données afin de protéger les informations sensibles, de garantir la conformité réglementaire et de gérer la qualité des données. Les outils qui prennent en charge cette couche sont le contrôle d'accès aux données, le chiffrement, l'audit et la traçabilité des données.
Le catalogage des données et la gestion des métadonnées sont essentiels pour identifier et interpréter les données disponibles. Cela aide les utilisateurs à trouver les bonnes données pour leur analyse.
Certaines plateformes de données modernes intègrent des capacités de machine learning et d'IA pour l'analyse prédictive, la détection d'anomalies et la prise de décision automatisée.
Conçu pour les entrepôts et les pipelines de données, IBM® Databand® est un logiciel d’observabilité qui collecte automatiquement les métadonnées afin de créer des lignes de base historiques, de détecter les anomalies et de trier les alertes permettant de résoudre les problèmes de qualité des données.
En prenant en charge les modèles ETL et ELT, IBM DataStage offre une intégration flexible et en temps quasi réel des données sur site et dans le cloud.
IBM® Knowledge Catalog est un catalogue de données intelligent optimisé pour l'IA, conçu pour faciliter l’accès, le classement et le partage des données, des actifs de connaissances et de leurs relations, où qu’ils se trouvent.
Pour aller plus loin, découvrez la notion d’observabilité des données, son importance, son évolution parallèle à celle des systèmes de données modernes, ainsi que les bonnes pratiques à appliquer pour mettre en œuvre un cadre d’observabilité des données.
Découvrez ce qu'est l'ELT, comment fonctionne ce processus, en quoi il diffère de l'ETL, quels sont ses défis et ses limites, et quelles sont les meilleures pratiques pour mettre en œuvre des pipelines ELT.
Pendant des années, les chaînes d'approvisionnement des entreprises ont reposé sur des bases fragiles de données isolées, invérifiables et inopportunes. Des données fiables et accessibles sont à la base des opérations de la chaîne d'approvisionnement moderne.
Découvrez comment la science des données peut fournir des informations métier, accélérer la transformation numérique et permettre une prise de décision fondée sur les données.