Une plateforme de données est une solution technologique qui permet la collecte, le stockage, le nettoyage, la transformation, l’analyse et la gouvernance des données. Les plateformes de données peuvent inclure à la fois des composants matériels et logiciels. Elles permettent aux organisations d’utiliser plus facilement leurs données pour améliorer la prise de décision et les opérations.
Aujourd’hui, de nombreuses organisations s’appuient sur des pipelines de données complexes pour prendre en charge l’analytique des données, la science des données et les décisions fondées sur les données. Une plateforme de données moderne fournit les outils dont les organisations ont besoin pour préserver la qualité des données et déverrouiller leur valeur.
Plus précisément, les plateformes de données peuvent faire remonter des informations exploitables, réduire les silos de données, fournir une analytique en libre-service, rationaliser l’automatisation et optimiser les applications d’intelligence artificielle (IA).
Également appelée « pile de données », une plateforme de données comporte cinq couches fondamentales : stockage et traitement des données, ingestion de données, transformation des données, business intelligence (BI), et analyse et observabilité des données.
Des plateformes de données peuvent être créées et configurées pour remplir des fonctions métier spécifiques. Voici quelques-uns des types de plateformes de données les plus courants :
L’objectif initial des plateformes de données d’entreprise était de servir de référentiels centraux afin de rendre les données plus accessibles au sein de l’organisation. Ces plateformes hébergeaient généralement les données sur site, dans des bases de données opérationnelles ou des entrepôts de données. Elles géraient souvent des données structurées sur les clients, les finances et la chaîne d’approvisionnement.
Les plateformes de données modernes d’aujourd’hui étendent les capacités des plateformes de données d’entreprise traditionnelles pour s’assurer que les données sont exactes et opportunes, réduire les silos de données et permettre le libre-service. Les plateformes de données modernes s’appuient souvent sur une suite de logiciels cloud natifs, pour une flexibilité et une rentabilité accrues.
Les plateformes de données modernes s’appuient sur deux principes fondamentaux :
Les plateformes de big data sont conçues pour collecter, traiter et stocker de grands volumes de données, souvent en temps réel. Compte tenu des énormes volumes de données qu’elles traitent, les plateformes de big data utilisent souvent l’informatique distribuée, les données étant réparties sur de nombreux serveurs.
D’autres types de plateformes de données peuvent également gérer de grands volumes de données, mais les plateformes de big data sont spécialement conçues pour traiter ces données à grande vitesse. Les BDP dédiées aux entreprises sont capables d’exécuter des requêtes complexes sur des jeux de données massifs, que les données soient structurées, semi-structurées ou non structurées. Les utilisations typiques des BDP incluent l’analyse du big data, la détection des fraudes, l’analyse prédictive et les systèmes de recommandation.
Les plateformes de big data sont souvent disponibles sous forme de produits SaaS (logiciel en tant que service), dans le cadre d’une offre DaaS (données en tant que service) ou dans une suite de solutions de cloud computing.
Comme son nom l’indique, la caractéristique principale d’une plateforme de données cloud, c’est qu’elle est basée sur le cloud, ce qui peut offrir de multiples avantages :
Une plateforme de données client collecte et unifie les données client de plusieurs sources pour créer une vue unique, cohérente et complète de chaque client.
La CDP peut recevoir des entrées du système de gestion de la relation client (CRM) d’une organisation, de l’activité sur les réseaux sociaux, des points de contact avec l’organisation, des systèmes transactionnels ou des analyses des sites web.
Une vue unifiée à 360 degrés des clients peut donner à une organisation un meilleur aperçu de leur comportement et de leurs préférences, pour un marketing plus ciblé, de meilleures expériences utilisateur et de nouvelles opportunités de revenus.
Les plateformes de données peuvent se présenter sous différentes formes et tailles, selon les besoins de l’entreprise. Une plateforme type comprend au moins ces cinq couches :
La première couche de nombreuses plateformes de données est le stockage de données. Le type de stockage de données utilisé dépend des besoins de l’organisation et peut inclure un stockage sur site et dans le cloud. Voici quelques magasins de données courants :
Entrepôts de données
Un entrepôt de données , ou entrepôt de données d’entreprise (EDW), agrège les données de différentes sources dans un magasin de données unique, centralisé et cohérent pour l’analyse des données, le data mining, l’IA et le machine learning. Les entrepôts de données sont le plus souvent utilisés pour gérer des données structurées avec des cas d’utilisation d’analyse clairement définis.
Data lakes
Un data lake est un environnement de stockage à faible coût, qui héberge généralement des pétaoctets de données brutes. Un data lake peut stocker des données structurées et des données non structurées dans divers formats, permettant aux chercheurs de travailler plus facilement avec un large éventail de données.
À l’origine, les data lakes étaient souvent créés dans l'écosystème Hadoop, un projet open source basé sur NoSQL. À partir de 2015, de nombreux data lakes ont commencé à migrer vers le cloud. Une architecture typique de data lake peut désormais stocker les données sur une plateforme de stockage d’objets, telle qu’Amazon S3 d’Amazon Web Services (AWS), et utiliser un outil comme Spark pour traiter les données.
Data lakehouses
Un data lakehouse combine les capacités des entrepôts de données et des data lakes en une seule solution de gestion des données.
Bien que les entrepôts de données offrent de meilleures performances que les data lakes, ils sont souvent plus coûteux et limités en termes d’évolutivité. Les data lakes optimisent les coûts de stockage, mais n’ont pas la structure nécessaire pour des analyses utiles.
Les data lakehouses résolvent ces problèmes en tirant parti du stockage d’objets cloud pour stocker un plus large éventail de types de données : données structurées, données non structurées et données semi-structurées. L’architecture des data lakehouses associe ce stockage à des outils destinés à soutenir les efforts d’analyse avancés, tels que la business intelligence et le machine learning.
On appelle ingestion de données le processus consistant à collecter des données à partir de diverses sources et à les déplacer dans un système de stockage. Lorsqu’elles sont ingérées, les données peuvent être utilisées à des fins de tenue de registres ou de traitement et d’analyse ultérieurs.
L’efficacité de l’infrastructure de données d’une organisation dépend en grande partie de la manière dont les données sont ingérées et intégrées. Si des problèmes surviennent lors de l’ingestion, comme des jeux de données manquants ou obsolètes, toutes les étapes des workflows analytiques en aval risquent d’en pâtir.
L’ingestion peut s’appuyer sur différents modèles de traitement des données, en fonction des besoins de l’organisation et de son architecture de données globale.
La troisième couche, la transformation des données, gère la modification de la structure et du format des données pour les rendre utilisables dans les analyses de données et d’autres projets. Par exemple, les données non structurées peuvent être converties au format SQL pour en faciliter l’exploration. Les données peuvent être transformées avant ou après leur arrivée à leur emplacement de stockage.
Jusqu’à récemment, la plupart des modèles d’ingestion de données reposaient sur une procédure ETL (extraction, transformation, chargement) pour extraire les données de leur source, les reformater et les transporter vers leur destination. Cette approche fait sens lorsque les entreprises utilisent des systèmes d’analyse internes. Faire le travail préparatoire avant de distribuer les données à leur destination peut contribuer à réduire les coûts. Les organisations qui utilisent toujours des entrepôts de données sur site ont habituellement recours à un processus ETL.
Cependant, de nombreuses organisations préfèrent aujourd’hui les entrepôts de données basés sur le cloud, comme IBM Db2 Warehouse, Microsoft Azure, Snowflake ou BigQuery de Google Cloud. L’évolutivité du cloud permet aux organisations d’utiliser un modèle ELT (extraction, chargement, transformation, qui contourne les transformations de préchargement pour envoyer plus rapidement les données brutes directement à l’entrepôt de données. Les données sont ensuite transformées selon les besoins après leur arrivée, généralement lors de l’exécution d’une requête.
La quatrième couche d’une plateforme de données intègre des outils de business intelligence et d’analytique qui permettent aux utilisateurs de tirer parti des données pour les analyses métier et l’analyse du big data. Par exemple, les outils de BI et d’analyse peuvent permettre aux utilisateurs d’interroger des données, de les transformer en visualisations ou de les manipuler d’une autre manière.
Pour de nombreux départements de l’organisation, cette couche est le visage de la plateforme de données, où les utilisateurs interagissent directement avec les données.
Les chercheurs et les data scientists peuvent utiliser les données pour obtenir des renseignements et des informations exploitables. Les services marketing peuvent utiliser des outils de BI et d’analyse pour en savoir plus sur leurs clients et explorer des initiatives pertinentes. Les équipes chargées de la chaîne d’approvisionnement peuvent exploiter les informations dérivées des analyses de données pour rationaliser les processus ou trouver de meilleurs fournisseurs.
L’utilisation de cette couche est la principale raison pour laquelle les organisations collectent des données.
L’observabilité des données est la pratique qui consiste à surveiller, gérer et maintenir les données afin d’en favoriser la qualité, la disponibilité et la fiabilité. L’observabilité des données couvre plusieurs activités et technologies, notamment le suivi, la journalisation, les alertes et la détection d’anomalies.
Ces activités, lorsqu’elles sont combinées et visualisées sur un tableau de bord, permettent aux utilisateurs d’identifier et de résoudre les problèmes liés aux données en temps quasi réel. Par exemple, la couche d’observabilité permet aux équipes d’ingénierie des données de répondre à des questions spécifiques sur ce qui se passe en coulisses dans les systèmes distribués. Elle peut montrer comment les données circulent dans le système, où elles sont ralenties et les défaillances potentielles.
Les outils d’observabilité peuvent également alerter les responsables, les équipes chargées des données et les parties prenantes en cas de problème potentiel afin qu’ils puissent y remédier de manière proactive.
Outre ces cinq couches fondamentales, les piles de données modernes en contiennent souvent d’autres :
Des données inaccessibles ne servent à rien. La découverte des données permet de s’assurer que les données ne restent pas hors de vue. Ce processus consiste plus précisément à collecter, à évaluer et à explorer les données de sources disparates, avec pour objectif de regrouper les données provenant de sources cloisonnées ou auparavant inconnues, à des fins d’analyse.
Les plateformes de données modernes mettent souvent l’accent sur la gouvernance et la sécurité des données pour protéger les informations sensibles, assurer la conformité réglementaire, faciliter les accès et gérer la qualité des données. Les outils associés à cette couche comprennent les contrôles d’accès, le chiffrement, les audits et la traçabilité des données.
Les catalogues de données utilisent des métadonnées (des données qui décrivent ou résument les données) pour créer un inventaire informatif et consultable de tous les actifs de données d’une organisation. Par exemple, un catalogue de données peut aider les utilisateurs à localiser plus rapidement des données non structurées, y compris des documents, des images, de l’audio, de la vidéo et des visualisations de données.
Certaines plateformes de données d’entreprise intègrent des capacités de machine learning et d’IA pour aider les utilisateurs à extraire des informations précieuses à partir des données. Les plateformes peuvent par exemple proposer des algorithmes d’analyse prédictive, des modèles de machine learning pour la détection des anomalies et des informations automatisées optimisées par des outils d’IA générative.
Une plateforme de données robuste peut aider une organisation à tirer davantage de valeur de ses données en offrant à son personnel technique un meilleur contrôle sur les données et en proposant un libre-service plus rapide à ses utilisateurs quotidiens.
Les plateformes de données peuvent contribuer à l’élimination des silos de données, l’un des plus grands obstacles à l’utilisabilité des données. Différents services, comme les ressources humaines, la production et la chaîne d’approvisionnement, peuvent gérer des magasins de données distincts dans des environnements distincts, créant ainsi des incohérences et des chevauchements. Lorsque les données sont unifiées sur une seule plateforme de données, elles créent une source d’information unique à l’échelle de l’organisation.
Les analyses et les décisions métier peuvent être améliorées en éliminant les silos et en améliorant l’intégration des données. Ainsi, les plateformes de données sont des éléments clés d’un data fabric robuste, qui aident les décideurs à avoir une vision plus cohérente des données organisationnelles. À partir de cette vue cohérente, les organisations peuvent établir de nouveaux liens entre les données et exploiter le big data pour le data mining et l’analyse prédictive.
Les plateformes de données peuvent également permettre aux organisations d’étudier les processus de données de bout en bout et de gagner en efficacité. Une plateforme de données dédiée aux entreprises peut également accélérer l’accès aux informations, pouvant améliorer l’efficacité de la prise de décision interne et des opérations orientées clients.
Enfin, une plateforme de données bien gérée peut offrir un stockage de données diversifié et redondant, améliorant ainsi la résilience de l’organisation face aux cyberattaques ou aux catastrophes naturelles.
Découvrez comment une approche de type data lakehouse ouvert peut fournir des données fiables et accélérer l’exécution des analyses et des projets d’IA.
IBM nommé leader en matière d’outils d’intégration de données, pour la 19e année consécutive, dans l’édition 2024 du rapport Magic Quadrant™ de Gartner.
Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.
Découvrez pourquoi l’intelligence des données et l’intégration des données alimentées par l’IA sont essentielles pour préparer les données structurées et non structurées et accélérer les résultats de l’IA.
Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.
Découvrez comment les recherches d’IBM sont régulièrement intégrées aux nouvelles fonctionnalités d’IBM Cloud Pak for Data.
Obtenez des informations uniques sur l’évolution des solutions ABI, mettant en évidence les principales conclusions, hypothèses et recommandations pour les responsables des données et de l’analytique.
Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.
Watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.