My IBM

Se connecter

S’abonner

Qu’est-ce qu’une plateforme de données ?

Auteurs

Qu’est-ce qu’une plateforme de données ?

Une plateforme de données est une solution technologique qui permet la collecte, le stockage, le nettoyage, la transformation, l’analyse et la gouvernance des données. Les plateformes de données peuvent inclure à la fois des composants matériels et logiciels. Elles permettent aux organisations d’utiliser plus facilement leurs données pour améliorer la prise de décision et les opérations.

Aujourd’hui, de nombreuses organisations s’appuient sur des pipelines de données complexes pour prendre en charge l’analytique des données, la science des données et les décisions fondées sur les données. Une plateforme de données moderne fournit les outils dont les organisations ont besoin pour préserver la qualité des données et déverrouiller leur valeur.

Plus précisément, les plateformes de données peuvent faire remonter des informations exploitables, réduire les silos de données, fournir une analytique en libre-service, rationaliser l’automatisation et optimiser les applications d’intelligence artificielle (IA).

Également appelée « pile de données », une plateforme de données comporte cinq couches fondamentales : stockage et traitement des données, ingestion de données, transformation des données, business intelligence (BI), et analyse et observabilité des données.

Les dernières actualités et informations en matière d’IA  

La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

S’abonner dès maintenant

Types de plateformes de données

Des plateformes de données peuvent être créées et configurées pour remplir des fonctions métier spécifiques. Voici quelques-uns des types de plateformes de données les plus courants :

Plateforme de données d’entreprise (EDP)
Plateforme de big data (BDP)
Plateforme de données cloud (CDP)
Plateforme de données client (CDP)

Plateforme de données d’entreprise (EDP)

L’objectif initial des plateformes de données d’entreprise était de servir de référentiels centraux afin de rendre les données plus accessibles au sein de l’organisation. Ces plateformes hébergeaient généralement les données sur site, dans des bases de données opérationnelles ou des entrepôts de données. Elles géraient souvent des données structurées sur les clients, les finances et la chaîne d’approvisionnement.

Les plateformes de données modernes d’aujourd’hui étendent les capacités des plateformes de données d’entreprise traditionnelles pour s’assurer que les données sont exactes et opportunes, réduire les silos de données et permettre le libre-service. Les plateformes de données modernes s’appuient souvent sur une suite de logiciels cloud natifs, pour une flexibilité et une rentabilité accrues.

Les plateformes de données modernes s’appuient sur deux principes fondamentaux :

Disponibilité : les données sont accessibles à tout moment dans un data lake, un entrepôt de données ou un data lakehouse, qui séparent le stockage et le calcul. Le fractionnement de ces fonctions permet de stocker de grandes quantités de données pour un coût relativement faible.
Élasticité : les fonctions de calcul sont basées sur le cloud, pour une évolutivité automatique. Par exemple, si la plupart des données et des analyses sont consommées tel jour à telle heure, le traitement peut être automatiquement augmenté pour améliorer l’expérience utilisateur, et réduit lorsque le workload diminue.

Plateforme de big data (BDP)

Les plateformes de big data sont conçues pour collecter, traiter et stocker de grands volumes de données, souvent en temps réel. Compte tenu des énormes volumes de données qu’elles traitent, les plateformes de big data utilisent souvent l’informatique distribuée, les données étant réparties sur de nombreux serveurs.

D’autres types de plateformes de données peuvent également gérer de grands volumes de données, mais les plateformes de big data sont spécialement conçues pour traiter ces données à grande vitesse. Les BDP dédiées aux entreprises sont capables d’exécuter des requêtes complexes sur des jeux de données massifs, que les données soient structurées, semi-structurées ou non structurées. Les utilisations typiques des BDP incluent l’analyse du big data, la détection des fraudes, l’analyse prédictive et les systèmes de recommandation.

Les plateformes de big data sont souvent disponibles sous forme de produits SaaS (logiciel en tant que service), dans le cadre d’une offre DaaS (données en tant que service) ou dans une suite de solutions de cloud computing.

Plateforme de données cloud (CDP)

Comme son nom l’indique, la caractéristique principale d’une plateforme de données cloud, c’est qu’elle est basée sur le cloud, ce qui peut offrir de multiples avantages :

Les plateformes de données cloud sont souvent disponibles sur la base d’un paiement à la carte.
L’espace de stockage total est flexible, pour un dimensionnement des ressources à la hausse ou à la baisse en fonction des besoins.
Aucun personnel n’est nécessaire pour maintenir de plateforme matérielle sur site.
Une plateforme de données cloud peut héberger des plateformes pour le big data, les données d’entreprise ou les données client.
De nombreuses CDP offrent des capacités supplémentaires telles que des analyses avancées, le machine learning (ML) et des outils de visualisation.

Plateforme de données client (CDP)

Une plateforme de données client collecte et unifie les données client de plusieurs sources pour créer une vue unique, cohérente et complète de chaque client.

La CDP peut recevoir des entrées du système de gestion de la relation client (CRM) d’une organisation, de l’activité sur les réseaux sociaux, des points de contact avec l’organisation, des systèmes transactionnels ou des analyses des sites web.

Une vue unifiée à 360 degrés des clients peut donner à une organisation un meilleur aperçu de leur comportement et de leurs préférences, pour un marketing plus ciblé, de meilleures expériences utilisateur et de nouvelles opportunités de revenus.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Les couches d’une plateforme de données

Les plateformes de données peuvent se présenter sous différentes formes et tailles, selon les besoins de l’entreprise. Une plateforme type comprend au moins ces cinq couches :

Stockage de données
Intégration des données
Transformation des données
Business intelligence et analytique
Observabilité des données

1. Stockage de données

La première couche de nombreuses plateformes de données est le stockage de données. Le type de stockage de données utilisé dépend des besoins de l’organisation et peut inclure un stockage sur site et dans le cloud. Voici quelques magasins de données courants :

Entrepôts de données

Un entrepôt de données , ou entrepôt de données d’entreprise (EDW), agrège les données de différentes sources dans un magasin de données unique, centralisé et cohérent pour l’analyse des données, le data mining, l’IA et le machine learning. Les entrepôts de données sont le plus souvent utilisés pour gérer des données structurées avec des cas d’utilisation d’analyse clairement définis.

Data lakes

Un data lake est un environnement de stockage à faible coût, qui héberge généralement des pétaoctets de données brutes. Un data lake peut stocker des données structurées et des données non structurées dans divers formats, permettant aux chercheurs de travailler plus facilement avec un large éventail de données.

À l’origine, les data lakes étaient souvent créés dans l'écosystème Hadoop, un projet open source basé sur NoSQL. À partir de 2015, de nombreux data lakes ont commencé à migrer vers le cloud. Une architecture typique de data lake peut désormais stocker les données sur une plateforme de stockage d’objets, telle qu’Amazon S3 d’Amazon Web Services (AWS), et utiliser un outil comme Spark pour traiter les données.

Data lakehouses

Un data lakehouse combine les capacités des entrepôts de données et des data lakes en une seule solution de gestion des données.

Bien que les entrepôts de données offrent de meilleures performances que les data lakes, ils sont souvent plus coûteux et limités en termes d’évolutivité. Les data lakes optimisent les coûts de stockage, mais n’ont pas la structure nécessaire pour des analyses utiles.

Les data lakehouses résolvent ces problèmes en tirant parti du stockage d’objets cloud pour stocker un plus large éventail de types de données : données structurées, données non structurées et données semi-structurées. L’architecture des data lakehouses associe ce stockage à des outils destinés à soutenir les efforts d’analyse avancés, tels que la business intelligence et le machine learning.

2. Ingestion de données

On appelle ingestion de données le processus consistant à collecter des données à partir de diverses sources et à les déplacer dans un système de stockage. Lorsqu’elles sont ingérées, les données peuvent être utilisées à des fins de tenue de registres ou de traitement et d’analyse ultérieurs.

L’efficacité de l’infrastructure de données d’une organisation dépend en grande partie de la manière dont les données sont ingérées et intégrées. Si des problèmes surviennent lors de l’ingestion, comme des jeux de données manquants ou obsolètes, toutes les étapes des workflows analytiques en aval risquent d’en pâtir.

L’ingestion peut s’appuyer sur différents modèles de traitement des données, en fonction des besoins de l’organisation et de son architecture de données globale.

Le traitement par lots est la forme la plus courante d’ingestion de données. Il ne traite pas les données en temps réel, mais il les collecte et les regroupe par lots, qui sont ensuite envoyés à leur emplacement de stockage. Le traitement par lots peut être initié à l’aide d’un simple calendrier ou activé lorsque certaines conditions prédéterminées sont réunies. Il intervient généralement lorsqu’il est inutile de traiter les données en temps réel : il nécessite moins de travail et il est moins coûteux que le traitement en temps réel.
Le traitement en temps réel, également appelé streaming ou traitement en flux, ne regroupe pas les données. Au contraire, les données sont obtenues, transformées et chargées au fur et à mesure de leur identification. Le traitement en temps réel est plus coûteux, car il nécessite une surveillance constante des sources de données.

3. Transformation des données

La troisième couche, la transformation des données, gère la modification de la structure et du format des données pour les rendre utilisables dans les analyses de données et d’autres projets. Par exemple, les données non structurées peuvent être converties au format SQL pour en faciliter l’exploration. Les données peuvent être transformées avant ou après leur arrivée à leur emplacement de stockage.

Jusqu’à récemment, la plupart des modèles d’ingestion de données reposaient sur une procédure ETL (extraction, transformation, chargement) pour extraire les données de leur source, les reformater et les transporter vers leur destination. Cette approche fait sens lorsque les entreprises utilisent des systèmes d’analyse internes. Faire le travail préparatoire avant de distribuer les données à leur destination peut contribuer à réduire les coûts. Les organisations qui utilisent toujours des entrepôts de données sur site ont habituellement recours à un processus ETL.

Cependant, de nombreuses organisations préfèrent aujourd’hui les entrepôts de données basés sur le cloud, comme IBM Db2 Warehouse, Microsoft Azure, Snowflake ou BigQuery de Google Cloud. L’évolutivité du cloud permet aux organisations d’utiliser un modèle ELT (extraction, chargement, transformation, qui contourne les transformations de préchargement pour envoyer plus rapidement les données brutes directement à l’entrepôt de données. Les données sont ensuite transformées selon les besoins après leur arrivée, généralement lors de l’exécution d’une requête.

4. Business intelligence et analytique

La quatrième couche d’une plateforme de données intègre des outils de business intelligence et d’analytique qui permettent aux utilisateurs de tirer parti des données pour les analyses métier et l’analyse du big data. Par exemple, les outils de BI et d’analyse peuvent permettre aux utilisateurs d’interroger des données, de les transformer en visualisations ou de les manipuler d’une autre manière.

Pour de nombreux départements de l’organisation, cette couche est le visage de la plateforme de données, où les utilisateurs interagissent directement avec les données.

Les chercheurs et les data scientists peuvent utiliser les données pour obtenir des renseignements et des informations exploitables. Les services marketing peuvent utiliser des outils de BI et d’analyse pour en savoir plus sur leurs clients et explorer des initiatives pertinentes. Les équipes chargées de la chaîne d’approvisionnement peuvent exploiter les informations dérivées des analyses de données pour rationaliser les processus ou trouver de meilleurs fournisseurs.

L’utilisation de cette couche est la principale raison pour laquelle les organisations collectent des données.

5. Observabilité des données

L’observabilité des données est la pratique qui consiste à surveiller, gérer et maintenir les données afin d’en favoriser la qualité, la disponibilité et la fiabilité. L’observabilité des données couvre plusieurs activités et technologies, notamment le suivi, la journalisation, les alertes et la détection d’anomalies.

Ces activités, lorsqu’elles sont combinées et visualisées sur un tableau de bord, permettent aux utilisateurs d’identifier et de résoudre les problèmes liés aux données en temps quasi réel. Par exemple, la couche d’observabilité permet aux équipes d’ingénierie des données de répondre à des questions spécifiques sur ce qui se passe en coulisses dans les systèmes distribués. Elle peut montrer comment les données circulent dans le système, où elles sont ralenties et les défaillances potentielles.

Les outils d’observabilité peuvent également alerter les responsables, les équipes chargées des données et les parties prenantes en cas de problème potentiel afin qu’ils puissent y remédier de manière proactive.

Couches supplémentaires des plateformes de données

Outre ces cinq couches fondamentales, les piles de données modernes en contiennent souvent d’autres :

Découverte de données

Des données inaccessibles ne servent à rien. La découverte des données permet de s’assurer que les données ne restent pas hors de vue. Ce processus consiste plus précisément à collecter, à évaluer et à explorer les données de sources disparates, avec pour objectif de regrouper les données provenant de sources cloisonnées ou auparavant inconnues, à des fins d’analyse.

Gouvernance des données

Les plateformes de données modernes mettent souvent l’accent sur la gouvernance et la sécurité des données pour protéger les informations sensibles, assurer la conformité réglementaire, faciliter les accès et gérer la qualité des données. Les outils associés à cette couche comprennent les contrôles d’accès, le chiffrement, les audits et la traçabilité des données.

Catalogage des données et gestion des métadonnées

Les catalogues de données utilisent des métadonnées (des données qui décrivent ou résument les données) pour créer un inventaire informatif et consultable de tous les actifs de données d’une organisation. Par exemple, un catalogue de données peut aider les utilisateurs à localiser plus rapidement des données non structurées, y compris des documents, des images, de l’audio, de la vidéo et des visualisations de données.

Machine learning et IA

Certaines plateformes de données d’entreprise intègrent des capacités de machine learning et d’IA pour aider les utilisateurs à extraire des informations précieuses à partir des données. Les plateformes peuvent par exemple proposer des algorithmes d’analyse prédictive, des modèles de machine learning pour la détection des anomalies et des informations automatisées optimisées par des outils d’IA générative.

Pourquoi les plateformes de données sont importantes

Une plateforme de données robuste peut aider une organisation à tirer davantage de valeur de ses données en offrant à son personnel technique un meilleur contrôle sur les données et en proposant un libre-service plus rapide à ses utilisateurs quotidiens.

Les plateformes de données peuvent contribuer à l’élimination des silos de données, l’un des plus grands obstacles à l’utilisabilité des données. Différents services, comme les ressources humaines, la production et la chaîne d’approvisionnement, peuvent gérer des magasins de données distincts dans des environnements distincts, créant ainsi des incohérences et des chevauchements. Lorsque les données sont unifiées sur une seule plateforme de données, elles créent une source d’information unique à l’échelle de l’organisation.

Les analyses et les décisions métier peuvent être améliorées en éliminant les silos et en améliorant l’intégration des données. Ainsi, les plateformes de données sont des éléments clés d’un data fabric robuste, qui aident les décideurs à avoir une vision plus cohérente des données organisationnelles. À partir de cette vue cohérente, les organisations peuvent établir de nouveaux liens entre les données et exploiter le big data pour le data mining et l’analyse prédictive.

Les plateformes de données peuvent également permettre aux organisations d’étudier les processus de données de bout en bout et de gagner en efficacité. Une plateforme de données dédiée aux entreprises peut également accélérer l’accès aux informations, pouvant améliorer l’efficacité de la prise de décision interne et des opérations orientées clients.

Enfin, une plateforme de données bien gérée peut offrir un stockage de données diversifié et redondant, améliorant ainsi la résilience de l’organisation face aux cyberattaques ou aux catastrophes naturelles.

Gestion des données pour l’IA et l’analyse

Explorez la valeur des architectures de données et découvrez comment le portefeuille de bases de données d’IBM peut vous aider à simplifier les données pour toutes vos applications, vos analyses et vos workflows d’IA.

Ressources

Gestion des données pour une IA et des analyses à l’échelle

Découvrez comment une approche de type data lakehouse ouvert peut fournir des données fiables et accélérer l’exécution des analyses et des projets d’IA.

2024 Gartner Magic Quadrant™ pour les outils d'intégration de données

IBM nommé leader en matière d’outils d’intégration de données, pour la 19e année consécutive, dans l’édition 2024 du rapport Magic Quadrant™ de Gartner.

La différence par les données

Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.

Favoriser l’adoption de l’IA avec des données prêtes pour l’IA

Découvrez pourquoi l’intelligence des données et l’intégration des données alimentées par l’IA sont essentielles pour préparer les données structurées et non structurées et accélérer les résultats de l’IA.

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

Publications d’IBM Research sur la gestion des données

Découvrez comment les recherches d’IBM sont régulièrement intégrées aux nouvelles fonctionnalités d’IBM Cloud Pak for Data.

Gartner predicts 2024: How AI will impact analytics users

Obtenez des informations uniques sur l’évolution des solutions ABI, mettant en évidence les principales conclusions, hypothèses et recommandations pour les responsables des données et de l’analytique.

Solutions connexes

Logiciels et solutions de gestion des données

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données

IBM watsonx.data

Watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passez à l’étape suivante

Découvrir les solutions de gestion des données

Découvrir watsonx.data

Qu’est-ce qu’une plateforme de données ?

Auteurs

Jim Holdsworth

Matthew Kosinski

Qu’est-ce qu’une plateforme de données ?

Les dernières actualités et informations en matière d’IA

Types de plateformes de données

Plateforme de données d’entreprise (EDP)

Plateforme de big data (BDP)

Plateforme de données cloud (CDP)

Plateforme de données client (CDP)

La gestion des données est-elle le secret de l’IA générative ?

Les couches d’une plateforme de données

1. Stockage de données

2. Ingestion de données

3. Transformation des données

4. Business intelligence et analytique

5. Observabilité des données

Couches supplémentaires des plateformes de données

Découverte de données

Gouvernance des données

Catalogage des données et gestion des métadonnées

Machine learning et IA

Pourquoi les plateformes de données sont importantes

Ressources

Solutions connexes