La gestion des données peut être définie comme la collecte, le traitement et l’utilisation sécurisés et efficaces des données pour améliorer les résultats de l’entreprise.
Près de trois quarts (72 %) des PDG les plus performants reconnaissent que la compétitivité dépend de celui qui dispose de l’IA générative la plus avancée. Cependant, pour tirer parti de l’intelligence artificielle (IA), les entreprises doivent avant tout organiser leur architecture informatique de façon à rendre leurs données accessibles et utilisables. Le volume des données et leur cloisonnement entre plusieurs sites et fournisseurs de services cloud constituent les principaux défis liés à leur gestion. Les nouveaux types de données ainsi que les différents formats, par exemple les documents, les images et les vidéos, présentent également certaines contraintes. De plus, il arrive que la complexité et l’incohérence des jeux de données limitent la capacité des entreprises à les exploiter à des fins d’IA.
Par conséquent, les entreprises s’efforcent de mettre en place une stratégie de gestion des données efficace afin de relever les défis posés par le big data. Un système moderne et flexible s’intègre aux technologies existantes pour fournir des données utilisables et de haute qualité aux data scientists, aux ingénieurs d’IA et de machine learning (ML), ainsi qu’aux utilisateurs professionnels.
Une stratégie complète de gestion des données tient compte de divers facteurs, notamment :
Bien que les outils de gestion des données permettant de créer des applications d’IA générative soient largement disponibles, ce sont les données elles-mêmes qui ont de la valeur pour les clients et les entreprises. Or, pour entraîner efficacement les modèles, il est nécessaire d’organiser et de traiter correctement de grandes quantités de données de qualité. Il s’agit là d’un cas d’utilisation en pleine expansion dans le domaine de la gestion moderne des données.
Par exemple, un service de commentaires piloté par l’IA générative a été utilisé lors du tournoi de Wimbledon 2023. Il avait accès en temps réel à des informations provenant de 130 millions de documents et 2,7 millions de points de données contextuelles pertinentes. Les utilisateurs de l’application ou du site Web du tournoi avaient ainsi accès à des statistiques complètes, à des commentaires en direct et à des analyses des matchs, ainsi qu’à des pronostics précis sur le vainqueur à tout moment de la rencontre. Une stratégie de gestion des données appropriée permet de garantir que les données précieuses sont toujours disponibles, intégrées, gouvernées, sécurisées et exactes.
L’IA générative peut offrir aux organisations un avantage concurrentiel important, dans la mesure où leur stratégie en matière d’IA repose sur la qualité des données utilisées. Beaucoup d’entre elles sont encore confrontées à des défis majeurs dans ce domaine, exacerbés par la demande en IA générative, qui nécessite toujours plus de données, ce qui complique encore davantage la gestion de ces dernières.
Les données peuvent être stockées à plusieurs endroits, dans différentes applications et dans différents clouds, ce qui conduit souvent au cloisonnement des données. Pour compliquer encore davantage la situation, l’utilisation des données s’est diversifiée, et celles-ci se présentent sous des formes variées et complexes, notamment des images, des vidéos, des documents ou des fichiers audio. Leur nettoyage, leur intégration et leur préparation prennent donc plus de temps. Ces contraintes peuvent conduire les entreprises à ne pas exploiter pleinement l’ensemble de leurs données à des fins d’analyse et d’IA.
Cependant, l’utilisation d’outils modernes pour l’architecture, la gouvernance et la sécurité des données permet d’exploiter efficacement ces dernières afin d’obtenir de nouvelles informations et de faire des prévisions plus précises et plus cohérentes. Cette capacité permet de mieux comprendre les préférences des clients et d’améliorer leur expérience en leur fournissant des informations issues de l’analyse des données. Elle facilite également le développement de modèles économiques innovants, tels que les offres de services reposant sur l’IA générative, qui nécessitent des données de haute qualité pour l’entraînement des modèles.
Les responsables des données et de l’analyse font face à d’importants défis lors de la transformation de leur entreprise en raison de la complexité croissante des environnements de cloud hybride. L’IA générative et les assistants d’IA, le ML, l’analyse avancée, l’Internet des objets (IdO) et l’automatisation nécessitent également d’énormes quantités de données pour fonctionner efficacement. Ces données doivent être stockées, intégrées, gouvernées, transformées et préparées pour constituer un socle de données adéquat. Afin de mettre en place un socle de données ouvert et digne de confiance, les entreprises doivent donc élaborer une stratégie de gestion des données axée sur l’ouverture, la confiance et la collaboration.
Cette exigence en matière d’IA a été résumée par un analyste de Gartner1 : « On considère que les données sont prêtes pour l’IA lorsqu’elles sont représentatives du cas d’utilisation concerné, y compris l’ensemble des schémas, des erreurs, des valeurs aberrantes et des événements imprévus nécessaires à l’entraînement ou à l’exécution du modèle d’IA pour cet usage spécifique. »
Les responsables des données et de l’analyse considèrent parfois que la préparation à l’IA est synonyme de haute qualité, mais les normes de qualité des données dans d’autres domaines ne correspondent pas nécessairement à celles requises pour l’IA. En analyse, par exemple, les données sont généralement affinées afin d’éliminer les valeurs aberrantes ou de correspondre aux attentes humaines. Or, pour entraîner un algorithme, il faut des données représentatives.
La gouvernance des données est un sous-ensemble de la gestion des données. Cela signifie que lorsqu’une équipe chargée de la gouvernance des données identifie des points communs entre des jeux de données disparates et souhaite les intégrer, elle doit faire appel à une équipe d’ingénieurs ou d’architectes de bases de données, qui définit le modèle et l’architecture permettant la mise en place de liens et de flux de données. Un autre exemple concerne l’accès aux données. Une équipe chargée de la gouvernance des données peut définir des politiques d’accès à certains types de données, par exemple les données personnelles. Parallèlement, une équipe de gestion des données pourrait fournir un accès soit de façon directe, soit par le biais d’un mécanisme, par exemple en ajustant les rôles utilisateur définis en interne pour approuver les accès.
Une gestion efficace des données, comprenant des pratiques robustes de gouvernance, contribue au respect des exigences réglementaires. Cette conformité englobe les réglementations nationales et internationales en matière de confidentialité des données, telles que le règlement général sur la protection des données (RGPD) et la loi California Consumer Privacy Act (CCPA), ainsi que les normes de confidentialité et de sécurité spécifiques à chaque secteur. La mise en place de politiques et de procédures complètes de gestion des données s’avère cruciale pour faire la démonstration de ces protections ou faire l’objet d’audits visant à les valider.
Les solutions modernes de gestion des données offrent un moyen efficace de gérer les données et les métadonnées provenant de divers ensembles. Les systèmes modernes reposent sur les derniers logiciels de gestion des données et sur des bases de données ou des magasins de données fiables. Il peut s’agir de lakes, de lakehouses ou d’entrepôts de données transactionnelles, associés à une architecture data fabric comprenant l’ingestion, la gouvernance, la traçabilité, l’observabilité et la gestion des données maîtresses. Ce socle de données de confiance fournit alors aux utilisateurs des données de qualité sous forme de produits de données, de business intelligence (BI) et de tableaux de bord, ainsi que de modèles d’IA, qu’il s’agisse d’IA générative ou de ML traditionnel.
Une bonne stratégie de gestion des données comprend généralement plusieurs composants visant à rationaliser la stratégie et les opérations au sein de l’entreprise.
Si les données peuvent être stockées avant ou après leur traitement, leur type et leur finalité déterminent généralement le référentiel de stockage utilisé. Alors que les bases de données relationnelles organisent les données sous forme de tableaux, les bases de données non relationnelles n’ont pas un schéma aussi rigide.
En outre, les bases de données relationnelles sont généralement associées à des bases de données transactionnelles, qui exécutent des commandes ou des transactions de manière collective. Prenons l’exemple du virement bancaire. Un montant défini est prélevé sur un compte, puis déposé sur un autre. Cependant, pour prendre en charge à la fois les données structurées et non structurées, les entreprises ont besoin de bases de données spécifiques, adaptées à divers cas d’utilisation dans les domaines de l’analyse, de l’IA et des applications. Ces dernières doivent couvrir à la fois les bases de données relationnelles et non relationnelles, telles que les bases de données clé-valeur, documentaires, à colonnes larges, graphiques et en mémoire. Ces bases de données multimodales prennent nativement en charge différents types de données et les derniers modèles de développement, et peuvent exécuter de nombreux types de workloads (par exemple IdO, analyse, ML et IA).
Les bonnes pratiques en matière de gestion des données suggèrent d’optimiser le stockage des données pour permettre une analyse haute performance des données structurées. Un schéma défini est nécessaire pour répondre aux exigences spécifiques de l’analyse des données dans des cas d’utilisation particuliers, tels que les tableaux de bord, la visualisation des données et d’autres tâches de BI. Ces exigences en matière de données sont généralement définies et documentées par les utilisateurs professionnels en collaboration avec les ingénieurs de données, qui les appliqueront ensuite au modèle de données défini.
La structure sous-jacente d’un entrepôt de données est généralement organisée sous la forme d’un système relationnel qui utilise un format de données structuré, provenant de bases de données transactionnelles. Cependant, pour les données non structurées et semi-structurées, les data lakes intègrent des données provenant à la fois de systèmes relationnels et non relationnels, ainsi que d’autres tâches de BI. Les data lakes sont souvent préférés aux autres options de stockage car ils offrent généralement un environnement de stockage peu coûteux, capable d’héberger des pétaoctets de données brutes.
Les data lakes sont particulièrement avantageux pour les data scientists, car ils leur permettent d’intégrer à la fois des données structurées et non structurées dans leurs projets de science des données.Cependant, les entrepôts de données et les data lakes ont leurs propres limites. Les formats de données propriétaires et les coûts de stockage élevés limitent la collaboration et les déploiements de modèles d’IA et de ML dans les environnements d’entrepôt de données.
En revanche, les data lakes peinent à extraire des informations directement de manière efficace et conforme à la réglementation. Les data lakehouses ouverts remédient à ces limitations : ils prennent en charge plusieurs formats ouverts sur un stockage d’objets dans le cloud et combinent les données provenant de plusieurs sources, dont les référentiels existants, permettant ainsi de mettre en œuvre l’analyse et l’IA à grande échelle.
Les stratégies multicloud et hybrides gagnent progressivement en popularité. Les technologies d’IA s’appuient sur des volumes considérables de données qui nécessitent des magasins de données modernes résidant sur des architectures cloud natives afin d’offrir évolutivité, optimisation des coûts, performances améliorées et continuité des activités. Selon Gartner2 , d’ici fin 2026, « 90 % des outils et plateformes de gestion des données qui ne prendront pas en charge les capacités multicloud et hybrides seront mis hors service ».
Si les outils existants aident les administrateurs de bases de données (DBA) à automatiser de nombreuses tâches de gestion classiques, une intervention manuelle reste nécessaire en raison de la taille et de la complexité généralement importantes de la configuration des bases de données. Or, toute intervention manuelle augmente le risque d’erreurs. La réduction au minimum de la gestion manuelle des données est donc un objectif primordial dans l’exploitation des bases de données en tant que services entièrement gérés.
Les bases de données cloud entièrement gérées automatisent les tâches chronophages telles que les mises à niveau, les sauvegardes, les correctifs et la maintenance. Les DBA sont ainsi libérés des tâches manuelles fastidieuses et peuvent consacrer plus de temps à des tâches à forte valeur ajoutée telles que l’optimisation des schémas, les nouvelles applications cloud natives et la prise en charge de nouveaux cas d’utilisation de l’IA. Contrairement aux déploiements sur site, les fournisseurs de stockage dans le cloud permettent également aux utilisateurs de créer de larges clusters en fonction de leurs besoins, souvent moyennant le paiement du stockage spécifié. Cela signifie que si une organisation a besoin de davantage de puissance de calcul pour exécuter une tâche en quelques heures (plutôt qu’en quelques jours), elle peut le faire sur une plateforme cloud en achetant des nœuds de calcul supplémentaires.
Cette transition vers les plateformes de données dans le cloud facilite également l’adoption du traitement des données en continu. Des outils tels qu’Apache Kafka permettent de traiter les données de manière plus instantanée, ce qui permet aux consommateurs de s’abonner à des sujets et de recevoir les données en quelques secondes. Pour autant, le traitement par lots conserve ses avantages, car il est plus efficace pour traiter de grands volumes de données. Bien que ce dernier obéisse à un calendrier défini (quotidien, hebdomadaire ou mensuel), il est idéal pour les tableaux de bord de performances, qui ne nécessitent généralement pas de données en temps réel.
Plus récemment, les data fabrics ont fait leur apparition pour faire face à la complexité inhérente à la gestion de ces systèmes de données. Ces composants s’appuient sur des systèmes intelligents et automatisés pour faciliter l’intégration de bout en bout des pipelines de données et des environnements cloud. Ils simplifient également la mise à disposition de données de qualité et fournissent un cadre pour l’application des politiques de gouvernance afin de garantir la conformité des données utilisées. Les données réparties dans les différents silos de l’organisation peuvent ainsi être connectées, ce qui offre un accès en libre-service à des produits de données dignes de confiance et donne aux dirigeants une vision plus globale des performances de l’entreprise. L’unification des données issues des ressources humaines, du marketing, des ventes, de la chaîne d’approvisionnement et d’autres services permet en outre aux dirigeants de mieux comprendre leurs clients.
Un data mesh peut également s’avérer utile. Tandis qu’un data fabric est une architecture qui facilite l’intégration de bout en bout, un data mesh est une architecture de données décentralisée qui organise les données par domaine d’activité (marketing, ventes, service client, etc.), afin d’offrir davantage de contrôle aux producteurs de jeux de données.
Au cours de cette étape du cycle de gestion des données, les données brutes sont collectées à partir de diverses sources, notamment des API Web, des applications mobiles, des appareils connectés (Internet des objets ou IdO), des formulaires, des enquêtes, etc. Après la collecte, les données sont généralement traitées ou chargées à l’aide de techniques d’intégration telles que les processus ETL (extraction, transformation, chargement) ou ELT (extraction, chargement, transformation).Si l’ETL était jusqu’à présent la méthode classique pour intégrer et organiser les données issues de différents jeux, l’ELT gagne en popularité avec l’émergence des plateformes de données cloud et la demande croissante en données en temps réel.
Outre le traitement par lots, la réplication des données est une autre méthode d’intégration qui consiste à synchroniser les données d’un emplacement source vers un ou plusieurs emplacements cibles, ce qui contribue à garantir la disponibilité, la fiabilité et la résilience des données. Des technologies telles que la capture des données modifiées (CDC) utilisent la réplication basée sur des journaux pour capturer les modifications apportées aux données à la source et les propager aux systèmes cibles. Les organisations peuvent ainsi prendre des décisions basées sur des informations actuelles.
Indépendamment de la technique d’intégration utilisée, les données sont généralement filtrées, fusionnées ou agrégées pendant la phase de traitement afin de répondre aux exigences propres à leur utilisation finale. Ces applications peuvent aller des tableaux de bord de BI aux algorithmes prédictifs de ML.
L’utilisation du CI/CD (continuous integration and continuous deployment) pour le contrôle des versions permet aux équipes chargées des données de suivre les modifications apportées à leur code et à leurs actifs de données. Elles peuvent également travailler simultanément sur différentes parties d’un projet et fusionner leurs modifications sans conflit, ce qui améliore la collaboration.
La gouvernance des données favorise la disponibilité et l’utilisation des données. Elle comprend généralement des processus, des politiques et des outils liés à la qualité, à l’accessibilité, à l’utilisabilité et à la sécurité des données, afin de garantir la conformité. Par exemple, les comités de gouvernance des données ont tendance à harmoniser les taxonomies afin de garantir que les métadonnées sont ajoutées de manière cohérente dans les différentes sources de données. Une taxonomie peut également être documentée plus en détail dans un catalogue de données afin de rendre les données plus accessibles aux utilisateurs et d’en favoriser la démocratisation au sein d’une organisation.
Enrichir les données avec le contexte approprié est essentiel pour automatiser l’application des politiques de gouvernance et des normes de qualité des données. C’est là que les règles des accords de niveau de service (SLA) entrent en jeu, en veillant à ce que les données soient protégées et répondent aux exigences de qualité. Il est également important de comprendre la provenance des données et d’obtenir une visibilité sur leur parcours tout au long des pipelines. De solides capacités de traçabilité sont donc nécessaires pour assurer la visibilité des données organisationnelles tout au long de leur parcours, depuis la source jusqu’aux utilisateurs finaux. Il incombe également aux équipes de gouvernance de définir les rôles et les responsabilités afin de garantir un accès approprié aux données. Ce contrôle d’accès est particulièrement important pour préserver la confidentialité des données.
La sécurité des données consiste à établir des garde-fous afin de protéger les informations numériques contre les accès non autorisés, la corruption et le vol. Alors que les technologies numériques occupent une place toujours plus importante dans nos vies, les pratiques de sécurité des entreprises modernes font l’objet d’une surveillance accrue. Cet examen est essentiel pour protéger les données des clients contre les cybercriminels ou prévenir les incidents nécessitant une reprise après sinistre. Si la perte de données peut être dévastatrice pour les entreprises, les violations de données, en particulier, peuvent coûter extrêmement cher, tant du point de vue financier que de l’image de marque. Le chiffrement et le masquage des données sont deux mesures qui contribuent à renforcer la sécurité des données.
L’observabilité des données est une pratique qui associe surveillance, gestion et maintenance des données afin de garantir leur qualité, leur disponibilité et leur fiabilité à travers les différents processus, systèmes et pipelines de l’entreprise. Elle vise à offrir une réelle visibilité sur l’état et l’intégrité des données des organisations au sein de leur écosystème. Elle est assurée au moyen de diverses pratiques qui vont au-delà d’une simple description des problèmes. Enfin, elle permet d’identifier, d’examiner et de résoudre les problèmes liés aux données en temps quasi réel.
La gestion des données maîtresses (MDM) concerne la mise en place d’une vue unique et de haute qualité des entités clés de l’entreprise, notamment les produits, les clients, les employés et les fournisseurs. La MDM offre une vision précise des données maîtresses et de leurs relations, ce qui accélère la prise de décision, améliore la qualité des données et facilite la préparation à la conformité. Grâce à une vue unique et complète des données maîtresses à l’échelle de l’entreprise, la MDM fournit aux entreprises les données dont elles ont besoin pour optimiser leurs analyses, identifier leurs produits et marchés les plus performants, et déterminer leurs clients les plus précieux.
La mise en place et le maintien d’initiatives de gestion des données offrent de nombreux avantages aux organisations.
De nombreuses entreprises créent involontairement des silos de données dans le cadre de leurs activités. Les outils et cadres de gestion des données modernes, tels que les data fabrics et les data lakes, contribuent à éliminer le cloisonnement des données et la dépendance vis-à-vis des propriétaires de données. Par exemple, les data fabrics permettent de mettre en évidence les intégrations potentielles entre des jeux de données disparates provenant de différentes fonctions, notamment les ressources humaines, le marketing et les ventes. Les data lakes ingèrent les données brutes provenant de ces mêmes fonctions, supprimant ainsi les dépendances et éliminant les propriétaires uniques.
Les comités de gouvernance facilitent la mise en place de garde-fous pour protéger les entreprises contre les amendes et la mauvaise publicité liées au non-respect des politiques et des réglementations gouvernementales. La moindre erreur dans ce domaine peut coûter très cher, tant du point de vue financier que de l’image de marque.
Bien que cet avantage ne soit pas immédiatement perceptible, des démonstrations de faisabilité concluantes contribuent à améliorer l’expérience utilisateur globale, ce qui permet aux équipes de mieux comprendre et personnaliser le parcours client grâce à des analyses plus holistiques.
La gestion des données contribue à la croissance des entreprises, mais cela dépend en grande partie de la technologie et des processus mis en place. Par exemple, les plateformes cloud offrent une plus grande flexibilité, permettant aux propriétaires de données d’augmenter ou de réduire leur puissance de calcul en fonction de leurs besoins.
Au cours de la dernière décennie, l’essor du cloud hybride, de l’IA, de l’IdO et de l’edge computing a entraîné une croissance exponentielle des données, complexifiant encore davantage la tâche des entreprises en matière de gestion. De nouveaux composants continuent d’améliorer les capacités en matière de gestion des données. Voici quelques-unes des dernières nouveautés :
Dans un souci d’optimisation des capacités de gestion des données, la gestion augmentée des données connaît un succès croissant. Il s’agit d’une branche de l’intelligence augmentée, qui s’appuie sur des technologies cognitives telles que l’IA, le ML, l’automatisation des données, le data fabric et le data mesh. Cette automatisation présente plusieurs avantages : elle permet notamment aux propriétaires de données de mettre au point des produits de données, tels que des catalogues d’actifs de données, avec la possibilité de rechercher et de trouver des produits de données, ainsi que d’interroger des supports visuels et des produits de données à l’aide d’API. En outre, les informations issues des métadonnées du data fabric peuvent faciliter l’automatisation des tâches en apprenant à partir de schémas dans le cadre du processus de création de produits de données ou de la gestion des données visant à surveiller ces produits.
Un magasin de données dédié à l’IA générative, tel qu’IBM watsonx.data offre aux entreprises un moyen efficace d’unifier, de curer et de préparer les données pour les modèles et les applications d’IA. Les capacités d’intégration et de vectorisation permettent des cas d’utilisation de génération augmentée de récupération (RAG) à grande échelle sur de vastes ensembles de données gouvernées et dignes de confiance.
Le déploiement dans le cloud hybride facilite la connectivité et la sécurité des applications entre les plateformes, les clusters et les clouds. Les applications peuvent être facilement déployées et déplacées d’un environnement à l’autre grâce à la portabilité des capacités informatiques et des données offerte par les conteneurs et le stockage objet.
Pour accélérer l’accès aux données et exploiter de nouvelles informations sans requêtes SQL, les entreprises mettent en place une couche sémantique intégrable et alimentée par l’IA. Il s’agit d’une couche de métadonnées et d’abstraction qui s’appuie sur les données sources de l’entreprise, telles que les data lakes ou les entrepôts de données. Les métadonnées enrichissent le modèle de données utilisé et sont suffisamment claires pour être comprises par les utilisateurs professionnels.
Les organisations peuvent accéder aux données hébergées dans un cloud hybride en connectant leurs environnements de stockage et d’analyse. Cet accès peut s’effectuer via un point d’entrée unique avec une couche de métadonnées partagée entre les clouds et les environnements sur site. Il est possible d’utiliser plusieurs moteurs de requête afin d’optimiser les workloads d’analyse et d’IA.
La création d’une couche de métadonnées partagée au sein d’un data lakehouse afin de cataloguer et de partager les données s’inscrit parmi les bonnes pratiques. Cela facilite la découverte et l’enrichissement, l’analyse des données issues de plusieurs sources, ainsi que l’exécution de plusieurs workloads et cas d’utilisation.
En outre, un outil de gestion des métadonnées partagées booste la gestion des objets au sein d’un référentiel partagé. Outre la suppression d’éléments d’un référentiel partagé, il permet d’ajouter un nouveau système hôte, une nouvelle base de données, un nouveau fichier de données ou un nouveau schéma.
Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.
Watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
1 Wire19.com : « Ways to ensure that your data is AI-ready », 14 juin 2024
2 Gartner : « Strategic Roadmap for Migrating Data Management Solutions to the Cloud », 27 septembre 2023