L’intelligence des données allie les principes fondamentaux de la gestion des données et des métadonnées à des outils avancés, tels que l’intelligence artificielle et le machine learning, pour aider les organisations à comprendre comment les données de l’entreprise sont produites et exploitées. Elle permet d’exploiter la valeur commerciale des données et d’alimenter la prise de décision fondée sur les données.
En d’autres termes, l’intelligence des données aide les entreprises à répondre à des questions fondamentales sur leurs données :
Quelles sont les données dont dispose l’organisation ? Pourquoi ces données existent-elles ?
D’où viennent les données et où se trouvent-elles ?
Qui utilise les données ? Comment sont-elles utilisées et comment devraient-elles l’être pour obtenir les meilleurs résultats ?
Comment les différents jeux de données sont-ils liés les uns aux autres ?
L’intelligence des données répond à ces questions grâce à un ensemble interconnecté de processus et d’outils permettant d’automatiser et de rationaliser la gestion des métadonnées, la découverte et la gouvernance des données, l’assurance qualité, l’analyse des données et d’autres activités.
Selon le Data Differentiator d’IBM, 68 % des données d’entreprise ne sont jamais analysées. En raison de la quantité de données à leur disposition, les entreprises peuvent avoir du mal à appliquer des contrôles de qualité et à mettre en œuvre des politiques de gouvernance. Les utilisateurs ne parviennent pas toujours à trouver les bonnes données pour leur travail, et ne savent peut-être même pas quand elles existent.
L’intelligence des données est née pour répondre à ce problème en réunissant les outils existants, tels que les catalogues de données, les solutions de traçabilité des données, les marketplaces de données, l’intelligence artificielle (IA) et le machine learning (ML), en un processus unique et complet.
Ce procédé unifié permet aux organisations de mieux connaître leurs données et de les exploiter au mieux. L’intelligence des données permet ainsi de réaliser des analyses en libre-service et de soutenir des initiatives clés telles que la business intelligence et l’IA générative.
La gestion des données est une vaste discipline qui supervise l’ensemble du cycle de vie des données, de leur création à leur destruction. Alors que la gestion des données concerne les aspects pratiques de la collecte, du stockage et du traitement des données, l’intelligence des données porte sur la compréhension de ces données.
L’intelligence des données accompagne la gestion des données en fournissant aux organisations les informations dont elles ont besoin pour faire des choix plus éclairés en matière de collecte, de sécurisation, de nettoyage et de partage des données.
Depuis l’avènement du Web 2.0 et du cloud computing, les entreprises collectent de plus en plus de données (clients, opérationnelles, transactionnelles) à partir d’un plus grand nombre de sources de données (applications Web, systèmes métier, appareils de l’Internet des objets). La naissance de l’IA générative n’a fait qu’augmenter la valeur et la quantité de toutes ces données.
Gérer ces données, c’est-à-dire suivre leur utilisation et leur évolution, les stocker en toute sécurité, en faciliter l’accès, les nettoyer et les mettre à jour, peut s’avérer difficile. Si les données ne sont pas correctement gérées, les consommateurs peuvent avoir du mal à trouver les données dont ils ont besoin, et encore plus à en tirer des informations exploitables.
Les organisations disposent depuis longtemps des capacités nécessaires pour gérer les données : outils de traçabilité des données pour cartographier les cycles de vie des données de bout en bout, outils de gouvernance pour définir les politiques d’utilisation, outils de profilage et de nettoyage des données, et plus encore. Toutefois, ces capacités étaient souvent fragmentées, dispersées dans des produits et des fonctions disparates.
La principale innovation du domaine de l’intelligence des données est de réunir ces outils avec des technologies avancées d’IA et de ML, soit dans une plateforme unique, soit dans une pile de données étroitement intégrée.
Selon IDC, bon nombre des plateformes actuelles d’intelligence des données ont évolué à partir d’outils de catalogues de données. Depuis 2020, les fournisseurs ont de plus en plus groupé leurs catalogues avec des solutions complémentaires, telles que des outils de traçabilité des données et des marketplaces de données, ou ont intégré ces fonctions directement dans leurs catalogues.1
L’intelligence des données est un domaine en développement, avec différents fournisseurs et spécialistes ayant leur propre vision de la discipline. Cependant, la plupart s’accordent à dire que l’intelligence des données comprend cinq grandes fonctions :
Les métadonnées sont des informations sur un point de données ou un jeu de données, comme l’auteur ou la taille d’un fichier. Leur gestion est fondamentale pour les initiatives d’intelligence économique, car des métadonnées bien gérées aident les utilisateurs à parcourir facilement des systèmes de données complexes.
La gestion des métadonnées permet d’organiser, d’étiqueter, de filtrer et de trier les jeux de données afin que les utilisateurs aient une vue d’ensemble des données dont ils disposent et qu’ils puissent retrouver rapidement les informations dont ils ont besoin.
La gestion active des métadonnées est particulièrement importante pour l’intelligence des données. Alors que la gestion traditionnelle des métadonnées est largement manuelle, la gestion active des métadonnées utilise l’IA et le ML pour automatiser le traitement des métadonnées.
Les métadonnées peuvent changer à mesure que les données sont transformées et utilisées. La gestion active des métadonnées suit ces changements, met automatiquement à jour les métadonnées et les exploite pour générer des recommandations et des alertes. Elle peut ainsi rationaliser la découverte des données, améliorer la confiance dans celles-ci et permettre la protection et la gouvernance des données à grande échelle.
La traçabilité des données est le processus de suivi du flux de données au fil du temps. Elle permet de comprendre clairement l’origine des données, leur évolution et leur destination finale dans le pipeline de données.
Grâce à elle, les utilisateurs comprennent comment les données changent tout au long de leur cycle de vie, améliorant ainsi la fiabilité des données de l’entreprise. La traçabilité des données aide également les organisations à détecter les erreurs, à identifier les dépendances et à anticiper la manière dont les changements apportés à un jeu de données peuvent influer sur les opérations et les systèmes informatiques de l’entreprise dans son ensemble.
La gouvernance des données permet de garantir l’intégrité et la sécurité des données en définissant et en mettant en œuvre des politiques, des normes et des procédures pour la collecte, la possession, le stockage, le traitement et l’utilisation des données.
Elle contribue à maintenir des données sûres et de qualité, facilement accessibles et conformes aux règles et réglementations en vigueur. Dans le cadre des efforts d’intelligence des données, les politiques de gouvernance aident les utilisateurs à comprendre comment ils peuvent et doivent exploiter les données.
Elles peuvent, par exemple, empêcher les data scientists d’alimenter les modèles d’IA avec des données sensibles sur les clients, en violation des lois sur la confidentialité des données.
Les outils et pratiques de qualité des données permettent de garantir l’exactitude, l’exhaustivité, la validité, la cohérence, l’unicité, l’actualité et l’adéquation à l’objectif d’un jeu de données. Les efforts en matière de qualité des données renforcent la confiance des utilisateurs dans les conclusions et les informations qu’ils tirent des données de l’entreprise.
Les initiatives en matière de qualité des données incluent souvent la master data management (gestion des données de référence, MDM). Il s’agit des données de base d’une organisation sur les principales entités commerciales, telles que les clients, les produits et les sites. La MDM garantit que ces données sont propres et cohérentes grâce à la validation, à la fusion, à la déduplication et à l’enrichissement.
L’intégration des données est le processus qui consiste à regrouper et à harmoniser des données provenant de sources multiples afin de faciliter leur utilisation à des fins d’analyse, d’exploitation et de prise de décision. Elle peut impliquer la standardisation des formats de données, la transformation des données dans des formats plus exploitables et le regroupement de données provenant de sources disparates dans des data lakes, des entrepôts de données ou des data lakehouses partagés.
L’intégration des données rationalise l’accès aux données et leur partage, ce qui permet aux consommateurs de trouver plus facilement les données dont ils ont besoin et de collaborer entre eux.
Certains fournisseurs proposent des plateformes d’intelligence des données qui réunissent diverses caractéristiques et fonctions en une seule solution. D’autres proposent des portefeuilles intégrés de solutions complémentaires. Dans les deux cas, les outils technologiques fondamentaux qui sous-tendent la plupart des initiatives d’intelligence des données sont les suivants :
Un catalogue de données utilise des métadonnées pour créer un inventaire détaillé et consultable de tous les actifs de données d’une organisation. Cela permet aux consommateurs de données de découvrir facilement les informations les plus adaptées à tout objectif d’analyse ou métier.
Au-delà de l’inventaire des données, de nombreux catalogues de données modernes sont dotés de fonctionnalités telles que :
Des mécanismes de gouvernance des données, y compris la possibilité de définir et d’appliquer des politiques d’utilisation et de confidentialité des données, par exemple en expurgeant automatiquement les informations sensibles.
La gestion active des métadonnées, en utilisant l’IA et le ML pour générer automatiquement des métadonnées et mettre à jour les enregistrements à mesure que les données changent.
Les glossaires métier, qui permettent aux organisations de créer des définitions et des cadres standard pour les termes clés, les concepts et les entités de base dans l’ensemble de l’organisation.
Les contrôles de la qualité des données, tels que le profilage, le nettoyage, la validation et les indicateurs de qualité des données.
Les outils de traçabilité des données cartographient automatiquement les flux de données, les transformations et les dépendances, fournissant ainsi des informations clés sur le cycle de vie des données. Les solutions de traçabilité des données permettent aux organisations de connaître l’origine des données, leur parcours dans l’écosystème informatique de l’entreprise, leur évolution et l’utilisation qu’en font les consommateurs de données.
Également appelées hubs de produits de données, les marketplaces de données sont des plateformes numériques sur lesquelles les utilisateurs peuvent accéder à des produits de données et les partager.
Les produits de données sont des jeux de données ou d’actifs liés aux données, prétraités, prêts à l’emploi et facilement consommables, que les utilisateurs peuvent utiliser pour soutenir les efforts de BI, d’analyse et de science des données. Les produits de données comprennent par exemple les jeux de données, les tableaux de bord analytiques, les modèles de machine learning, les applications spécialisées et les visualisations de données.
Les marketplaces de données centralisent et rationalisent la création, l’organisation, la gestion et le partage des produits de données. Elles contribuent à garantir la qualité des données et la conformité avec les cadres de gouvernance intégrés. Elles éliminent également les silos de données en automatisant la fourniture de produits de données et en permettant le partage à grande échelle de produits de données provenant de sources disparates.
Les outils d’IA et de ML, les nouvelles applications d’IA générative et les grands modèles de langage (LLM), contribuent à porter les pratiques d’intelligence des données au-delà de la gestion traditionnelle des données. Qu’il s’agisse de solutions autonomes ou intégrées à d’autres outils, l’IA et le ML peuvent automatiser l’enrichissement des données et des métadonnées, rationaliser le data mining et permettre une gestion avancée des données d’IA.
Ainsi, un LLM intégré peut générer et mettre à jour automatiquement des métadonnées dans un catalogue de données, fournissant des explications plus conviviales pour rendre les données plus accessibles à davantage de parties prenantes. Grâce aux interfaces en langage naturel alimentées par les LLM, les utilisateurs peuvent interroger des ensembles de données et obtenir des informations sur les données sans devoir utiliser un langage de requête structuré (SQL) ou d’autres langages spécialisés.
Les outils d’IA peuvent également contribuer à l’application des politiques de gouvernance et des contrôles de qualité, par exemple en découvrant et en classant les données sensibles ou en identifiant les jeux de données en double.
Les data lakes, les entrepôts de données et les data lakehouses sont des solutions de gestion et de stockage des données aux caractéristiques et aux fonctions différentes.
Les entrepôts de données agrègent, nettoient et préparent les données afin qu’elles puissent être utilisées dans le cadre de la business intelligence et de l’analyse de données.
Les data lakes permettent de stocker de grandes quantités de données brutes à faible coût.
Les data lakehouses réunissent en une seule solution le stockage flexible des données d’un lake et les capacités analytiques à haute performance d’un entrepôt.
Les entrepôts, les lakes et les lakehouses soutiennent les efforts d’intégration des données en permettant aux organisations de rassembler des données provenant de différentes sources dans des sites centralisés. Ils facilitent également l’accès à ces données et leur utilisation à des fins d’analyse, de BI, d’IA, de ML et de science des données.
L’intelligence des données aide les organisations à :
comprendre leurs données grâce à des catalogues de données complets, des outils de traçabilité des données et une gestion active des métadonnées ;
faciliter l’accès aux données grâce à des catalogues de données consultables, des magasins de données intégrés et des centres de produits de données centralisés ;
garantir la qualité des données grâce à la mise à jour automatique des métadonnées, au profilage et au nettoyage des données ;
orienter l’utilisation des données grâce à des politiques de gouvernance définies et à des hubs de produits de données qui hébergent des actifs adaptés à des utilisations spécifiques.
Les organisations peuvent ainsi bénéficier des avantages suivants :
L’intelligence des données favorise la littératie des données et permet l’analyse en libre-service en donnant aux utilisateurs les informations dont ils ont besoin pour comprendre et utiliser les données de l’entreprise. Toutes les parties prenantes, peu importe leur niveau ou leur rôle, peuvent se servir des données pour prendre des décisions plus éclairées.
Selon le Data Differentiator d’IBM, 82 % des entreprises sont confrontées à des silos de données qui entravent les principaux workflows. L’intelligence des données permet d’éradiquer ces silos et de réduire la complexité de l’infrastructure de données grâce à des catalogues de données et des marketplaces centralisés et unifiés.
L’ensemble des utilisateurs de l’entreprise peuvent ainsi accéder aux données qui les intéressent, ce qui permet de rationaliser l’efficacité opérationnelle et de stimuler la collaboration.
Selon Gartner, les entreprises perdent en moyenne 12,9 millions de dollars en raison de la mauvaise qualité des données.2 Grâce aux efforts de traçabilité, de profilage et de gouvernance des données, l’intelligence des données garantit des niveaux élevés de qualité des données afin que les entreprises puissent tirer davantage de valeur de leurs données.
L’intelligence des données intègre des cadres de gouvernance dans les principaux points d’accès aux données, tels que les catalogues et les marketplaces de données. Ainsi, les consommateurs de données n’utilisent les données qu’à des fins autorisées, ce qui les protège contre le piratage, le vol, l’utilisation abusive et la non-conformité. La gouvernance est particulièrement importante pour les secteurs hautement réglementés tels que la finance et la santé.
Selon l’IBM Institute for Business Value, 72 % des PDG les plus performants reconnaissent que le fait de disposer des outils d’IA générative les plus avancés confère un avantage concurrentiel à leur organisation. Et l’IA générative avancée exige des volumes massifs de données de haute qualité, facilement accessibles.
L’intelligence des données permet d’améliorer la qualité des données, de faciliter leur accès et d’appliquer des politiques de gouvernance pour s’assurer que les données ne sont employées qu’à bon escient, un aspect essentiel de l’IA responsable.
Un cas d’utilisation particulier de l’intelligence des données concerne le domaine de l’intelligence des modèles d’IA. L’intelligence des modèles est la pratique qui consiste à comprendre, gérer et gouverner les cycles de vie des différents modèles d’IA et de ML dans le portefeuille d’une organisation.
Plutôt que de s’appuyer sur un modèle unique, de nombreuses organisations ont aujourd’hui recours à divers modèles à des fins différentes. Les initiatives d’intelligence des données donnent aux organisations la transparence dont elles ont besoin pour sélectionner les données adaptées aux bons modèles et pour les bonnes raisons.
Concrètement, l’intelligence des données peut aider les organisations à sélectionner les bonnes données en termes de gouvernance (ces données sont-elles autorisées à être utilisées dans ce modèle ?) et de pertinence (ces données sont-elles suffisamment précises et pertinentes pour ce modèle ?).
De plus, nombre de fournisseurs intègrent des fonctions de gestion de modèles dans leurs solutions d’intelligence des données. Ainsi, certains catalogues de données introduisent des fonctions de catalogue de modèles, ce qui leur permet d’inventorier les modèles d’IA et de ML d’une organisation de la même manière qu’ils inventorient les données de l’entreprise.
L’intelligence des données permet de comprendre les données dont dispose une organisation : leurs caractéristiques, la manière d’y accéder et de les utiliser. L’analyse des données, la science des données et la business intelligence sont des façons d’exploiter ces données.
L’analyse des données permet d’extraire des données des informations exploitables afin de prendre de meilleures décisions. L’analyse des données peut prendre de nombreuses formes, telles que l’analyse prédictive (qui se sert des données pour faire des prédictions sur l’avenir) et l’analyse prescriptive (qui se sert des données pour décider de ce qu’il faut faire ensuite).
La science des données est une discipline spécialisée qui allie les mathématiques, les statistiques, la programmation, l’analyse avancée, l’IA, le ML et l’expertise en la matière.
La business intelligence (BI) désigne les outils et les techniques employés pour collecter, gérer et analyser les données de l’entreprise afin d’éclairer les activités opérationnelles.
L’intelligence des données facilite l’analyse des données, la science des données et la BI en aidant les utilisateurs à mieux comprendre et utiliser les jeux de données de leur organisation. Lorsque les utilisateurs connaissent le type de données dont dispose l’organisation et l’usage qu’ils peuvent en faire, ils accèdent plus facilement aux ensembles de données qui leur conviennent.
Les data scientists trouvent ainsi des données conformes et de haute qualité pour entraîner les algorithmes de machine learning. Les utilisateurs de BI peuvent trouver des jeux de données adaptés à leurs domaines spécifiques.
Tous les liens sont externes au site ibm.com.
1 IDC MarketScape: Worldwide Data Intelligence Platform Software 2024 Vendor Assessment, IDC, novembre 2024.
2 Data Quality: Best Practices for Accurate Insights, Gartner.
IBM nommé leader en matière d’outils d’intégration de données, pour la 19e année consécutive, dans l’édition 2024 du rapport Magic Quadrant™ de Gartner.
Découvrez pourquoi l’intelligence des données et l’intégration des données alimentées par l’IA sont essentielles pour préparer les données structurées et non structurées et accélérer les résultats de l’IA.
Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.
Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.
Générez des données pour l’IA et l’analytique grâce au catalogage intelligent et à la gestion des politiques. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.
Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.