Qu’est-ce qu’une dark data ?

Les dark data sont les informations que les organisations accumulent, mais qu’elles n’utilisent souvent jamais à des fins d’analytique ou de prise de décision.

La plupart des entreprises stockent aujourd’hui de grandes quantités de dark data. Dans le sondage mondial de Splunk, mené auprès de plus de 1 300 décideurs commerciaux et informatiques, 60 % des personnes interrogées ont déclaré que la moitié ou plus des données de leur entreprise sont considérées comme des « dark data ». Un tiers des personnes interrogées évoquent même un taux atteignant 75 % ou plus.¹

Les dark data s’accumulent car les entreprises ont adopté l’idée qu’il était utile de stocker toutes les informations qu’elles pouvaient éventuellement capturer dans les grands data lakes. Cela est dû en partie à l’avènement du stockage peu coûteux, qui a permis de justifier facilement le stockage d’une telle quantité de données, au cas où elles pourraient être utiles un jour.

En fin de compte, la plupart des entreprises n’utilisent même pas une fraction de ce qu’elles stockent parce que le réservoir de stockage ne documente pas correctement les étiquettes de métadonnées, que certaines données sont dans un format que les outils intégrés ne peuvent pas lire ou que les données ne peuvent pas être récupérées par le biais d’une requête.

Les dark data constituent un facteur limitant majeur dans la production d’une bonne analyse de données, car la qualité de toute analyse de données dépend du corpus d’informations accessible aux outils d’analyse, à la fois rapidement et de manière détaillée.

Les « dark data » présentent d’autres problèmes, car elles engendrent des responsabilités, des coûts de stockage importants et des opportunités manquées car les équipes ne savent pas que les données sont potentiellement disponibles.

Badge du Top 50 des meilleurs produits de gestion informatique

IBM watsonx.governance

S’est distingué dans la catégorie des meilleurs produits de gestion informatique au sein du Palmarès G2 2026 des meilleurs logiciels

Pourquoi les données disparaissent-elles ?

Les raisons pour lesquelles les données d’une organisation disparaissent sont nombreuses, notamment :

Un manque de sensibilisation : les données obtenues dans le cadre des opérations métier normales sont souvent sombres parce que les entreprises ne sont pas conscientes de leur existence ou ne comprennent pas leur valeur ou leur pertinence.
Des données bloquées dans des silos : lorsque différents services d’une entreprise collectent et stockent des données indépendamment, cela peut conduire à une fragmentation et à un isolement des données. Ces silos de données peuvent ne pas être accessibles ou visibles pour d’autres équipes, qui trouveraient potentiellement les données utiles.
Une absence de gouvernance des données : sans un cadre de gouvernance des données robuste, les entreprises pourraient avoir du mal à gérer et à suivre efficacement les données de leur écosystème. Résultat : les données sont désorganisées, perdues et inutilisables.
Des systèmes hérités : à mesure que les entreprises mettent à niveau leur logiciel et leur matériel, les anciens systèmes pourraient être mis hors service ou devenir moins pertinents. Les données stockées dans ces anciens systèmes ne sont pas prises en compte si elles ne peuvent pas être intégrées dans les outils d’analyse modernes de l’entreprise.
Une intégration incomplète des données : des processus d’intégration de données incomplets ou inefficaces peuvent entraîner des lacunes et des incohérences dans les données. Cela peut rendre certains jeux de données inaccessibles ou ne pas les relier correctement à d’autres sources de données.
L’évolution des priorités de l’entreprise : au fur et à mesure que les priorités de l’entreprise évoluent, certains jeux de données pourraient perdre de leur pertinence ou ne plus être pris en compte. Les données qui étaient autrefois utilisées activement pourraient être laissées dans l’obscurité à mesure que les objectifs de l’organisation changent.
Des ressources et une littératie limitées : les entreprises dont les ressources sont limitées pourraient privilégier la collecte et le stockage des données par rapport à l’analyse des données. En outre, une maîtrise insuffisante des données de la part des employés peut entraver la découverte et l’utilisation de données précieuses.
Des problèmes de qualité des données : les données de mauvaise qualité, telles que les données inexactes ou incomplètes, peuvent conduire à ce que les données soient négligées ou ignorées. Les données perçues comme peu fiables sont moins susceptibles d’être utilisées, ce qui les rend effectivement sombres.
Les objectifs de conformité réglementaire : de nombreuses règles de conformité et de gouvernance obligent les entreprises à suivre des réglementations strictes pendant la durée de stockage des données sensibles. Elles finissent souvent par les stocker bien après la période obligatoire parce qu’elles ne parviennent pas à suivre les données sensibles qui doivent être détruites.
Des données redondantes, obsolètes et inutiles (ROT) : les données ROT apparaissent lorsque les employés enregistrent plusieurs copies des mêmes informations, des informations obsolètes et des informations superflues qui n’aident pas l’organisation à atteindre ses objectifs.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Types de dark data

En termes de visibilité pour des initiatives d’analyse de données complètes et opportunes, les dark data peuvent être des données structurées, non structurées ou semi-structurées.

Les données structurées sont des informations ajoutées à des champs de feuille de calcul ou de base de données clairement définis avant d’être stockées.

Les fichiers journaux des serveurs, les données des capteurs de l’Internet des objets (IdO), les bases de données de gestion de la relation client (CRM) et les systèmes de planification des ressources d’entreprise (ERP) sont des exemples de données sombres créées à partir de sources de données structurées.

Bien que la plupart des données sensibles, telles que les relevés bancaires électroniques, les dossiers médicaux et les données client chiffrées, soient généralement structurées, elles sont difficiles à afficher et à catégoriser en raison de problèmes d’autorisation.

Contrairement aux données structurées, les données non structurées comprennent des informations qui ne peuvent pas être organisées dans des bases de données ou des feuilles de calcul à des fins d’analyse sans conversion, codification, hiérarchisation et structuration.

Les correspondances par e-mail, les PDF, les documents texte, les publications sur les réseaux sociaux, les enregistrements de centres d’appels, les journaux de chat et les séquences vidéo de surveillance sont des exemples de dark data créées à partir de sources de données non structurées.

Les données semi-structurées sont des données non structurées qui contiennent des informations dans des champs de données définis. Bien qu’elles ne soient pas aussi faciles à découvrir que les données structurées, elles peuvent être recherchées ou cataloguées.

Parmi les exemples, citons le code HTML, les factures, les graphiques, les tableaux et les documents XML.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Les coûts du dark data

Les coûts de stockage des dark data peuvent être importants et s’étendre bien au-delà du coût financier direct du stockage des dark data. Les coûts directs et indirects comprennent :

Coûts du stockage des données

Le stockage des données, même si elles ne sont pas utilisées activement, nécessite une infrastructure de stockage physique ou numérique. Cela peut inclure des serveurs, des centres de données, des solutions de stockage cloud et des systèmes de sauvegarde. Plus votre écosystème comporte de données, plus vous avez besoin d’une capacité de stockage de données importante, ce qui entraîne une augmentation des coûts d’infrastructure.

Coûts liés à la responsabilité

Au cours des dernières années, les gouvernements ont adopté une série de lois internationales sur la protection de la vie privée, qui s’appliquent à toutes les données, même celles qui ne sont pas utilisées dans les référentiels d’analyse.

Coûts d’opportunité

De nombreuses entreprises perdent des opportunités en se privant de l’utilisation de ces données. Bien qu’il soit utile de se débarrasser des dark data qui ne sont pas exploitables (en raison des risques et des coûts), il est préférable d’analyser d’abord les données disponibles pour déterminer celles qui pourraient l’être.

Coûts liés à l’inefficacité

La gestion de grands volumes de données, y compris les dark data, peut ralentir les processus de récupération et d’analyse des données. Les employés pourraient passer plus de temps à rechercher des informations pertinentes, entraînant une baisse de productivité et une augmentation des coûts de main-d’œuvre.

Coûts liés aux risques

Les dark data peuvent présenter des risques en cas de cybersécurité défaillante, de violations de données, de violation de la conformité et de perte de données. Ces risques peuvent ternir la réputation et entraîner des conséquences financières.

Problèmes de qualité des données et dark data

Parfois, des dark data sont créées en raison de problèmes de qualité des données.

Par exemple, la transcription d’un enregistrement audio est automatiquement générée, mais l’IA qui a créé la transcription fait quelques erreurs dans la transcription. Certains conservent la transcription, en pensant qu’ils pourront résoudre le problème à un moment donné, ce qui n’est pas le cas.

Lorsque les entreprises tentent de nettoyer des données de mauvaise qualité, elles passent parfois à côté de la cause du problème. Sans une bonne compréhension, il est impossible de s’assurer que le problème de qualité des données ne se reproduira pas à l’avenir.

Cette situation devient alors cyclique, car plutôt que d’utiliser simplement des politiques de suppression des dark data inutilisées, les organisations les délaissent, ce qui contribue à un problème croissant de qualité des données.

Heureusement, il existe trois étapes de gestion de la qualité des données que les entreprises peuvent suivre pour atténuer ce problème :

Analyser et identifier la situation « en l’état » : pour hiérarchiser les problèmes, identifiez d’abord tous les problèmes en cours, les normes existantes relatives aux données et l’impact métier.
Éviter la récurrence des données incorrectes : évaluez ensuite la cause profonde de chaque problème et appliquez des ressources pour résoudre le problème de manière durable afin qu’il ne se reproduise plus.
Communiquer à intervalles réguliers : partagez les événements, les activités de l’équipe, l’impact de ce travail et le lien entre ces efforts et les objectifs de l’entreprise.

Comment mettre en avant les dark data ?

Malgré tous les coûts et les problèmes de qualité des données liés aux dark data, il existe des avantages. Comme le dit Splunk, « les dark data peuvent être l’une des plus grandes ressources inexploitées d’une entreprise ».²

En adoptant une approche proactive de la gestion des dark data, les organisations peuvent les mettre en avant. Cela permet non seulement de réduire les responsabilités et les coûts, mais aussi de donner aux équipes les ressources dont elles ont besoin pour découvrir des informations à partir de données cachées.

Lorsqu’il s’agit de gérer les dark data et de les utiliser éventuellement pour prendre de meilleures décisions fondées sur les données, il existe plusieurs bonnes pratiques à suivre :

Éliminer les silos

Les dark data sont souvent dus à des silos au sein de l’organisation. Une équipe crée des données qui pourraient être utiles à une autre, mais cette autre équipe ne le sait pas. En brisant ces silos, vous mettez ces données à la disposition de l’équipe qui en a besoin. Il s’agit là de mettre la main sur un trésor immense.

Améliorer la gestion des données

Il est important de comprendre quelles données existent au sein de l’entreprise. Cet effort commence par classer toutes les données afin d’obtenir une vue complète et précise. À partir de là, les équipes peuvent commencer à mieux organiser leurs données dans le but de permettre aux membres de l’équipe de trouver et d’utiliser plus facilement ce dont ils ont besoin.

Définir des politiques de gouvernance des données

L’introduction d’une politique de gouvernance des données peut contribuer à améliorer ce défi à long terme. Cette politique doit couvrir la manière dont toutes les données entrantes sont examinées et offrir des directives claires sur ce qui doit être conservé (et organisé pour maintenir une gestion claire des données), archivé ou détruit. Une partie importante de cette politique consiste à définir clairement quelles données doivent être détruites et à quel moment. Mettre en œuvre une gouvernance des données et réviser régulièrement les pratiques permet de réduire la quantité de dark data qui ne seront pas exploitées.

Utiliser les outils de ML et d’IA pour analyser les données

Pour faciliter la découverte des dark data, le machine learning (ML) et l’intelligence artificielle (IA) peuvent faire le gros du travail de catégorisation des dark data en analysant les données susceptibles de contenir des informations précieuses. En outre, l’automatisation du ML peut contribuer à la conformité aux réglementations en matière de confidentialité des données en masquant automatiquement les informations sensibles dans les données stockées.

Techsplainers | Podcast

Écouter : « Qu’est-ce qu’une dark data ? »

Suivre le podcast Techsplainers : Spotify et Apple Podcasts

Trouver d’autres épisodes

Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Consultez le guide du responsable des données pour découvrir comment préparer les données de votre organisation à l'IA.

Ressources

Rendu 3D de plusieurs icônes alignées, comme un microphone et une caméra

Les agents d’IA s'appuient sur des données. Les vôtres sont-elles prêtes ?

Vos données sont votre avantage concurrentiel. Découvrez comment les exploiter en toute sécurité et générer un ROI mesurable grâce à l’IA dans ce court webinaire.

La gestion des données expliquée

Techsplainers by IBM présente l’essentiel des données pour l’IA, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Rendu 3D de plusieurs icônes alignées comme un bouton de volume et un presse-papiers

Unifiez vos données pour dimensionner votre IA

Découvrez pourquoi la mise en place de données adaptées à l’IA commence souvent par un accès efficace aux données structurées et non structurées, ainsi que les défis auxquels peuvent être confrontés les responsables des données.

Des frais juridiques aux informations stratégiques

Découvrez comment un agent juridique alimenté par l’IA aide à accélérer la prise de décision, à réduire le travail manuel et à améliorer la conformité.

Deux hommes qui discutent dans un podcast

AI Academy : Élaborer une stratégie de données pour l’IA d’entreprise

Dans cet épisode, Cathy Reese explique pourquoi les entreprises doivent aujourd’hui se doter d’une stratégie de données adaptée à l’IA avancée, en s’appuyant sur leurs ressources de données les plus qualitatives.

Rendu 3D de plusieurs icônes alignées telles qu’un appareil photo et des avions en papier

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

Rapport sur le coût d’une violation de données 2025

Les coûts liés aux violations de données ont atteint un nouveau sommet. Obtenez des informations actualisées sur les menaces de cybersécurité et leur incidence financière sur les entreprises.

Rendu 3D de deux lignes de plusieurs icônes telles qu’un appareil photo, un bouton de volume et un presse-papiers.

Guide du responsable des données adaptées à l’IA

Comprenez les mesures concrètes que les responsables des données peuvent prendre pour surmonter les défis en matière de données, établir les bases d'un socle de données de confiance et préparer les données de votre entreprise pour l’IA.

Rendu 3D de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Comment la direction transforme les informations en impact

Découvrez les retours de 1 700 CDO dans ce rapport intersectoriel dédié aux responsables de données.

Solutions connexes

IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets

IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Notes de bas de page

¹The State of Dark Data, Splunk, 2019

²Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 3 août 2023

Qu’est-ce qu’une dark data ?