Accueil

Thèmes

Dark data

Qu’est-ce qu’une dark data ?
Découvrir la solution Dark Data d’IBM S’inscrire pour recevoir les dernières informations sur l’IA
Illustration par un collage de pictogrammes représentant des nuages, un diagramme circulaire, des pictogrammes de graphique
Qu’est-ce qu’une dark data ?

Selon Gartner, les « dark data » désignent les informations que les entreprises collectent, traitent et stockent dans le cadre de leurs activités normales, mais qu’elles n’utilisent généralement pas à d’autres fins, telles que l’analyse, les relations commerciales et la monétisation directe.1

La plupart des entreprises stockent aujourd’hui de grandes quantités de dark data. Dans le sondage mondial de Splunk, mené auprès de plus de 1 300 décideurs commerciaux et informatiques, 60 % des personnes interrogées ont déclaré que la moitié ou plus des données de leur organisation sont considérées comme des « dark data ». Un tiers des personnes interrogées évoquent même un taux atteignant 75  % ou plus.2

Les dark data s’accumulent car les entreprises ont adopté l’idée qu’il était utile de stocker toutes les informations qu’elles pouvaient éventuellement capturer dans les grands data lakes. Cela est dû en partie à l’avènement du stockage peu coûteux, qui a permis de justifier facilement le stockage d’une telle quantité de données, au cas où elles pourraient être utiles un jour.

En fin de compte, la plupart des entreprises n’utilisent même pas une fraction de ce qu’elles stockent parce que le réservoir de stockage ne documente pas correctement les étiquettes de métadonnées, que certaines données sont dans un format que les outils intégrés ne peuvent pas lire ou que les données ne peuvent pas être récupérées par le biais d’une requête.

Les dark data constituent un facteur limitant majeur dans la production d’une bonne analyse de données, car la qualité de toute analyse de données dépend du corpus d’informations accessible aux outils d’analyse, à la fois rapidement et de manière détaillée.

Les « dark data » présentent d’autres problèmes, car elles engendrent des responsabilités, des coûts de stockage importants et des opportunités manquées car les équipes ne savent pas que les données sont potentiellement disponibles.

Pourquoi la gouvernance de l’IA est un impératif stratégique pour la mise à l’échelle de l’IA d’entreprise

Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.

Contenu connexe Obtenir le rapport IDC
Pourquoi les données disparaissent-elles ?

Les raisons pour lesquelles les données d’une organisation disparaissent sont nombreuses, notamment :

  • Un manque de sensibilisation : les données obtenues dans le cadre des opérations métier normales sont souvent sombres parce que les organisations ne sont pas conscientes de leur vie ou ne comprennent pas leur valeur ou leur pertinence.

  • Des données bloquées dans des silos : lorsque différents services d’une organisation collectent et stockent des données indépendamment, cela peut conduire à une fragmentation et à un isolement des données. Ces silos de données peuvent ne pas être accessibles ou visibles pour d’autres équipes, qui trouveraient potentiellement les données fort utiles.

  • Une absence de gouvernance des données : sans un cadre de gouvernance des données robuste, les organisations peuvent avoir du mal à gérer et à suivre efficacement les données de leur écosystème. Résultat : les données sont désorganisées, perdues et inutilisables.

  • Des systèmes hérités : à mesure que les organisations mettent à niveau leur logiciel et leur matériel, les anciens systèmes peuvent être mis hors service ou devenir moins pertinents. Les données stockées dans ces anciens systèmes ne sont pas prises en compte si elles ne peuvent pas être intégrées dans les outils d’analyse modernes de l’organisation.

  • Une intégration incomplète des données :  des processus d’intégration de données incomplets ou inefficaces peuvent entraîner des lacunes et des incohérences dans les données. Cela peut rendre certains jeux de données inaccessibles ou ne pas les relier correctement à d’autres sources de données.

  • L’évolution des priorités de l’entreprise : au fur et à mesure que les priorités de l’entreprise évoluent, certains jeux de données peuvent perdre de leur pertinence ou ne plus être pris en compte. Les données qui étaient autrefois utilisées activement peuvent être laissées dans l’obscurité à mesure que les objectifs de l’organisation changent.

  • Des ressources et une littératie limitées : les organisations dont les ressources sont limitées peuvent privilégier la collecte et le stockage des données par rapport à l’analyse des données. En outre, une connaissance insuffisante des données de la part des employés peut entraver la découverte et l’utilisation de données précieuses.

  • Des problèmes de qualité des données : les données de mauvaise qualité, telles que les données inexactes ou incomplètes, peuvent conduire à ce que les données soient négligées ou ignorées. Les données perçues comme peu fiables sont moins susceptibles d’être utilisées, ce qui les rend effectivement sombres.

  • Les objectifs de conformité réglementaire : de nombreuses règles de conformité et de gouvernance obligent les organisations à suivre des réglementations strictes pendant la durée de stockage des données sensibles. Elles finissent souvent par les stocker bien après la période obligatoire parce qu’elles ne parviennent pas à garder une trace des données sensibles qui doivent être détruites.

  • Des données redondantes, obsolètes et inutiles (ROT) : les données ROT apparaissent lorsque les employés enregistrent plusieurs copies des mêmes informations, des informations obsolètes et des informations superflues qui n’aident pas l’organisation à atteindre ses objectifs.
Types de dark data

En termes de visibilité pour des initiatives d’analyse de données complètes et opportunes, les dark data peuvent être des données structurées, non structurées ou semi-structurées.   

Les données structurées sont des informations ajoutées à des champs de feuille de calcul ou de base de données clairement définis avant d’être stockées.

Les fichiers journaux des serveurs, les données des capteurs de l’Internet des objets (IoT), les bases de données de gestion de la relation client (CRM) et les systèmes de planification des ressources d’entreprise (ERP) sont des exemples de données obscures créées à partir de sources de données structurées.

Bien que la plupart des données sensibles, telles que les relevés bancaires électroniques, les dossiers médicaux et les données client chiffrées, soient généralement structurées, elles sont difficiles à afficher et à catégoriser en raison de problèmes d’autorisation.

Contrairement aux données structurées, les données non structurées comprennent des informations qui ne peuvent pas être organisées dans des bases de données ou des feuilles de calcul à des fins d’analyse sans conversion, codification, hiérarchisation et structuration.

Les correspondances par e-mail, les PDF, les documents texte, les publications sur les réseaux sociaux, les enregistrements de centres d’appels, les journaux de chat et les séquences vidéo de surveillance sont des exemples de dark data créées à partir de sources de données non structurées.

Les données semi-structurées sont des données non structurées qui contiennent des informations dans des champs de données définis. Bien qu’elles ne soient pas aussi faciles à découvrir que les données structurées, elles peuvent être recherchées ou cataloguées.

Parmi les exemples, citons le code HTML, les factures, les graphiques, les tableaux et les documents XML.

Les coûts du dark data

Les coûts de stockage des dark data peuvent être importants et s’étendre bien au-delà du coût financier direct du stockage des dark data. Les coûts directs et indirects comprennent :

Coûts du stockage des données

Le stockage des données, même si elles ne sont pas utilisées activement, nécessite une infrastructure de stockage physique ou numérique. Cela peut inclure des serveurs, des centres de données, des solutions de stockage cloud et des systèmes de sauvegarde. Plus votre écosystème comporte de données, plus vous avez besoin d’une capacité de stockage de données importante, ce qui entraîne une augmentation des coûts d’infrastructure.

Coûts liés à la responsabilité

Au cours des dernières années, les gouvernements ont adopté une série de lois internationales sur la protection de la vie privée, qui s’appliquent à toutes les données, même celles qui ne sont pas utilisées dans les référentiels d’analyse.

Coûts d’opportunité

De nombreuses entreprises perdent des opportunités en se privant de l’utilisation de ces données. Bien qu’il soit utile de se débarrasser des dark data qui ne sont pas exploitables (en raison des risques et des coûts), il est préférable d’analyser d’abord les données disponibles pour déterminer celles qui pourraient l’être.

Coûts liés à l’inefficacité

La gestion de grands volumes de données, y compris le dark data, peut ralentir les processus de récupération et d’analyse des données. Les employés passent plus de temps à rechercher des informations pertinentes, ce qui entraîne une baisse de productivité et une augmentation des coûts de main-d’œuvre.

Coûts liés aux risques

Les dark data peuvent présenter des risques en cas de cybersécurité défaillante, de violations de données , de violation de la conformité et de perte de données. Ces risques peuvent entraîner des dommages sur la réputation et des conséquences financières.

Problèmes de qualité des données et dark data

Parfois, des dark data sont créées en raison de problèmes de qualité des données.

Par exemple, la transcription d’un enregistrement audio est automatiquement générée, mais l’IA qui a créé la transcription fait quelques erreurs dans la transcription. Certains conservent la transcription, en pensant qu’ils pourront résoudre le problème à un moment donné, ce qui n’est jamais le cas.

Lorsque les organisations tentent de nettoyer des données de mauvaise qualité, elles passent parfois à côté de la cause du problème. Sans une bonne compréhension, il est impossible de s’assurer que le problème de la qualité des données ne se reproduira pas à l’avenir.

Cette situation devient alors cyclique, car plutôt que d’utiliser simplement des politiques de suppression des dark data inutilisées, les organisations les délaissent, ce qui contribue à un problème croissant de qualité des données.

Heureusement, il existe trois étapes de gestion de la qualité des données que les organisations peuvent prendre pour atténuer ce problème :

  1. Analyser et identifier la situation « en l’état » : pour hiérarchiser les problèmes, identifiez d’abord tous les problèmes en cours, les normes existantes relatives aux données et l’impact métier.

  2. Éviter la récurrence des données incorrectes :  évaluez ensuite la cause profonde de chaque problème et appliquez des ressources pour résoudre le problème de manière durable afin qu’il ne se reproduise plus.

  3. Communiquer à intervalles réguliers : partagez les événements, les activités de l’équipe, l’impact de ce travail et le lien entre ces efforts et les objectifs de l’entreprise.
Comment mettre en avant les dark data ?

Malgré tous les coûts et les problèmes de qualité des données liés aux dark data, il existe des avantages. Comme le dit Splunk, « les dark data peuvent être l’une des plus grandes ressources inexploitées d’une organisation ».3

En adoptant une approche proactive de la gestion des dark data, les organisations peuvent les mettre en avant. Cela permet non seulement de réduire les responsabilités et les coûts, mais aussi de donner aux équipes les ressources dont elles ont besoin pour découvrir des informations à partir de données cachées.

Lorsqu’il s’agit de gérer les dark data et de les utiliser éventuellement pour prendre de meilleures décisions fondées sur les données, il existe plusieurs bonnes pratiques à suivre :

Éliminer les silos

Les dark data sont souvent dus à des silos au sein de l’organisation. Une équipe crée des données qui pourraient être utiles à une autre, mais cette autre équipe ne le sait pas. En brisant ces silos, vous mettez ces données à la disposition de l’équipe qui en a besoin. Il s’agit là de mettre la main sur un trésor immense.

Améliorer la gestion des données

Il est important de comprendre quelles données existent au sein de l’organisation. Cet effort commence par classer toutes les données afin d’obtenir une vue complète et précise. À partir de là, les équipes peuvent commencer à mieux organiser leurs données dans le but de permettre aux membres de l’équipe de trouver et d’utiliser plus facilement ce dont ils ont besoin.

Définir des politiques de gouvernance des données

L’introduction d’une politique de gouvernance des données peut contribuer à améliorer ce défi à long terme. Cette politique doit couvrir la manière dont toutes les données entrantes sont examinées et offrir des directives claires sur ce qui doit être conservé (et organisé pour maintenir une gestion claire des données), archivé ou détruit. Une partie importante de cette politique consiste à définir clairement quelles données doivent être détruites et à quel moment. Mettre en œuvre une gouvernance des données et réviser régulièrement les pratiques permet de réduire la quantité de dark data qui ne seront jamais exploitées.

Utiliser les outils de ML et d’IA pour analyser les données

Pour faciliter la découverte des dark data, le machine learning (ML) et l’intelligence artificielle (IA) peuvent faire le gros du travail de catégorisation des dark data en analysant les données susceptibles de contenir des informations précieuses. En outre, l’automatisation du ML peut contribuer à la conformité aux réglementations en matière de confidentialité des données en masquant automatiquement les informations sensibles des données stockées.

Produits associés
IBM Databand

IBM Databand est un logiciel d’observabilité pour les entrepôts et pipelines de données. Il collecte automatiquement les métadonnées pour créer des lignes de base historiques, détecter les anomalies et trier les alertes afin de résoudre les problèmes de qualité des données.

Découvrir Databand

IBM DataStage

En prenant en charge les modèles ETL et ELT, IBM DataStage offre une intégration flexible et en temps quasi réel des données sur site et dans le cloud.

Explorer DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog est un catalogue de données intelligent optimisé pour l'IA, conçu pour faciliter l’accès, le classement et le partage des données, des actifs de connaissances et de leurs relations, où qu’ils se trouvent.

Explorer Knowledge Catalog
Ressources Qu’est-ce que la science des données ?

Découvrez ce qu’est la science des données et comment elle peut fournir des informations métier, accélérer la transformation numérique et permettre une prise de décision fondée sur les données.

Qu’est-ce que l’intelligence artificielle (IA) ?

Découvrez ce qu’est l’IA, ses différents catégories, l’histoire de l’IA et pourquoi l’IA générative a considérablement accéléré l’adoption de l’IA dans les entreprises.

6 piliers de la qualité des données et comment améliorer vos données

Découvrez pourquoi des données de haute qualité sont essentielles pour prendre des décisions éclairées, effectuer des analyses précises et développer des stratégies efficaces.

Que faire avec les dark data ?

Chaque entreprise accumule des dark data. Découvrez comment les outils de gestion peuvent transformer une responsabilité coûteuse en une ressource précieuse recelant une myriade d’opportunités inexploitées.

Passez à l’étape suivante

Mettez en œuvre une observabilité proactive des données avec IBM Databand dès aujourd’hui afin d’être au courant des problèmes d’intégrité des données avant vos utilisateurs.

Découvrir Databand Réserver une démo en direct
Notes de bas de page

1 Glossaire Gartner (lien externe à ibm.com), Gartner

2 L’état des données sombres (lien externe à ibm.com), Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data (lien externe à ibm.com), Splunk, le 3 août 2023