Accueil
Thèmes
Dark data
Selon Gartner, les « dark data » désignent les informations que les entreprises collectent, traitent et stockent dans le cadre de leurs activités normales, mais qu’elles n’utilisent généralement pas à d’autres fins, telles que l’analyse, les relations commerciales et la monétisation directe.1
La plupart des entreprises stockent aujourd’hui de grandes quantités de dark data. Dans le sondage mondial de Splunk, mené auprès de plus de 1 300 décideurs commerciaux et informatiques, 60 % des personnes interrogées ont déclaré que la moitié ou plus des données de leur organisation sont considérées comme des « dark data ». Un tiers des personnes interrogées évoquent même un taux atteignant 75 % ou plus.2
Les dark data s’accumulent car les entreprises ont adopté l’idée qu’il était utile de stocker toutes les informations qu’elles pouvaient éventuellement capturer dans les grands data lakes. Cela est dû en partie à l’avènement du stockage peu coûteux, qui a permis de justifier facilement le stockage d’une telle quantité de données, au cas où elles pourraient être utiles un jour.
En fin de compte, la plupart des entreprises n’utilisent même pas une fraction de ce qu’elles stockent parce que le réservoir de stockage ne documente pas correctement les étiquettes de métadonnées, que certaines données sont dans un format que les outils intégrés ne peuvent pas lire ou que les données ne peuvent pas être récupérées par le biais d’une requête.
Les dark data constituent un facteur limitant majeur dans la production d’une bonne analyse de données, car la qualité de toute analyse de données dépend du corpus d’informations accessible aux outils d’analyse, à la fois rapidement et de manière détaillée.
Les « dark data » présentent d’autres problèmes, car elles engendrent des responsabilités, des coûts de stockage importants et des opportunités manquées car les équipes ne savent pas que les données sont potentiellement disponibles.
Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.
Les raisons pour lesquelles les données d’une organisation disparaissent sont nombreuses, notamment :
En termes de visibilité pour des initiatives d’analyse de données complètes et opportunes, les dark data peuvent être des données structurées, non structurées ou semi-structurées.
Les données structurées sont des informations ajoutées à des champs de feuille de calcul ou de base de données clairement définis avant d’être stockées.
Les fichiers journaux des serveurs, les données des capteurs de l’Internet des objets (IoT), les bases de données de gestion de la relation client (CRM) et les systèmes de planification des ressources d’entreprise (ERP) sont des exemples de données obscures créées à partir de sources de données structurées.
Bien que la plupart des données sensibles, telles que les relevés bancaires électroniques, les dossiers médicaux et les données client chiffrées, soient généralement structurées, elles sont difficiles à afficher et à catégoriser en raison de problèmes d’autorisation.
Contrairement aux données structurées, les données non structurées comprennent des informations qui ne peuvent pas être organisées dans des bases de données ou des feuilles de calcul à des fins d’analyse sans conversion, codification, hiérarchisation et structuration.
Les correspondances par e-mail, les PDF, les documents texte, les publications sur les réseaux sociaux, les enregistrements de centres d’appels, les journaux de chat et les séquences vidéo de surveillance sont des exemples de dark data créées à partir de sources de données non structurées.
Les données semi-structurées sont des données non structurées qui contiennent des informations dans des champs de données définis. Bien qu’elles ne soient pas aussi faciles à découvrir que les données structurées, elles peuvent être recherchées ou cataloguées.
Parmi les exemples, citons le code HTML, les factures, les graphiques, les tableaux et les documents XML.
Les coûts de stockage des dark data peuvent être importants et s’étendre bien au-delà du coût financier direct du stockage des dark data. Les coûts directs et indirects comprennent :
Le stockage des données, même si elles ne sont pas utilisées activement, nécessite une infrastructure de stockage physique ou numérique. Cela peut inclure des serveurs, des centres de données, des solutions de stockage cloud et des systèmes de sauvegarde. Plus votre écosystème comporte de données, plus vous avez besoin d’une capacité de stockage de données importante, ce qui entraîne une augmentation des coûts d’infrastructure.
Au cours des dernières années, les gouvernements ont adopté une série de lois internationales sur la protection de la vie privée, qui s’appliquent à toutes les données, même celles qui ne sont pas utilisées dans les référentiels d’analyse.
De nombreuses entreprises perdent des opportunités en se privant de l’utilisation de ces données. Bien qu’il soit utile de se débarrasser des dark data qui ne sont pas exploitables (en raison des risques et des coûts), il est préférable d’analyser d’abord les données disponibles pour déterminer celles qui pourraient l’être.
La gestion de grands volumes de données, y compris le dark data, peut ralentir les processus de récupération et d’analyse des données. Les employés passent plus de temps à rechercher des informations pertinentes, ce qui entraîne une baisse de productivité et une augmentation des coûts de main-d’œuvre.
Les dark data peuvent présenter des risques en cas de cybersécurité défaillante, de violations de données , de violation de la conformité et de perte de données. Ces risques peuvent entraîner des dommages sur la réputation et des conséquences financières.
Parfois, des dark data sont créées en raison de problèmes de qualité des données.
Par exemple, la transcription d’un enregistrement audio est automatiquement générée, mais l’IA qui a créé la transcription fait quelques erreurs dans la transcription. Certains conservent la transcription, en pensant qu’ils pourront résoudre le problème à un moment donné, ce qui n’est jamais le cas.
Lorsque les organisations tentent de nettoyer des données de mauvaise qualité, elles passent parfois à côté de la cause du problème. Sans une bonne compréhension, il est impossible de s’assurer que le problème de la qualité des données ne se reproduira pas à l’avenir.
Cette situation devient alors cyclique, car plutôt que d’utiliser simplement des politiques de suppression des dark data inutilisées, les organisations les délaissent, ce qui contribue à un problème croissant de qualité des données.
Heureusement, il existe trois étapes de gestion de la qualité des données que les organisations peuvent prendre pour atténuer ce problème :
Malgré tous les coûts et les problèmes de qualité des données liés aux dark data, il existe des avantages. Comme le dit Splunk, « les dark data peuvent être l’une des plus grandes ressources inexploitées d’une organisation ».3
En adoptant une approche proactive de la gestion des dark data, les organisations peuvent les mettre en avant. Cela permet non seulement de réduire les responsabilités et les coûts, mais aussi de donner aux équipes les ressources dont elles ont besoin pour découvrir des informations à partir de données cachées.
Lorsqu’il s’agit de gérer les dark data et de les utiliser éventuellement pour prendre de meilleures décisions fondées sur les données, il existe plusieurs bonnes pratiques à suivre :
Éliminer les silos
Les dark data sont souvent dus à des silos au sein de l’organisation. Une équipe crée des données qui pourraient être utiles à une autre, mais cette autre équipe ne le sait pas. En brisant ces silos, vous mettez ces données à la disposition de l’équipe qui en a besoin. Il s’agit là de mettre la main sur un trésor immense.
Améliorer la gestion des données
Il est important de comprendre quelles données existent au sein de l’organisation. Cet effort commence par classer toutes les données afin d’obtenir une vue complète et précise. À partir de là, les équipes peuvent commencer à mieux organiser leurs données dans le but de permettre aux membres de l’équipe de trouver et d’utiliser plus facilement ce dont ils ont besoin.
Définir des politiques de gouvernance des données
L’introduction d’une politique de gouvernance des données peut contribuer à améliorer ce défi à long terme. Cette politique doit couvrir la manière dont toutes les données entrantes sont examinées et offrir des directives claires sur ce qui doit être conservé (et organisé pour maintenir une gestion claire des données), archivé ou détruit. Une partie importante de cette politique consiste à définir clairement quelles données doivent être détruites et à quel moment. Mettre en œuvre une gouvernance des données et réviser régulièrement les pratiques permet de réduire la quantité de dark data qui ne seront jamais exploitées.
Utiliser les outils de ML et d’IA pour analyser les données
Pour faciliter la découverte des dark data, le machine learning (ML) et l’intelligence artificielle (IA) peuvent faire le gros du travail de catégorisation des dark data en analysant les données susceptibles de contenir des informations précieuses. En outre, l’automatisation du ML peut contribuer à la conformité aux réglementations en matière de confidentialité des données en masquant automatiquement les informations sensibles des données stockées.
IBM Databand est un logiciel d’observabilité pour les entrepôts et pipelines de données. Il collecte automatiquement les métadonnées pour créer des lignes de base historiques, détecter les anomalies et trier les alertes afin de résoudre les problèmes de qualité des données.
En prenant en charge les modèles ETL et ELT, IBM DataStage offre une intégration flexible et en temps quasi réel des données sur site et dans le cloud.
IBM® Knowledge Catalog est un catalogue de données intelligent optimisé pour l'IA, conçu pour faciliter l’accès, le classement et le partage des données, des actifs de connaissances et de leurs relations, où qu’ils se trouvent.
Découvrez ce qu’est la science des données et comment elle peut fournir des informations métier, accélérer la transformation numérique et permettre une prise de décision fondée sur les données.
Découvrez ce qu’est l’IA, ses différents catégories, l’histoire de l’IA et pourquoi l’IA générative a considérablement accéléré l’adoption de l’IA dans les entreprises.
Découvrez pourquoi des données de haute qualité sont essentielles pour prendre des décisions éclairées, effectuer des analyses précises et développer des stratégies efficaces.
Chaque entreprise accumule des dark data. Découvrez comment les outils de gestion peuvent transformer une responsabilité coûteuse en une ressource précieuse recelant une myriade d’opportunités inexploitées.
1 Glossaire Gartner (lien externe à ibm.com), Gartner
2 L’état des données sombres (lien externe à ibm.com), Splunk, 2019
3 Dark Data: Discovery, Uses & Benefits of Hidden Data (lien externe à ibm.com), Splunk, le 3 août 2023