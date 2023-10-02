La plupart des entreprises stockent aujourd’hui de grandes quantités de dark data. Dans le sondage mondial de Splunk, mené auprès de plus de 1 300 décideurs commerciaux et informatiques, 60 % des personnes interrogées ont déclaré que la moitié ou plus des données de leur organisation sont considérées comme des « dark data ». Un tiers des personnes interrogées évoquent même un taux atteignant 75 % ou plus.2

Les dark data s’accumulent car les entreprises ont adopté l’idée qu’il était utile de stocker toutes les informations qu’elles pouvaient éventuellement capturer dans les grands data lakes. Cela est dû en partie à l’avènement du stockage peu coûteux, qui a permis de justifier facilement le stockage d’une telle quantité de données, au cas où elles pourraient être utiles un jour.

En fin de compte, la plupart des entreprises n’utilisent même pas une fraction de ce qu’elles stockent parce que le réservoir de stockage ne documente pas correctement les étiquettes de métadonnées, que certaines données sont dans un format que les outils intégrés ne peuvent pas lire ou que les données ne peuvent pas être récupérées par le biais d’une requête.

Les dark data constituent un facteur limitant majeur dans la production d’une bonne analyse de données, car la qualité de toute analyse de données dépend du corpus d’informations accessible aux outils d’analyse, à la fois rapidement et de manière détaillée.

Les « dark data » présentent d’autres problèmes, car elles engendrent des responsabilités, des coûts de stockage importants et des opportunités manquées car les équipes ne savent pas que les données sont potentiellement disponibles.