今日、ほとんどの企業では膨大な量のダーク・データを保管しています。Splunk社が世界1,300社以上の事業とITの意思決定者を対象に行ったアンケート調査では、回答者の60％が、自社データの半分かそれ以上はダークであると考えられる、と報告しました。回答者の3分の1が、その量は75%以上になる、と報告しました。2

ダーク・データが蓄積されるのは、キャプチャできる情報を可能な限りすべてビッグデータレイクに保存することに価値がある、という考えを組織が採用したからです。一つには、安価なストレージの出現により、それほどの量のデータを保管することが正当化されやすかったためです、いつの日かそれが価値あるものになった場合に、ということです。

最終的に、ほとんどの企業では、保管するデータのほんの一部も利用することがありません。ストレージという貯蔵庫のメタデータ・ラベルが十分に文書化されていない、一部のデータが統合ツールで読み取れない形式になっている、データがクエリで取得できない、というのが理由です。

ダーク・データは、優れたデータ分析結果を出すためには大きな制限要因です。なぜなら、どのようなデータ分析でも、その質は、分析ツールで迅速に、かつディテールまでアクセスできる情報本体に左右されるからです。

ダーク・データに関する問題は他にもあります。チームがどのデータを利用できるかという潜在的可能性を認識していないことにより、負債や多額のストレージ・コストが発生し、機会を逸失していることです。