Gartner社によると、ダーク・データとは、組織が通常の事業アクティビティで収集、処理、保管する情報資産をいいますが、多くの場合、分析、ビジネス関係、直接的な収益化といった他の目的には利用されないでいます。1
今日、ほとんどの企業では膨大な量のダーク・データを保管しています。Splunk社が世界1,300社以上の事業とITの意思決定者を対象に行ったアンケート調査では、回答者の60%が、自社データの半分かそれ以上はダークであると考えられる、と報告しました。回答者の3分の1が、その量は75%以上になる、と報告しました。2
ダーク・データが蓄積されるのは、キャプチャできる情報を可能な限りすべてビッグデータレイクに保存することに価値がある、という考えを組織が採用したからです。一つには、安価なストレージの出現により、それほどの量のデータを保管することが正当化されやすかったためです、いつの日かそれが価値あるものになった場合に、ということです。
最終的に、ほとんどの企業では、保管するデータのほんの一部も利用することがありません。ストレージという貯蔵庫のメタデータ・ラベルが十分に文書化されていない、一部のデータが統合ツールで読み取れない形式になっている、データがクエリで取得できない、というのが理由です。
ダーク・データは、優れたデータ分析結果を出すためには大きな制限要因です。なぜなら、どのようなデータ分析でも、その質は、分析ツールで迅速に、かつディテールまでアクセスできる情報本体に左右されるからです。
ダーク・データに関する問題は他にもあります。チームがどのデータを利用できるかという潜在的可能性を認識していないことにより、負債や多額のストレージ・コストが発生し、機会を逸失していることです。
組織のデータがダークになる原因は数多くあります。次のようになります。
タイムリーかつ完全なデータ分析イニシアチブでの発見可能性という点で、ダーク・データは、構造化データかも知れませんし、非構造化データかも知れませんし、半構造化データかも知れません。
構造化データとは、明確に定義されているスプレッドシートまたはデータベース・フィールドに追加されてから保管されている情報です。
サーバーログファイル、モノのインターネット(IoT)センサーデータ、カスタマー・リレーションシップ管理(CRM)データベース、エンタープライズ・リソース・プランニング(ERP)システムは、構造化データ・ソースから作成されたダーク・データの例です。
機密データのほとんどは、電子化されている銀行取引明細書、医療記録、暗号化されている顧客データのように、通常は構造化された形式を取っていますが、権限の問題により、表示やカテゴリー分けがしにくくなっています。
構造化データとは異なり、非構造化データに入るのは、変換、成文化、階層化、構造化をしないと、データベースやスプレッドシートに整理して分析することができない情報です。
非構造化データ・ソースから作成されたダーク・データの例として挙げられるのは、電子メール通信、PDF、テキスト文書、ソーシャルメディアへの投稿、コールセンターの記録、チャットログ、監視カメラで撮影された映像などです。
半構造化データとは、何らかの情報が定義済みのデータ・フィールドに入っている非構造化データのことです。ダーク・データ検出は構造化データほど簡単ではありませんが、検索対象になり、カタログ化も可能です。
例としては、HTMLコード、請求書、グラフ、テーブル、XMLドキュメントなどが挙げられます。
ダーク・データ保管のコストは甚大になり、ダーク・データ・ストレージそのもににかかる経済的コストをはるかに超えます。直接コストと間接コストには、次のようなものがあります。
データの保管には、たとえアクティブに使用されていない場合でも、物理であれデジタルであれ、ストレージ・インフラストラクチャーが必要です。これに含まれるのは、サーバー、データセンター、クラウド・ストレージ・ソリューション、バックアップ・システムなどです。エコシステムのデータが増えるほど、必要となるデータ・ストレージ容量も増えるので、インフラストラクチャー・コストの増大につながります。
官公庁・自治体はここ数年来、グローバルなプライバシー法を数多く導入してきています。つまり、すべてのデータに適用されるのです。分析リポジトリーで使用されないままになっているデータにすらもです。
多くの企業は、このデータを活用しないことにより、複数の機会を逸しています。実際には使用できないダーク・データを捨て去ることは、リスクやコストからしても好ましいですが、まずアクセス可能なデータを分析し、使用できそうなものを特定しておくと得します。
ダークデータを含む大量のデータを管理していると、データの取得と分析のプロセスが遅くなります。従業員が関連情報の検索にかける時間が長くなるので、生産性の低下と人件費の増加につながります。
ダーク・データは、不十分なサイバーセキュリティー、データ侵害、コンプライアンス違反、データ損失という点で、リスク要因となります。こういうリスクは結果的に、風評被害や経済的影響をもたらすことがあります。
ダーク・データはデータ品質の問題が原因で作り出されることもあります。
たとえば、音声録音から自動的に文字起こしをしたが、文字起こしに使用されたAIによるミスが生じた、などです。そうした文字起こしを、ある時点で解決すると考えて保持する人もいますが、実際に解決することはありません。
品質の劣ったデータをクリーニングしようとする組織は、問題の原因を見逃してしまうことがあります。データ品質の問題を十分に把握していないと、今後も発生することがないようにするのは不可能です。
そうなると、この状況は周期的に発生します。なぜなら、一度も使用されないままになっているダーク・データを対象にした削除ポリシーを採用することもなく、そのままにしておく組織は、データ品質の問題の増大に寄与しているからです。
幸いなことに、データ品質管理の3つのステップがあります。組織が次のステップを踏まえることは、この問題を軽減する助けとなります。
ダーク・データのコストとデータ品質の問題すべてに、良い面があります。Splunk社が言うように、「ダーク・データは組織にとって最大の未開拓リソースの1つかもしれない」のです。3
ダークデータ管理にプロアクティブなアプローチを取る組織は、ダーク・データに光を当てることができます。そうすれば、負債とコストが削減されるだけでなく、チームは隠れたデータから洞察を見つけ出すのに必要なリソースも得られます。
ダーク・データを扱い、それを利用してデータに基づいたより良い意思決定を行う可能性があるとなれば、次のようなベスト・プラクティスに従うことが推奨されます。
ダーク・データはしばしば、組織内のサイロが原因で発生します。あるチームが別のチームにとって有用になりうるデータを作成しても、他のチームはそのことを知りません。そうしたサイロを解消すると、そのデータを必要とするチームが利用できるようになります。ただそこにあるだけのものから、絶大な価値をもたらすものになるのです。
どのようなデータが組織内に存在するのかを把握することが重要です。この取り組みは、組織内のすべてのデータを分類し、正確なビューを完成させることから始まります。チームはそこから、チームの誰もが必要なものを容易に見つけて使えるようにすることを目標に、データをきちんと整理し始めるのです。
データ・ガバナンス・ポリシーの導入は、長期的に課題を改善するのに役立ちます。このポリシーでは、収集されるすべてのデータのレビュー方法についてカバーして、また何を保持(して整理することでデータ管理の明確さを維持)し、アーカイブし、または破棄するのかについての明確なガイドラインを提供します。このポリシーで重要な部分は、どのデータをいつ破棄するのかを厳密に規定することです。データ・ガバナンスを実施し、プラクティスを定期的にレビューすることで、利用されることのないダーク・データの量を最小限に抑えることができます。
ダーク・データの発見を支援する機械学習(ML)と人工知能(AI)に、貴重な洞察を含む可能性のあるデータの分析を実行させると、ダーク・データをカテゴリー化するという面倒な作業も実行できます。さらに、機械学習の自動化によって、保管されているデータの機密情報が自動的に編集されるので、データ・プライバシーのコンプライアンス規制を遵守する助けともなります。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1 Gartner Glossary, Gartner
2 The State of Dark Data, Splunk, 2019
3 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 03 August 2023