ダーク・データとは

3人のプログラマーが共同オフィスで座って話している

ダーク・データとは

Gartner社によると、ダーク・データとは、組織が通常の事業アクティビティで収集、処理、保管する情報資産をいいますが、多くの場合、分析、ビジネス関係、直接的な収益化といった他の目的には利用されないでいます。1

今日、ほとんどの企業では膨大な量のダーク・データを保管しています。Splunk社が世界1,300社以上の事業とITの意思決定者を対象に行ったアンケート調査では、回答者の60%が、自社データの半分かそれ以上はダークであると考えられる、と報告しました。回答者の3分の1が、その量は75%以上になる、と報告しました。2

ダーク・データが蓄積されるのは、キャプチャできる情報を可能な限りすべてビッグデータレイクに保存することに価値がある、という考えを組織が採用したからです。一つには、安価なストレージの出現により、それほどの量のデータを保管することが正当化されやすかったためです、いつの日かそれが価値あるものになった場合に、ということです。

最終的に、ほとんどの企業では、保管するデータのほんの一部も利用することがありません。ストレージという貯蔵庫のメタデータ・ラベルが十分に文書化されていない、一部のデータが統合ツールで読み取れない形式になっている、データがクエリで取得できない、というのが理由です。

ダーク・データは、優れたデータ分析結果を出すためには大きな制限要因です。なぜなら、どのようなデータ分析でも、その質は、分析ツールで迅速に、かつディテールまでアクセスできる情報本体に左右されるからです。

ダーク・データに関する問題は他にもあります。チームがどのデータを利用できるかという潜在的可能性を認識していないことにより、負債や多額のストレージ・コストが発生し、機会を逸失していることです。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データがダークになる原因

組織のデータがダークになる原因は数多くあります。次のようになります。

  • 認識の欠如:通常のビジネス・オペレーションの過程で取得されるデータは、しばしばダークになります。組織がデータの存在を認識していないか、その価値や関連性を把握していないためです。

  • データのサイロ化:組織内の部署がそれぞれ他と無関係にデータを収集し保管していると、データの断片化や孤立化につながります。このようなデータサイロは、そのデータに大変な価値を見いだす可能性のある他のチームからアクセスできなくなっているか、見えなくなっています。

  • データ・ガバナンスの欠如:堅牢なデータ・ガバナンス・フレームワークが整っていない組織は、データをエコシステム全体で効果的に管理し追跡するのに苦慮することがあります。こうなると、データが整理されず、失われ、使えなくなります。

  • レガシーシステム:組織がソフトウェアやハードウェアをアップグレードすると、古いシステムは廃止されるか関連性が低くなります。こうしたレガシーシステムに保管されているデータは、組織の最新の分析ツールと統合できないと、ダークになります。

  • 不完全なデータ統合:データ統合プロセスが不完全か非効率的であると、結果的にデータのギャップが生じるか一貫性がなくなります。そうなれば、特定のデータ・セットにアクセスできないか、他のデータ・ソースに正しくリンクされないままになります。

  • ビジネスの優先順位の変化:ビジネスの優先順位が進化すると、特定のデータセットは関連性が薄れたり中心から外れたりすることがあります。かつては積極的に利用されていたデータも、組織の目的がシフトすると利用されなくなってダークになることがあります。

  • 限られたリソースとリテラシー:組織のリソースが限られていると、データ分析よりもデータ収集や保管が優先されることがあります。また、従業員のデータ・リテラシーが不十分だと、価値あるデータを見つけて活用することが妨げられます。

  • データ品質の問題:不正確なデータや不完全なデータなど、データ品質が低いと、データが軽視あるいは無視されることがあります。信頼性が低いことがわかったデータは利用される確率が低くなり、事実上ダークとなります。

  • 規制遵守目的:多くのコンプライアンスやガバナンスの基準により、組織には機密データの保管期間についての厳格な規制が適用されます。どの機密データを破棄すべきかを追跡できていないため、強制期間を過ぎても長きにわたって保管することになりがちなのです。

  • ROT(Redundant, Obsolete, Trivial)データ:ROTは、従業員が同じ情報のコピーを複数保存したり、古くなった情報や組織の目標達成に役立たない余計な情報を保存したりすることで発生します。
オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

ダーク・データのタイプ

タイムリーかつ完全なデータ分析イニシアチブでの発見可能性という点で、ダーク・データは、構造化データかも知れませんし、非構造化データかも知れませんし、半構造化データかも知れません。

構造化データとは、明確に定義されているスプレッドシートまたはデータベース・フィールドに追加されてから保管されている情報です。

サーバーログファイル、モノのインターネット(IoT)センサーデータ、カスタマー・リレーションシップ管理(CRM)データベース、エンタープライズ・リソース・プランニング(ERP)システムは、構造化データ・ソースから作成されたダーク・データの例です。

機密データのほとんどは、電子化されている銀行取引明細書、医療記録、暗号化されている顧客データのように、通常は構造化された形式を取っていますが、権限の問題により、表示やカテゴリー分けがしにくくなっています。

構造化データとは異なり、非構造化データに入るのは、変換、成文化、階層化、構造化をしないと、データベースやスプレッドシートに整理して分析することができない情報です。

非構造化データ・ソースから作成されたダーク・データの例として挙げられるのは、電子メール通信、PDF、テキスト文書、ソーシャルメディアへの投稿、コールセンターの記録、チャットログ、監視カメラで撮影された映像などです。

半構造化データとは、何らかの情報が定義済みのデータ・フィールドに入っている非構造化データのことです。ダーク・データ検出は構造化データほど簡単ではありませんが、検索対象になり、カタログ化も可能です。

例としては、HTMLコード、請求書、グラフ、テーブル、XMLドキュメントなどが挙げられます。

ダーク・データによるコスト

ダーク・データ保管のコストは甚大になり、ダーク・データ・ストレージそのもににかかる経済的コストをはるかに超えます。直接コストと間接コストには、次のようなものがあります。

データ・ストレージ・コスト

データの保管には、たとえアクティブに使用されていない場合でも、物理であれデジタルであれ、ストレージ・インフラストラクチャーが必要です。これに含まれるのは、サーバー、データセンター、クラウド・ストレージ・ソリューション、バックアップ・システムなどです。エコシステムのデータが増えるほど、必要となるデータ・ストレージ容量も増えるので、インフラストラクチャー・コストの増大につながります。

負債コスト

官公庁・自治体はここ数年来、グローバルなプライバシー法を数多く導入してきています。つまり、すべてのデータに適用されるのです。分析リポジトリーで使用されないままになっているデータにすらもです。

機会コスト

多くの企業は、このデータを活用しないことにより、複数の機会を逸しています。実際には使用できないダーク・データを捨て去ることは、リスクやコストからしても好ましいですが、まずアクセス可能なデータを分析し、使用できそうなものを特定しておくと得します。

非効率コスト

ダークデータを含む大量のデータを管理していると、データの取得と分析のプロセスが遅くなります。従業員が関連情報の検索にかける時間が長くなるので、生産性の低下と人件費の増加につながります。

リスク・コスト

ダーク・データは、不十分なサイバーセキュリティーデータ侵害、コンプライアンス違反、データ損失という点で、リスク要因となります。こういうリスクは結果的に、風評被害や経済的影響をもたらすことがあります。

データ品質の問題とダーク・データ

ダーク・データはデータ品質の問題が原因で作り出されることもあります。

たとえば、音声録音から自動的に文字起こしをしたが、文字起こしに使用されたAIによるミスが生じた、などです。そうした文字起こしを、ある時点で解決すると考えて保持する人もいますが、実際に解決することはありません。

品質の劣ったデータをクリーニングしようとする組織は、問題の原因を見逃してしまうことがあります。データ品質の問題を十分に把握していないと、今後も発生することがないようにするのは不可能です。

そうなると、この状況は周期的に発生します。なぜなら、一度も使用されないままになっているダーク・データを対象にした削除ポリシーを採用することもなく、そのままにしておく組織は、データ品質の問題の増大に寄与しているからです。

幸いなことに、データ品質管理の3つのステップがあります。組織が次のステップを踏まえることは、この問題を軽減する助けとなります。

  1. 「そのまま」の状況を分析して特定する:問題に優先順位を付けるため、まず、現在の問題、既存のデータ基準、ビジネスへの影響をすべて特定します。

  2. 不良データの再発を防ぐ:次に、問題ごとにその根本原因を判断し、リソースを適用して持続可能な方法で問題に取り組み、再発しないようにします。

  3. この過程で頻繁にコミュニケーションを取る:何が起きているのか、チームが何をしているのか、その作業の影響、そしてそうした取り組みがビジネス目標とどうつながっているのかを共有します。

ダーク・データを有効活用する方法

ダーク・データのコストとデータ品質の問題すべてに、良い面があります。Splunk社が言うように、「ダーク・データは組織にとって最大の未開拓リソースの1つかもしれない」のです。3

ダークデータ管理にプロアクティブなアプローチを取る組織は、ダーク・データに光を当てることができます。そうすれば、負債とコストが削減されるだけでなく、チームは隠れたデータから洞察を見つけ出すのに必要なリソースも得られます。

ダーク・データを扱い、それを利用してデータに基づいたより良い意思決定を行う可能性があるとなれば、次のようなベスト・プラクティスに従うことが推奨されます。

サイロを解消する

ダーク・データはしばしば、組織内のサイロが原因で発生します。あるチームが別のチームにとって有用になりうるデータを作成しても、他のチームはそのことを知りません。そうしたサイロを解消すると、そのデータを必要とするチームが利用できるようになります。ただそこにあるだけのものから、絶大な価値をもたらすものになるのです。

データ管理を改善する

どのようなデータが組織内に存在するのかを把握することが重要です。この取り組みは、組織内のすべてのデータを分類し、正確なビューを完成させることから始まります。チームはそこから、チームの誰もが必要なものを容易に見つけて使えるようにすることを目標に、データをきちんと整理し始めるのです。

データ・ガバナンス・ポリシーを設定する

データ・ガバナンス・ポリシーの導入は、長期的に課題を改善するのに役立ちます。このポリシーでは、収集されるすべてのデータのレビュー方法についてカバーして、また何を保持(して整理することでデータ管理の明確さを維持)し、アーカイブし、または破棄するのかについての明確なガイドラインを提供します。このポリシーで重要な部分は、どのデータをいつ破棄するのかを厳密に規定することです。データ・ガバナンスを実施し、プラクティスを定期的にレビューすることで、利用されることのないダーク・データの量を最小限に抑えることができます。

MLツールとAIツールを使用してデータを解析する

ダーク・データの発見を支援する機械学習(ML)と人工知能(AI)に、貴重な洞察を含む可能性のあるデータの分析を実行させると、ダーク・データをカテゴリー化するという面倒な作業も実行できます。さらに、機械学習の自動化によって、保管されているデータの機密情報が自動的に編集されるので、データ・プライバシーのコンプライアンス規制を遵守する助けともなります。

関連ソリューション
データ管理ソフトウェアとソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら watsonx.dataについてはこちら
脚注

1 Gartner Glossary, Gartner

2 The State of Dark Data, Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 03 August 2023