ダーク・データとは

ダーク・データとは、組織が蓄積しているものの、分析や意思決定のために使用されることがほとんどない情報を指します。

今日、ほとんどの企業では膨大な量のダーク・データを保管しています。Splunk社が世界1,300社以上の事業とITの意思決定者を対象に行ったアンケート調査では、回答者の60％が、自社データの半分かそれ以上はダークであると考えられる、と報告しました。回答者の3分の1がこの数字を75%以上と報告しています。¹

ダークデータが蓄積されるのは、組織がビッグデータレイクに取得可能なすべての情報を保存することに価値があるという考えを受け入れたからだ。これは、安価なストレージの登場によるものの一部であり、いつか価値あるものになるかもしれないという理由で、これほど多くのデータを保管することを正当化しやすくしています。

最終的に、ほとんどの企業では、保管するデータのほんの一部も利用することがありません。ストレージという貯蔵庫のメタデータ・ラベルが十分に文書化されていない、一部のデータが統合ツールで読み取れない形式になっている、データがクエリで取得できない、というのが理由です。メタデータ。

ダーク・データは、優れたデータ分析結果を出すためには大きな制限要因です。なぜなら、どのようなデータ分析でも、その質は、分析ツールで迅速に、かつディテールまでアクセスできる情報本体に左右されるからです。

ダーク・データに関する問題は他にもあります。チームがどのデータを利用できるかという潜在的可能性を認識していないことにより、負債や多額のストレージ・コストが発生し、機会を逸失していることです。

IBM watsonx.governance

2026年G2 Best Software Awardsにおいて、最優秀IT管理製品の1つとして認定されました

データがダークになる原因

組織のデータがダークになる原因は数多くあります。次のようになります。

認識の欠如：通常のビジネス・オペレーションの過程で取得されるデータは、しばしばダークになります。組織がデータの存在を認識していないか、その価値や関連性を把握していないためです。
データのサイロ化：組織内の部署がそれぞれ他と無関係にデータを収集し保管していると、データの断片化や孤立化につながります。このようなデータサイロは、そのデータに価値を見いだす可能性のある他のチームからアクセスできなくなっているか、見えなくなっています。
データ・ガバナンスの欠如：堅牢なデータ・ガバナンス・フレームワークが整っていない組織は、データをエコシステム全体で効果的に管理し追跡するのに苦慮することがあります。こうなると、データが整理されず、失われ、使えなくなります。
レガシーシステム：組織がソフトウェアやハードウェアをアップグレードすると、古いシステムは廃止されるか関連性が低くなります。こうしたレガシーシステムに保管されているデータは、組織の最新の分析ツールと統合できないと、ダークになります。
不完全なデータ統合：データ統合プロセスが不完全か非効率的であると、結果的にデータのギャップが生じるか一貫性がなくなります。そうなれば、特定のデータ・セットにアクセスできないか、他のデータ・ソースに正しくリンクされないままになります。
ビジネスの優先順位の変化：ビジネスの優先順位が進化すると、特定のデータセットは関連性が薄れたり中心から外れたりすることがあります。かつては積極的に利用されていたデータも、組織の目的がシフトすると利用されなくなってダークになることがあります。
リソースとリテラシーの制約：リソースが限られている組織は、データ分析よりもデータ収集や保管を優先することがあります。また、従業員のデータ・リテラシーが不十分だと、価値あるデータを見つけて活用することが妨げられます。
データ品質の問題：データ品質が低い場合、不正確または不完全なデータなど、データが軽視あるいは無視されることがあります。信頼性が低いことがわかったデータは利用される確率が低くなり、事実上ダークとなります。
規制遵守目的：多くのコンプライアンスやガバナンスの基準により、組織には機密データの保管期間についての厳格な規制が適用されます。どの機密データを破棄すべきかを追跡できていないため、強制期間を過ぎても長きにわたって保管することになりがちなのです。
ROT（Redundant, Obsolete, Trivial）データ：ROTは、従業員が同じ情報のコピーを複数保存したり、古くなった情報や組織の目標達成に役立たない余計な情報を保存したりすることで発生します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ダーク・データのタイプ

タイムリーかつ完全なデータ分析イニシアチブでの発見可能性という点で、ダーク・データは、構造化データかも知れませんし、非構造化データかも知れません。

構造化データ とは、明確に定義されているスプレッドシートまたはデータベース・フィールドに追加されてから保管されている情報です。

サーバーログファイル、モノのインターネット（IoT）センサーデータ、カスタマー・リレーションシップ管理（CRM）データベース、エンタープライズ・リソース・プランニング（ERP）システムは、構造化データ・ソースから作成されたダーク・データの例です。

機密データのほとんどの形式、例えば電子化されている銀行取引明細書、医療記録、暗号化されている顧客データは、通常は構造化された形式を取っていますが、権限の問題により、表示やカテゴリー分けがしにくくなっています。

構造化データとは異なり、 非構造化データ に入るのは、変換、成文化、階層化、構造化をしないと、データベースやスプレッドシートに整理して分析することができない情報です。

非構造化データ・ソースから作成されたダーク・データの例として挙げられるのは、電子メール通信、PDF、テキスト文書、ソーシャルメディアへの投稿、コールセンターの記録、チャットログ、監視カメラで撮影された映像などです。

半構造化データとは、何らかの情報が定義済みのデータ・フィールドに入っている非構造化データのことです。ダーク・データ検出は構造化データほど簡単ではありませんが、検索対象になり、カタログ化も可能です。

例としては、HTMLコード、請求書、グラフ、テーブル、XMLドキュメントなどが挙げられます。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

ダーク・データによるコスト

ダーク・データ保管のコストは甚大になり、ダーク・データ・ストレージそのもににかかる経済的コストをはるかに超えます。直接コストと間接コストには、次のようなものがあります。

データ・ストレージ・コスト

積極的に使用されていなくても、データを保管するには、物理的またはデジタル的なストレージインフラストラクチャが必要です。これに含まれるのは、サーバー、データセンター、クラウド・ストレージ・ソリューション、およびバックアップ・システムです。エコシステムのデータが増えるほど、必要となるデータ・ストレージ容量も増えるので、インフラストラクチャー・コストの増大につながります。

負債コスト

官公庁・自治体はここ数年来、グローバルなプライバシー法を数多く導入してきています。つまり、すべてのデータに適用されるのです。分析リポジトリーで使用されないままになっているデータにすらもです。

機会コスト

多くの企業は、このデータを活用しないことにより、複数の機会を逸しています。使用できないダーク・データを捨て去ることは、リスクやコストからしても好ましいですが、まずアクセス可能なデータを分析し、使用できそうなものを特定しておくと得します。

非効率コスト

ダーク・データを含む大量のデータを管理していると、データの取得と分析のプロセスが遅くなります。従業員は関連情報の検索により多くの時間を費やす可能性があり、その結果、生産性の低下や人件費の増加につながることがあります。

リスク・コスト

ダーク・データは、不十分なサイバーセキュリティー、データ侵害、コンプライアンス違反、データ損失という点で、リスク要因となります。こういうリスクは結果的に、風評被害や経済的影響をもたらすことがあります。

データ品質の問題とダーク・データ

時には、データ品質の問題が原因でダーク・データが作成されることがあります。

たとえば、音声録音から自動的に文字起こしをしたが、文字起こしに使用されたAIによるミスが生じた、などです。そうした文字起こしを、ある時点で解決すると考えて保持する人もいますが、実際に解決することはありません。

組織が品質の劣ったデータをクリーニングしようとする場合、問題の原因を見逃してしまうことがあります。データ品質の問題を十分に把握していないと、今後も発生することがないようにするのは不可能です。

そうなると、この状況は周期的に発生します。なぜなら、一度も使用されないままになっているダーク・データを対象にした削除ポリシーを採用することもなく、そのままにしておく組織は、データ品質の問題の増大に寄与しているからです。

幸いなことに、データ品質管理の3つのステップがあります。組織が次のステップを踏むことで、この問題を軽減する助けとなります：データ品質管理

「そのまま」の状況を分析して特定する： 問題に優先順位を付けるため、まず、現在の問題、既存のデータ基準、ビジネスへの影響をすべて特定します。
不良データの再発を防ぐ：次に、各問題の根本原因を評価し、持続可能な方法で問題に取り組むためのリソースを適用して、再発しないようにします。
この過程で頻繁にコミュニケーションを取る：何が起きているのか、チームが何をしているのか、その作業の影響、そしてそうした取り組みがビジネス目標とどうつながっているのかを共有します。

ダーク・データを有効活用する方法

ダーク・データのコストとデータ品質の問題すべてに、良い面があります。Splunk社が言うように、「ダーク・データは組織にとって最大の未開拓リソースの1つかもしれない」のです。²

ダークデータ管理にプロアクティブなアプローチを取る組織は、ダーク・データに光を当てることができます。そうすれば、負債とコストが削減されるだけでなく、チームは隠れたデータから洞察を見つけ出すのに必要なリソースも得られます。

ダークデータを扱い、それを利用してデータ駆動型の意思決定を行う可能性がある場合、ベスト・プラクティスがいくつかあります。

サイロを解消する

ダーク・データはしばしば、組織内のサイロが原因で発生します。あるチームが別のチームにとって有用になりうるデータを作成しても、他のチームはそのことを知りません。そうしたサイロを解消すると、そのデータを必要とするチームが利用できるようになります。ただそこにあるだけのものから、絶大な価値をもたらすものになるのです。

データ管理を改善する

組織内に存在するデータを理解することは重要です。この取り組みは、組織内のすべてのデータを分類し、正確なビューを完成させることから始まります。分類します。そこで、チームはデータを整理し始め、チーム全体のメンバーが必要なものを見つけて使いやすくすることを目指します。

データ・ガバナンス・ポリシーを設定する

データ・ガバナンス・ポリシーの導入は、長期的に課題を改善するのに役立ちます。このポリシーでは、入ってくるすべてのデータがどのようにレビューされるかをカバーして、また何を保持（して整理することでデータ管理の明確さを維持）し、アーカイブし、または破棄するのかについてのガイドラインを明確にするべきです。このポリシーで重要な部分は、どのデータをいつ破棄するのかを厳密に規定することです。データ・ガバナンスを実施し、プラクティスを定期的にレビューすることで、利用されないダーク・データの量を最小限に抑えることができます。

MLツールとAIツールを使用してデータを解析する

ダーク・データの発見を支援する機械学習（ML）と人工知能（AI）に、貴重な洞察を含む可能性のあるデータの分析を実行させると、ダーク・データをカテゴリー化するという面倒な作業も実行できます。さらに、機械学習の自動化によって、保管されているデータの機密情報が自動的に編集されるので、データ・プライバシーのコンプライアンス規制を遵守する助けともなります。

Techsplainersポッドキャスト