The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ダーク・データとは、組織が蓄積しているものの、分析や意思決定のために使用されることがほとんどない情報を指します。
今日、ほとんどの企業では膨大な量のダーク・データを保管しています。Splunk社が世界1,300社以上の事業とITの意思決定者を対象に行ったアンケート調査では、回答者の60%が、自社データの半分かそれ以上はダークであると考えられる、と報告しました。回答者の3分の1がこの数字を75%以上と報告しています。1
ダークデータが蓄積されるのは、組織がビッグデータレイクに取得可能なすべての情報を保存することに価値があるという考えを受け入れたからだ。これは、安価なストレージの登場によるものの一部であり、いつか価値あるものになるかもしれないという理由で、これほど多くのデータを保管することを正当化しやすくしています。
最終的に、ほとんどの企業では、保管するデータのほんの一部も利用することがありません。ストレージという貯蔵庫のメタデータ・ラベルが十分に文書化されていない、一部のデータが統合ツールで読み取れない形式になっている、データがクエリで取得できない、というのが理由です。メタデータ。
ダーク・データは、優れたデータ分析結果を出すためには大きな制限要因です。なぜなら、どのようなデータ分析でも、その質は、分析ツールで迅速に、かつディテールまでアクセスできる情報本体に左右されるからです。
ダーク・データに関する問題は他にもあります。チームがどのデータを利用できるかという潜在的可能性を認識していないことにより、負債や多額のストレージ・コストが発生し、機会を逸失していることです。
組織のデータがダークになる原因は数多くあります。次のようになります。
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
タイムリーかつ完全なデータ分析イニシアチブでの発見可能性という点で、ダーク・データは、構造化データかも知れませんし、非構造化データかも知れません。
構造化データ とは、明確に定義されているスプレッドシートまたはデータベース・フィールドに追加されてから保管されている情報です。
サーバーログファイル、モノのインターネット(IoT)センサーデータ、カスタマー・リレーションシップ管理(CRM)データベース、エンタープライズ・リソース・プランニング(ERP)システムは、構造化データ・ソースから作成されたダーク・データの例です。
機密データのほとんどの形式、例えば電子化されている銀行取引明細書、医療記録、暗号化されている顧客データは、通常は構造化された形式を取っていますが、権限の問題により、表示やカテゴリー分けがしにくくなっています。
構造化データとは異なり、 非構造化データ に入るのは、変換、成文化、階層化、構造化をしないと、データベースやスプレッドシートに整理して分析することができない情報です。
非構造化データ・ソースから作成されたダーク・データの例として挙げられるのは、電子メール通信、PDF、テキスト文書、ソーシャルメディアへの投稿、コールセンターの記録、チャットログ、監視カメラで撮影された映像などです。
半構造化データとは、何らかの情報が定義済みのデータ・フィールドに入っている非構造化データのことです。ダーク・データ検出は構造化データほど簡単ではありませんが、検索対象になり、カタログ化も可能です。
例としては、HTMLコード、請求書、グラフ、テーブル、XMLドキュメントなどが挙げられます。
ダーク・データ保管のコストは甚大になり、ダーク・データ・ストレージそのもににかかる経済的コストをはるかに超えます。直接コストと間接コストには、次のようなものがあります。
積極的に使用されていなくても、データを保管するには、物理的またはデジタル的なストレージインフラストラクチャが必要です。これに含まれるのは、サーバー、データセンター、クラウド・ストレージ・ソリューション、およびバックアップ・システムです。エコシステムのデータが増えるほど、必要となるデータ・ストレージ容量も増えるので、インフラストラクチャー・コストの増大につながります。
官公庁・自治体はここ数年来、グローバルなプライバシー法を数多く導入してきています。つまり、すべてのデータに適用されるのです。分析リポジトリーで使用されないままになっているデータにすらもです。
多くの企業は、このデータを活用しないことにより、複数の機会を逸しています。使用できないダーク・データを捨て去ることは、リスクやコストからしても好ましいですが、まずアクセス可能なデータを分析し、使用できそうなものを特定しておくと得します。
ダーク・データを含む大量のデータを管理していると、データの取得と分析のプロセスが遅くなります。従業員は関連情報の検索により多くの時間を費やす可能性があり、その結果、生産性の低下や人件費の増加につながることがあります。
ダーク・データは、不十分なサイバーセキュリティー、データ侵害、コンプライアンス違反、データ損失という点で、リスク要因となります。こういうリスクは結果的に、風評被害や経済的影響をもたらすことがあります。
時には、データ品質の問題が原因でダーク・データが作成されることがあります。
たとえば、音声録音から自動的に文字起こしをしたが、文字起こしに使用されたAIによるミスが生じた、などです。そうした文字起こしを、ある時点で解決すると考えて保持する人もいますが、実際に解決することはありません。
組織が品質の劣ったデータをクリーニングしようとする場合、問題の原因を見逃してしまうことがあります。データ品質の問題を十分に把握していないと、今後も発生することがないようにするのは不可能です。
そうなると、この状況は周期的に発生します。なぜなら、一度も使用されないままになっているダーク・データを対象にした削除ポリシーを採用することもなく、そのままにしておく組織は、データ品質の問題の増大に寄与しているからです。
幸いなことに、データ品質管理の3つのステップがあります。組織が次のステップを踏むことで、この問題を軽減する助けとなります: データ品質管理
ダーク・データのコストとデータ品質の問題すべてに、良い面があります。Splunk社が言うように、「ダーク・データは組織にとって最大の未開拓リソースの1つかもしれない」のです。2
ダークデータ管理にプロアクティブなアプローチを取る組織は、ダーク・データに光を当てることができます。そうすれば、負債とコストが削減されるだけでなく、チームは隠れたデータから洞察を見つけ出すのに必要なリソースも得られます。
ダークデータを扱い、それを利用してデータ駆動型の意思決定を行う可能性がある場合、ベスト・プラクティスがいくつかあります。
ダーク・データはしばしば、組織内のサイロが原因で発生します。あるチームが別のチームにとって有用になりうるデータを作成しても、他のチームはそのことを知りません。そうしたサイロを解消すると、そのデータを必要とするチームが利用できるようになります。ただそこにあるだけのものから、絶大な価値をもたらすものになるのです。
組織内に存在するデータを理解することは重要です。この取り組みは、組織内のすべてのデータを分類し、正確なビューを完成させることから始まります。分類します。そこで、チームはデータを整理し始め、チーム全体のメンバーが必要なものを見つけて使いやすくすることを目指します。
ダーク・データの発見を支援する機械学習(ML)と人工知能(AI)に、貴重な洞察を含む可能性のあるデータの分析を実行させると、ダーク・データをカテゴリー化するという面倒な作業も実行できます。さらに、機械学習の自動化によって、保管されているデータの機密情報が自動的に編集されるので、データ・プライバシーのコンプライアンス規制を遵守する助けともなります。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1.ダーク・データの現状、Splunk、2019年
2 ダーク・データ:隠されたデータの発見、活用及びメリット、Splunk、2023年8月3日