データ検出とは何ですか?

データ検出、定義

­­データ検出とは、複数の、しばしば異種のソースからデータを収集し、評価し、探索するプロセスです。これにより、組織は隠されたデータやサイロ化されたデータを発見し、貴重な情報が見逃されたり、分析の対象から外れたりしないようにすることができます。

データ検出では、データ専門家が組織のデータベース、アプリケーション、内部ファイル、その他のリポジトリ全体から未加工データを識別し、抽出します。データの特徴、形式、系列、 品質 、そしてデータの潜在的な利用法を検証するデータ・プロファイリングというプロセスで、データ取り込みが成功するような基盤を築きます。データ検出プロセス中に明らかになった洞察は、マーケティングストラテジー、顧客体験、サプライチェーンオペレーションなどの分野でビジネス上の意思決定を支援し、合理化するために使用されます。

探索的データ分析(EDA)は、データ検出で広く使用されているアプローチです。EDAでは、統計的手法とアルゴリズムをデプロイしてデータ・セットを調査し、その主な特徴をまとめます。これらの調査結果は、データサイエンティストがデータ・ソースを操作して貴重な洞察を得る最適な方法を決定するのに役立ちます。

データ検出は、組織がすべてのデータ・ソースを特定し活用するのに役立つだけでなく、データ・セキュリティーを強化し、データの正確性を向上させ、特定のデータ・プライバシー規制へのコンプライアンスをサポートします。人工知能(AI)や機械学習(ML)技術によって強化された企業は、データ資産に対する可視性と制御性をさらに高めることができます。

あなたのチームは時間内に次のゼロデイを受け入れますか?

AI、サイバーセキュリティ、データ、自動化に関する厳選されたニュースをThinkニュースレターで購読しているセキュリティリーダーに加わりましょう。専門家によるチュートリアルと解説をメールで直接配信することで、手軽に学ぶことができます。IBMプライバシー・ステートメントをご覧ください。

サブスクリプションは英語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

https://www.ibm.com/jp-ja/privacy

データ検出と従来のデータ分析の違い

一見すると、データ検出とデータ分析は同義語のように見えるかもしれません。ただし、これらは別々のデータ管理プロセスであり、一緒に使用すると最も効果を発揮します。

データ検出は、多くの場合、最初に行われます。これは、サイロ化されている情報や非表示の情報を含め、組織が入手可能なすべてのデータを見つけて理解するのに役立つ探索段階です。アナリストは、この段階ではどのようなデータを探しているのか正確に把握していないかもしれません。

データを見つけたら、データ分析を開始できます。このプロセスには、特定の手法とクエリを使用してデータを解釈し、有意義な洞察を明らかにすることが含まれます。

次のような例えで考えてみましょう。データ検出は、棚の後ろに隠れた食材も含めて、キッチンで食材を探すことに似ています。データ分析とは、見つけた食材を使用して、栄養価が高い高品質の食品を作ることです。探索が綿密であるほど、結果は向上します。

データ検出が重要な理由

データは現代の企業には欠かせません。彼らは毎日、部門、事業単位、地域にまたがって拡大するエコシステムから大量の情報を収集しています。このデータはさまざまなユーザーによって処理され、異種のデータ・リポジトリーや従業員のデバイスに保管されています。

しかし、データがあらゆる場所に存在すると、検索、アクセス、使用が難しくなります。実際、企業データの68%が使われていないと推定されています。どんな種類のデータでも分析できないと、洞察や未開拓の機会を見逃してしまいます。例えば、顧客維持率を向上させる鍵が会議のメモやEメールのスレッドに隠れているのに、営業チームが顧客関係管理(CRM)システムのデータだけに頼っているとしたらどうでしょう。

どのようなデータを持っているか、それがどこにあるかがわからないと、個人データを管理するデータ・プライバシー規制の増加により、組織がリスクにさらされることになります。ただし、データ検出はデータ・プライバシーとデータ・セキュリティーの両方の懸念事項です。機密データがどこにあるかがわからなければ、適切に保護することはできません。

データ検出のメリット

データ検出により、組織は利用可能なすべてのデータを探索して活用できるようになり、次のメリットが得られます。

  • 意思決定の強化
  • データの正確性と品質の向上
  • データ・セキュリティーの強化
  • 徹底したコンプライアンス
意思決定の強化

データ検出では、未活用のデータを発見することで、データ探索の新たな手段が提供されます。利害関係者が、隠れたパターンと相関関係、実行可能な洞察、新しい市場動向を見つける可能性があります。その結果、企業はより多くの情報に基づいた意思決定を行い、業績を最適化して、運用効率を達成することができます。

データの正確性と品質の向上

組織のデータ・インベントリーを全体的に把握することで、データ・アナリストは、一貫性のないデータやデータ・セット内の外れ値などのデータ品質の問題を特定しやすくなります。より高いレベルの精度を実現すると、データ分類中の偽陽性と偽陰性を最小限に抑えることができます。

データ・セキュリティーの強化

データ検出は、組織内のすべての機密データ(個人情報(PII)や知的財産など)を特定し、所在を確認するのに役立ちます。これにより、セキュリティー・チームは、カスタマイズされたサイバーセキュリティー対策を簡単に適用できます。(詳細については、「データ・セキュリティーにおけるデータ検出」を参照してください。)

徹底したコンプライアンス

すべてのデータがどこに保管されているかを特定することで、組織はデータ系列を理解し、機密情報の保護、共有、アクセスに関する特定のルールを適用できます。たとえば、データ検出は、データが一般データ保護規則(GDPR)またはCalifornia Consumer Privacy Act(CCPA)にいつ該当するかを組織が判断するのに役立ちます。

データ・セキュリティーにおけるデータ検出

シャドー・データと呼ばれることが多い、発見されず管理されていないデータは、特に機密情報が含まれている場合、重大なセキュリティー・リスクをもたらします。IBMの2024年データ侵害のコストに関する調査」によると、シャドー・データが関与するデータ侵害はインシデント全体の3分の1を占め、平均コストは527万米ドルで、同レポートで算出された平均侵害コストより16%高くなっています。

組織の全てのデータを保護するための核となるのは、データがどのようにしてどこからネットワークに入るかと、データがどのようにしてどこで共有され保管されるかを理解することです。したがって、堅牢なデータ検出プロセスは、データ・セキュリティーとデータ保護の両方にとって重要な要素です。AIとMLを使用してシステムをトレーニングし、機密データを含むファイルを自動的に識別することで、こうした取り組みをさらに強化できます。

データ検出の実践は、組織全体の攻撃対象領域の縮小にも役立ちます。攻撃対象領域とは、ハッカーが機密データへの不正アクセスを行ったり、サイバー攻撃を行ったりするために利用できる組織のすべての脆弱性、経路、手法です。データ検出によって、未使用のデータや重複したデータが削除され、最も必要な機密データのみが残ります。組織は、データ・セキュリティー対策を優先順位付けし、これらの重要な資産に合わせて調整することができます。

データ検出の仕組み

データ検出は、技術的プロセス、ツール、戦略を組み合わせたもので、次のステップにグループ化できます。

  • 目標範囲
  • データの収集と統合
  • data preparation
  • データの可視化
  • データ 分析

目標範囲の設定

この最初のステップでは、通常、データ検出プロセスの目標を定義します。これらの目標は、組織の全体的なデータ戦略と一致する必要があります。ここでは、経営幹部と事業単位のリーダーが協力して、どのような洞察を見つけたいかを判断し、データ探索の指針とします。

データの収集と統合

次に、データベースへのクエリ、リモート・ファイルのプル、アプリケーション・プログラミング・インターフェース(API)によるデータの取得などの抽出方法を使用して、さまざまなソースからデータが収集されます。収集されたデータは取り込まれ統合され変換され、統一された一貫性のあるフォーマットでデータカタログ(組織内のデータ資産の詳細なインベントリー)に格納されます。

データ準備

データは収集および結合されると、さまざまな品質保証プロセスを経て、データにエラー、不整合、その他のデータ整合性の問題がないことが保証されます。この準備には、データ検証データクレンジング、標準化の手法が含まれる場合があります。

データの可視化

データ・チームは、グラフ、チャート、ダッシュボード、インフォグラフィックなど、準備したデータの視覚的表現を作成して、複雑なデータ関係をユーザーフレンドリーなインターフェースで表示できます。

データ分析

データの可視化ツールは、セルフサービス分析をサポートする場合もあります。これらのツールは、技術者以外のユーザーでも視覚化したものにアクセスして分析できるため、データ駆動型の意思決定が促進されます。この段階では、予測モデリングやその他の高度なテクニックを使って予測を行う、高度なアナリティクスが適用されることもあります。

プロセス全体を通じて、強力なデータ・ガバナンスデータの完全性データ・セキュリティーの確保に役立ちます。データの収集、所有権、ストレージ、処理、利用に関するポリシー、標準、手順が定義され、実装されます。

AIおよびMLデータ検出ツール

データ検出にAI、ML、自然言語処理(NLP)を使用することで、プロセスにスピードとインテリジェンスの両方が加わります。これらのテクノロジーにより、組織はデータの可視性と制御を強化できます。主な例とユースケースは次のとおりです。

  • 自動データ検出:これらのツールは、ネットワーク・デバイスやデータ・ストレージ・システムを自動的にスキャンし、新しいデータやメタデータにほぼリアルタイムでインデックスを付け、資産の特定を迅速に行います。

  • 自動データ分類:この機能により、機密レベル、データ・アクセス制御、コンプライアンス・ルールなどの事前定義されたルールに基づいて、新しいデータのタグ付けが自動化されます。

  • インテリジェント検索: AI搭載の検索はNLPを用いてユーザーの検索クエリを解釈し、意図を理解し、関連データ結果を提供します。AIアシスタントは直感的な自然言語のガイダンスを提供できます。

  • 非構造化データのNLP: 大規模言語モデル (LLM) を含むNLPツールは、文書、Eメール、チャット記録などの非構造化データソースから構造化データを抽出できます。

AI、ML、NLPをデータ検出ワークフローに統合すると、洞察までの時間が短縮され、精度が向上し、規制コンプライアンスを強化できます。データ量が増加し続けるにつれて、AI搭載のデータ検出は不可欠な機能となり、競争上の優位性が得られるようになります。

執筆者

Alexandra Jonker

Staff Editor

IBM Think

関連ソリューション
データ・セキュリティーと保護ソリューション

複数の環境にまたがるデータを保護し、プライバシー規制を満たし、複雑な運用を簡素化します。

    データ・セキュリティーソリューションの詳細はこちら
    IBM Guardium

    オンプレミスとクラウドの機密データを保護するデータ・セキュリティー・ソフトウェア・ファミリーであるIBM Guardiumの詳細をご覧ください。

     

      IBM Guardiumの詳細はこちら
      データ・セキュリティー・サービス

      IBMは、エンタープライズ・データ、アプリケーション、AIを保護するための包括的なデータ・セキュリティー・サービスを提供します。

      データ・セキュリティー・サービスの詳細はこちら
      次のステップ

      データ・セキュリティー・ソリューションを使用して、組織のデータをハイブリッドクラウド全体で保護し、コンプライアンス要件を簡素化します。

      データ・セキュリティーソリューションの詳細はこちら デモを予約