データ・インテリジェンス(DI)とは、コア・データ管理とメタデータ管理の原則を、人工知能や機械学習などの高度なツールと組み合わせることで、企業データの生成と活用の仕組みを理解できるように支援するものです。データ・インテリジェンスの洞察により、データのビジネス価値を引き出し、データ主導の意思決定が促進されます。
言い換えれば、データ・インテリジェンスは、組織が次のようなデータに関する主要な質問に答えるのに役立ちます。
組織はどのようなデータを持っているかこのデータがなぜ存在するのか
データの出所と保管先はどこか。
誰がデータを使用し、データをどのように使用しているか。最良の成果を得るための使用法は何か。
異なるデータ・セットは互いにどのように関連しているか。
データ・インテリジェンスは、相互接続された一連のプロセスとツールを使用してメタデータ管理、データ検出、データ・ガバナンス、品質保証、データ分析などの業務を自動化および合理化することで、これらの質問に答えます。
IBM Data Differentiatorによると、企業データの68%は手つかずの状態で、分析されていません。組織は、手元にある膨大な量のデータのために、品質管理を適用し、ガバナンス・ポリシーを実施するのに苦労することがあります。ユーザーは自分の仕事に適したデータを常に見つけられるとは限りません。また、適切なデータが存在するかどうかさえわからない場合もあります。
データ・インテリジェンスは、データ・カタログ、データ・リネージュ・ソリューション、データ・マーケットプレイス、人工知能(AI)、機械学習(ML)などの既存のツールを単一の包括的なプロセスに統合することで、この問題に対処するために登場しました。
この統合プロセスにより、組織はデータに関するより深い洞察を得て、データから最大限の価値を引き出す方法を知ることができます。このように、データ・インテリジェンスは セルフサービス分析を可能にし、ビジネス・インテリジェンスや生成AIなどの主要な取り組みをサポートします。
データ管理は、データの作成から廃棄までのライフサイクル全体を管理する広範な分野です。データ管理はデータの収集、保存、処理の実用性に関係しますが、データ・インテリジェンスはデータを理解することに関係します。
データ・インテリジェンスは、データの取得、保護、クリーニング、共有についてより情報に基づいた選択を行うために必要な洞察を組織に提供することで、データ管理を補完します。
Web2.0の登場とクラウド・コンピューティングの台頭以来、組織はより多くのデータ・ソース(Webアプリ、ビジネス・システム、モノのインターネットデバイス)からより多くのデータ(顧客データ、オペレーション・データ、トランザクション・データ)を収集するようになりました。生成AIの誕生により、このすべてのデータの価値と量はさらに増加しました。
このデータを管理する(データの使用方法や変更方法を追跡し、安全に保管し、アクセスを容易にし、クリーンかつ最新の状態に保つ)ことは困難な場合があります。データが適切に管理されていない場合、データ利用者が必要なデータを見つけることは難しく、そこから実用的な洞察を引き出すことはさらに困難になります。
組織には、エンドツーエンドのデータ・ライフサイクルをマッピングするデータ・リネージュ・ツール、使用ポリシーを定義するガバナンス・ツール、データプロファイリングおよびクリーニング・ツールなど、データを管理する機能が長い間存在してきました。しかし、これらの機能は断片化されており、さまざまな製品や機能に分散していることがよくありました。
データ・インテリジェンス分野の主なイノベーションは、これらのツールを、単一のプラットフォームまたは緊密に統合された データ・スタックのいずれかで、高度なAIおよび MLテクノロジーと組み合わせることです。
IDCによると、現在のデータ・インテリジェンス・プラットフォームの多くは、データ・カタログ・ツールから進化したものです。2020 年以降、ベンダーはデータ・リネージュ・ツールやデータ・マーケットプレイスなどの補完的なソリューションをカタログにバンドルしたり、これらの機能をカタログに直接組み込んだりするケースが増えています。1
データ・インテリジェンスは発展途上の分野であり、さまざまなベンダーや実践者がこの分野に関して独自の見解を示しています。ただし、データ・インテリジェンスには5つのコア機能が含まれていることにほとんどが同意しています。
メタデータは、ファイルの作成者やサイズなど、データ・ポイントまたはデータ・セットに関する情報です。メタデータ管理は、データ・インテリジェンス・イニシアチブの基礎となります。適切に管理されたメタデータにより、ユーザーは複雑なデータ・システムを簡単に操作できるようになります。
メタデータ管理は、データ・セットの整理、ラベル付け、フィルタリング、並べ替えに役立ち、ユーザーは利用可能なデータの全体像を把握し、必要な情報を素早く取得できます。
アクティブなメタデータ管理は、データ・インテリジェンスにとって特に重要です。従来のメタデータ管理は主に手動で行われていましたが、アクティブ・メタデータ管理ではAIとMLを使用してメタデータ処理を自動化します。
データが変換され使用されると、そのメタデータが変更される場合があります。アクティブ・メタデータ管理はこれらの変更を追跡し、メタデータを自動的に更新し、メタデータを使用して推奨事項とアラートを生成します。これにより、データ検出を合理化し、データの信頼性を高め、大規模なデータ保護とガバナンスを実現できます。
データ・リネージュとは、時間の経過に伴うデータの流れを追跡するプロセスであり、データがどこから発生し、どのように変更されたか、データ・パイプライン内での最終的な保管先を明確に把握できるようにします。
データ・リネージュは、ユーザーがライフサイクル全体を通じてデータがどのように変化するかを理解するのに役立ち、エンタープライズ・データの信頼性を高めます。また、組織がエラーを検出し、依存関係を識別し、データ・セットへの変更が企業のより広範な運用やITシステムにどのように影響するかを予測するのにも役立ちます。
データ・ガバナンスは、データの収集、所有権、保存、処理、使用に関するポリシー、標準、手順を定義および実装することで、データの整合性とデータのセキュリティーを確保するのに役立ちます。
データ・ガバナンスは、簡単にアクセスでき、関連する規則や規制に準拠した安全で高品質なデータを維持するのに役立ちます。データ・インテリジェンスの取り組みでは、ガバナンス・ポリシーは、ユーザーがデータをどのように使用できるか、またどのように使用すべきかを理解するのに役立ちます。
例えば、ガバナンス・ポリシーにより、データサイエンティストがデータ・プライバシー法に違反して機密性の高い顧客データをAIモデルに取り込むことを防ぐことができます。
データ品質ツールとプラクティスは、データ・セットの正確性、完全性、有効性、一貫性、一意性、適時性、目的への適合性を保証するのに役立ちます。データ品質への取り組みにより、企業データから得られる結論と洞察に対するユーザーの信頼が構築されます。
データ・インテリジェンス・イニシアチブには、多くの場合、マスター・データ管理(MDM)も含まれます。マスター・データとは、顧客、製品、場所などの主要な事業体に関する組織の中核データです。MDMは、検証、マージ、重複排除、エンリッチメントを通じて、このデータがクリーンかつ一貫していることを保証します。
さまざまな特徴と機能を1つのソリューションに組み合わせたデータ・インテリジェンス・プラットフォームを提供するベンダーもあれば、補完的なソリューションの統合ポートフォリオを提供するベンダーもあります。いずれの場合も、ほとんどのデータ・インテリジェンス・イニシアチブの背後にある基本的なテクノロジー・ツールには次のものが含まれます。
データ・カタログは、メタデータを使用して、組織内のすべてのデータ資産の詳細な検索可能なインベントリーを作成します。これにより、データ利用者は分析やビジネス目的に最も適したデータを簡単に見つけることができます。
データのインベントリー作成以外にも、多くの最新のデータ・カタログには次のような機能が備わっています。
データ・ガバナンス・メカニズム。機密情報を自動的に編集するなど、データ使用と データ・プライバシー・ポリシーを設定および適用する機能が含まれます。
AIとMLを使用してメタデータを自動的に生成し、データの変更に応じてレコードを更新するアクティブなメタデータを管理します。
ビジネス用語集は、組織全体で重要な用語、概念、コアエンティティーの標準的な定義とフレームワークを作成できます。
データプロファイリング、クレンジング、検証、品質メトリックなどのデータ品質管理を行います。
データ・リネージュ・ツールは、データ・フロー、変換、依存関係を自動的にマッピングし、データ・ライフサイクルに関する重要な洞察を提供します。データ・リネージュ・ソリューションを使用すると、組織はデータの出所、企業の IT エコシステム内でのデータの移動方法、データの変化、データ・コンシューマーによるデータの使用状況を把握できます。
データ・マーケットプレイスは、データ・プロダクト・ハブとも呼ばれ、ユーザーがデータ・プロダクトにアクセスして共有できるデジタル・プラットフォームです。
データ・プロダクトは、BI、分析、データサイエンスの取り組みをサポートするために使用できる、パッケージ化され、前処理された、すぐに使用できるデータ・セットまたはデータ関連資産です。データ製品の例としては、キュレーションされたデータ・セット、分析ダッシュボード、機械学習モデル、特殊なアプリケーション、データの視覚化などが挙げられます。
データ・マーケットプレイスは、データ製品の作成、キュレーション、管理、共有を一元化し、合理化します。データ・マーケットプレイスは、統合されたガバナンス・フレームワークによってデータの品質とコンプライアンスを確保するのに役立ちます。また、データ製品の配信を自動化し、さまざまなソースからのデータ製品の大規模な共有を可能にすることで、データ・サイロを解消します。
AIおよびMLツール、新しい生成AIアプリケーション、大規模言語モデル(LLM)は、従来のデータ管理を超えてデータ・インテリジェンスの実践を向上させるのに役立ちます。スタンドアロン・ソリューションとしてでも、他のツールに組み込まれていても、AIとMLはデータとメタデータの拡充を自動化し、データ・マイニングを効率化し、高度なAIデータ管理を可能にします。
例えば、統合されたLLMは、データ・カタログ内のメタデータを自動的に生成および更新し、よりユーザーフレンドリーな説明を提供して、より多くの関係者がデータにアクセスできるようにします。LLMを利用した自然言語インターフェースにより、ユーザーは 構造化クエリー言語(SQL)やその他の特殊な言語を使用せずに、データ・セットを照会し、データの分析情報を得ることができます。
AIツールは、機密データの検出と分類、重複データ・セットの識別などにより、ガバナンス・ポリシーと品質管理の強化にも役立ちます。
データレイク、データウェアハウス、データレイクハウスは、それぞれ異なる特徴と機能を備えたデータ管理およびストレージ・ソリューションです。
データウェアハウスは、データを集約、クレンジング、準備して、ビジネス・インテリジェンスやデータ分析に使用できるようにします。
データレイクは大量の未加工データを低コストで保管します。
データレイクハウスとは、レイクの柔軟なデータ・ストレージとウェアハウスの高性能な分析機能を1つのソリューションに組み合わせたものです。
ウェアハウス、レイク、レイクハウスは、組織がさまざまなソースからのデータを一元化されたストレージに集めることを可能にすることで、データ統合の取り組みをサポートします。また、分析、BI、AI、ML、データサイエンス・アプリケーションでそのデータにアクセスして使用することも容易になります。
データ・インテリジェンスは、組織が次のことを行えるよう支援します。
包括的なデータ・カタログ、データ・リネージュ・ツール、アクティブなメタデータ管理を通じてデータを理解します。
検索可能なデータ・カタログ、統合データ・ストア、集中型データ製品ハブを通じてデータ・アクセスを容易にします。
自動的に更新されるメタデータ、データ・プロファイリング、クレンジングを通じてデータの品質を確保します。
定義されたガバナンス・ポリシーと、特定の用途向けに厳選されたアセットをホストするデータ・プロダクト・ハブを通じて、データの使用をガイドします。
その結果、組織は次のようなメリットを享受できます。
データ・インテリジェンスは、データ・リテラシーを促進し、エンタープライズ・データを理解して使用するために必要な洞察をユーザーに提供することで、セルフサービス分析を可能にします。あらゆるレベル、あらゆる役割の利害関係者は、データを活用して、より情報に基づいた意思決定を行うことができます。
IBM Data Differentiatorの報告によると、企業の82%が主要なワークフローを妨げるデータ・サイロを経験しています。データ・インテリジェンスは、集中化された統合データ・カタログとマーケットプレイスを通じて、これらのサイロを排除し、データ・インフラストラクチャーの複雑さを軽減するのに役立ちます。
組織全体のユーザーは目的に合った適切なデータを見つけることができるため、業務効率が向上し、コラボレーションが促進されます。
Gartner社によると、データ品質の低さにより組織は平均1,290万ドルの損失を被っています。2データ・インテリジェンスは、データ・リネージュ、データ・プロファイリング、ガバナンスの取り組みを通じて、高いレベルのデータ品質を維持し、組織がデータからより多くの価値を引き出せるようにします。
データ・インテリジェンスは、データ・カタログやデータ・マーケットプレイスなどの主要なデータ・アクセス・ポイントにガバナンス・フレームワークを統合します。これにより、データ・コンシューマーがデータを許可された目的にのみ使用するようになり、ハッキング、盗難、不正使用、コンプライアンス違反から保護されます。ガバナンスは、金融や医療などの規制の厳しい業界にとって特に重要です。
IBM Institute for Business Valueによると、トップクラスの業績を上げているCEOの72%が、最先端の生成AIツールを導入することで組織に競争上の優位性がもたらされることに同意しています。また、高度な生成AIには、高品質ですぐにアクセスできる膨大な量のデータが必要です。
データ・インテリジェンスは、データ品質の向上、アクセスの促進、ガバナンス・ポリシーの適用を支援し、データが適切な目的にのみ使用されるようにします。これは、責任あるAIの中核部分です。
データ・インテリジェンスの特定のユースケースは、AIモデル・インテリジェンスの領域です。モデル・インテリジェンスとは、組織のポートフォリオ内のさまざまなAIおよびMLモデルのライフサイクルを理解、管理、統制する実践です。
今日では、多くの組織が単一のモデルに頼るのではなく、さまざまな目的のためにさまざまなモデルを使用しています。データ・インテリジェンス・イニシアチブにより、組織は適切な理由に基づいて適切なモデルに適切なデータを選択するために必要な透明性が得られます。
具体的には、データ・インテリジェンスは、ガバナンス(このデータはこのモデルで使用することが承認されているか)と適合性(このデータはこのモデルに対して十分に正確で関連性があるか)の両方の観点から、組織が適切なデータを選択するのに役立ちます。
さらに、多くのベンダーが、データ・インテリジェンス製品にモデル管理機能を組み込んでいます。例えば、一部のデータ・カタログではモデル・カタログ機能が導入されており、エンタープライズ・データのインベントリーを作成するのと同じ方法で組織のAIモデルとMLモデルのインベントリーを作成できるようになりました。
データ・インテリジェンスとは、組織が保有するデータ、つまりその定義的特徴、データへのアクセス方法、データの使用方法を理解する方法です。データ分析、データサイエンス、ビジネスインテリジェンスは、そのデータを活用する方法です。
データ分析は、データから実用的な洞察を抽出し、より適切な意思決定を下せるようにします。データ分析には、データを使用して将来を予測する予測分析や、データを使用して次に何をすべきかを決定する処方分析など、さまざまな形式があります。
データサイエンスは、数学、統計、プログラミング、高度な分析、AI、ML、および主題の専門知識を組み合わせた専門分野です。
ビジネス・インテリジェンス(BI)とは、企業データを収集、管理、分析してビジネス運営に役立てるために使用するツールとテクニックを指します。
データ・インテリジェンスは、ユーザーが組織のデータ・セットをよりよく理解して使用できるようにすることで、データ分析、データサイエンス、BIを促進します。組織がどのようなデータを保有し、そのデータを何に使用できるかをユーザーが知っていれば、目的に合った適切なデータ・セットに簡単に接続できます。
例えば、データサイエンティストは、機械学習アルゴリズムをトレーニングするための高品質で準拠したデータを見つけることができ、BIユーザーは、特定のドメインに合わせて調整されたデータ・セットを見つけることができます。
すべてのリンク先は、ibm.comの外部です。
1 IDC MarketScape:ワールドワイド・データ・インテリジェンス・プラットフォーム・ソフトウェア2024年度ベンダー評価、IDC社、2024年11月。
2 データ品質:正確な洞察を得るためのベスト・プラクティス、Gartner社。
インテリジェントなカタログ作成とポリシー管理により、AIと分析用のデータを有効化します。 IBM Knowledge Catalogは、データ検出、データ品質管理、データ保護を自動化するデータ・カタログを提供するデータ・ガバナンス・ソフトウェアです。
未加工データを実行可能な洞察にすばやく変換し、データ・ガバナンス、品質、リネージ、共有を統合し、信頼性が高くコンテキスト化されたデータでデータ・コンシューマーを支援します。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築できます。