組織はこれまで以上に多くのデータを収集していますが、そのデータにはコンテキストや意味が欠けていることがよくあります。データ・エンリッチメントは、未加工データまたは構造化データ・セットの形式を問わず、これらのギャップを埋め、既存のデータ・ポイントの理解を深めるのに役立ちます。このようにデータを拡張すると、データ・セットが不可解なものから気づきやすいものへと変化し、組織はより多くの情報に基づいた意思決定を行うことができるようになります。
データ・エンリッチメントの実践は、多くの場合、企業のデータ管理やマスターデータ管理プログラムの一部となっています。組織が追求するデータ・エンリッチメントには、ビジネス・ニーズやデータ・ソースに応じて、人口統計、企業統計、地理的強化など、いくつかの種類があります。データチームが手作業でデータ・エンリッチメントを行うこともできますが、人工知能(AI)とオートメーションはデータ・エンリッチメントのプロセス最適化に役立ちます。
データ・エンリッチメントの一般的なユースケースはマーケティング・ストラテジーにおけるものですが、サイバーセキュリティー、医療、都市計画などの分野でも、データ・エンリッチメントのプロセスは重要な役割を果たすことがあります。データ・エンリッチメントは、機械学習モデルの性能を向上させる上で、ますます価値が高まっていることも証明されています。これにより、より正確な予測のためのコンテキストとより完全なデータが提供されます。
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
部分的にしか描かれていないキャンバスを想像してみてください。その下半分は海を表す青い色が筆で描かれ、その中央にいくつかの奇妙な金色のパッチが浮かんでいます。しかし、絵が完成すると、それらのパッチが光の反射であることは明らかになります。完成した絵は、水面に沈む太陽を描いています。
未完成のキャンバスは、それ自体が芸術作品でもありますが、それ以上のものになる可能性もあります。データ・セットがデータ・エンリッチメントによって改善された場合にも同じことが言えます。
例えば、名前と電話番号のみを含む顧客データのテーブルにEメールアドレスを追加すると、これはアウトリーチのためのより強力なツールになります。所在地のデータセットに地理座標を追加すると、地域の土地利用についてより深い洞察が得られます。
企業が大量の生データと非構造化データを生成および収集し続けるにつれて、データ・エンリッチメントが新たな緊急性を帯びてきています。未加工データや非構造化データが増えると、データ・セット内のギャップや文脈の欠落が増えます。しかし、データ・エンリッチメントを通じて、組織はこのデータをより意味のある他のデータポイントと関連付け、データ資産の投資収益率を向上させることができます。
データ・エンリッチメントは、次のような多様なメリットをもたらします。
「データ・エンリッチメント」と「データ・エンハンスメント」という用語は同じ意味で使用されることがよくありますが、これらは異なるプロセスです。どちらもデータ品質を向上させることができますが、データ・エンハンスメントは手元にあるデータの操作に重点を置いているのに対し、データ・エンリッチメントはデータ・セットに新しいデータポイントを追加することに重点を置いています。
データ・エンハンスメントでは、データのクリーニングと更新が中核的な機能です。列内のMissing Valuesに対処したり、古い情報を更新したりするために、新しいデータを追加することが必要になる場合がありますが、導入される新しいデータの量はデータ改善の規模に達していません。
データ・エンリッチメントにより、既存のデータ・セットに新しいフィールドが追加されることがよくあります。データ・エンハンスメントと同様に、データ・クレンジングはプロセスの一部ですが、ここでは、新しい情報を追加する準備として行われます。(以下の「データ・エンハンスメントのための主要なステップ」をご参照ください。)
組織は通常、既存のデータ・セットに情報を追加するために、次の種類のデータ・エンリッチメント手法を1つ以上使用します。
データ・エンリッチメントのプロセスは組織によって異なる場合がありますが、共通する手順はいくつかあります。
標準化(形式の一貫性を確保)やデータ重複排除などの手法を通じて、エンリッチメントの対象となるデータ・セットをクリーンアップします。
データ・セットに追加する価値がある情報の種類を判断します。
新しいデータのソースを決定し、必要に応じて内部および外部のソースを選択します。
データ統合ソフトウェアなどのツールを使って、新しいデータをターゲット・データセットに追加します。
組織は、ファーストパーティ・データ(顧客から直接収集されたデータ)とサードパーティ・ソースからのデータを含む内部データを使用してデータ・エンリッチメントを実行できます。
内部ソースからのデータを使用する企業は、データのサイロ化という障害に直面する可能性があります。幸いなことに、データ統合(異種の情報源からデータを統合し、統一され使いやすい形式に変換するプロセス)を通じて、サイロ化を打破することができます。例えば、組織は顧客関係管理(CRM)システムとマーケティング・データベースからのデータを統合することで、顧客データ・セットを強化することができます。
また、企業は外部のデータ・ソース、つまり無料の公開データ・ソースやサードパーティのデータ・プロバイダーを利用することもできます。公開データ・ソースには、官公庁・自治体のデータ・セット(例:国勢調査データ、雇用レポート)が含まれる一方で、サードパーティのデータ・プロバイダーは、連絡先データ、人口統計データ、企業統計データなどのさまざまなデータを収集して販売します。サードパーティのデータを選択する際、企業はデータが正確でタイムリーかつ品質基準を満たしていることを確信できるように、信頼できる情報源やベンダーとのみ連携する必要があります。
データ・エンリッチメント・プロセスの一環として調達され保管されるデータは、GDPRやHIPAA(医療保険の相互運用性と説明責任に関する法律 )など、データ・プライバシーとセキュリティーを管理する規則に従って管理される必要があります。
データ駆動型の意思決定とAI関連のデータ・ニーズの高まりに伴い、高品質のデータ、さらにはデータ・エンリッチメント・ツールに対する需要が高まっています。データ・エンリッチメント・ソリューションの世界市場は、2023年の約24億米ドルから、2030年には約46億米ドルに達すると予測されています。
AIの導入はデータ・エンリッチメント・ソリューションの利用を促進すると同時に、最先端のデータ・エンリッチメント・ツールの一部を支えるものでもあります。一般的なデータ・エンリッチメント・ツールとソリューションには、次のようなものがあります。
データ・エンリッチメントは、さまざまな分野や業種・業務に応用できます。
マーケティングや営業チームは、データ・エンリッチメント(特に行動データ、人口統計、企業統計のエンリッチメント)を頻繁に利用しています。強化されたデータを活用して顧客プロファイルを構築し、セグメンテーション戦略をサポートし、カスタマイズされたマーケティング・キャンペーンを作成し、パーソナライズされた顧客体験を提供します。
高品質の空間データは、都市計画と開発に不可欠です。ジオコーディングとして知られる地理情報のエンリッチメントの一種は、所在地から緯度と経度の測定値を導き出すことで、都市計画者がより正確に場所を特定するのに役立ちます。
ウェアラブル・デバイス、ヘルスやフィットネス関連のアプリ、その他のヘルス・モニタリング・テクノロジーは、患者や研究のデータセットを充実させるための新しい情報源として機能しています。このようなエンリッチメントは、医療専門家が患者ケアを改善するのに役立ち、研究者が重要なパターンや洞察を発見するのにも役立ちます。
セキュリティー・イベント・データを、物理的な場所(地理的エンリッチメント)や使用されているデバイス(技術的エンリッチメント)などの情報で強化することで、サイバーセキュリティー・リスクと脆弱性のアセスメントを改善できます。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1 「スマートなデータ・エンリッチメントを推進:IBMとTavilyがエージェント型AIソリューションで提携」IBM.com。2025年6月9日。