データ・エンリッチメントとは

執筆者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

データ・エンリッチメントとは

データ・エンリッチメントは、内部または外部ソースからの追加情報でデータ・セットを補完することで、データ品質と使いやすさを向上させる手法です。

 

組織はこれまで以上に多くのデータを収集していますが、そのデータにはコンテキストや意味が欠けていることがよくあります。データ・エンリッチメントは、未加工データまたは構造化データ・セットの形式を問わず、これらのギャップを埋め、既存のデータ・ポイントの理解を深めるのに役立ちます。このようにデータを拡張すると、データ・セットが不可解なものから気づきやすいものへと変化し、組織はより多くの情報に基づいた意思決定を行うことができるようになります。

データ・エンリッチメントの実践は、多くの場合、企業のデータ管理マスターデータ管理プログラムの一部となっています。組織が追求するデータ・エンリッチメントには、ビジネス・ニーズやデータ・ソースに応じて、人口統計、企業統計、地理的強化など、いくつかの種類があります。データチームが手作業でデータ・エンリッチメントを行うこともできますが、人工知能(AI)とオートメーションはデータ・エンリッチメントのプロセス最適化に役立ちます。

データ・エンリッチメントの一般的なユースケースはマーケティング・ストラテジーにおけるものですが、サイバーセキュリティー、医療、都市計画などの分野でも、データ・エンリッチメントのプロセスは重要な役割を果たすことがあります。データ・エンリッチメントは、機械学習モデルの性能を向上させる上で、ますます価値が高まっていることも証明されています。これにより、より正確な予測のためのコンテキストとより完全なデータが提供されます。

データ・エンリッチメントが重要な理由

部分的にしか描かれていないキャンバスを想像してみてください。その下半分は海を表す青い色が筆で描かれ、その中央にいくつかの奇妙な金色のパッチが浮かんでいます。しかし、絵が完成すると、それらのパッチが光の反射であることは明らかになります。完成した絵は、水面に沈む太陽を描いています。

未完成のキャンバスは、それ自体が芸術作品でもありますが、それ以上のものになる可能性もあります。データ・セットがデータ・エンリッチメントによって改善された場合にも同じことが言えます。

例えば、名前と電話番号のみを含む顧客データのテーブルにEメールアドレスを追加すると、これはアウトリーチのためのより強力なツールになります。所在地のデータセットに地理座標を追加すると、地域の土地利用についてより深い洞察が得られます。

企業が大量の生データと非構造化データを生成および収集し続けるにつれて、データ・エンリッチメントが新たな緊急性を帯びてきています。未加工データや非構造化データが増えると、データ・セット内のギャップや文脈の欠落が増えます。しかし、データ・エンリッチメントを通じて、組織はこのデータをより意味のある他のデータポイントと関連付け、データ資産の投資収益率を向上させることができます。

データ・エンリッチメントのメリットとは

データ・エンリッチメントは、次のような多様なメリットをもたらします。

  • データ精度の向上データ・エンリッチメントにより、不完全な郵送先住所や役職の欠落など、既存データのギャップを埋めることができます。
 
  • 信頼性の向上:さまざまな次元のデータ(業種・業務分類コードで強化されたビジネス名のデータ・セットなど)を確認することで、ユーザーは目的に合った適切なデータ・ポイントにアクセスしていることを確信できます。
 
  • AIの性能向上:機械学習生成AI モデルを含む人工知能は、高品質で完全なデータが供給されたときに最も優れた性能を発揮します。
 
  • 意思決定のための洞察: データ・エンリッチメントによって得られる包括的なデータセットは、企業が市場の需要や料金体系などに関連する新たなパターンや機会を発見するのに役立ちます。 たとえば、顧客に関する洞察は、顧客の嗜好に基づいて的を絞ったマーケティング活動に役立つ情報を提供できます。
 
AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

データ・エンリッチメントとデータ・エンハンスメントの違いとは

「データ・エンリッチメント」と「データ・エンハンスメント」という用語は同じ意味で使用されることがよくありますが、これらは異なるプロセスです。どちらもデータ品質を向上させることができますが、データ・エンハンスメントは手元にあるデータの操作に重点を置いているのに対し、データ・エンリッチメントはデータ・セットに新しいデータポイントを追加することに重点を置いています。

データ・エンハンスメントでは、データのクリーニングと更新が中核的な機能です。列内のMissing Valuesに対処したり、古い情報を更新したりするために、新しいデータを追加することが必要になる場合がありますが、導入される新しいデータの量はデータ改善の規模に達していません。

データ・エンリッチメントにより、既存のデータ・セットに新しいフィールドが追加されることがよくあります。データ・エンハンスメントと同様に、データ・クレンジングはプロセスの一部ですが、ここでは、新しい情報を追加する準備として行われます。(以下の「データ・エンハンスメントのための主要なステップ」をご参照ください。)

データ・エンリッチメントの種類

組織は通常、既存のデータ・セットに情報を追加するために、次の種類のデータ・エンリッチメント手法を1つ以上使用します。

  • 行動データのエンリッチメント:顧客の行動と、製品、サービス、およびモバイル・アプリケーションやソーシャル・メディア・アカウントを含むさまざまなコミュニケーション・チャネルとのエンゲージメントに関するデータ。
 
  • 連絡先データのエンリッチメント:電話番号、Eメールアドレス、所属組織、ソーシャル・メディア・プロファイルなど、連絡先リストを充実させるための情報。
 
  • 人口統計データのエンリッチメント:年齢、性別、民族、婚姻状況、収入などの特徴。ソーシャル・デモグラフィック・エンリッチメントとも呼ばれます。
 
  • フィルモグラフィックのエンリッチメント: 会社に関する詳細(業種、規模、収益、所在地など)。
 
  • 地理的エンリッチメント:住所、郵便番号、国または地域、地理座標など、企業や組織の場所に関する情報。
 
  • 心理的エンリッチメント:個人のライフスタイル、興味、態度、信念に関するデータ。
 
  • テクノグラフィック・エンリッチメント:アプリケーション、ツール、ハードウェア、ソフトウェア、ITインフラストラクチャーなど、個人または組織が使用するテクノロジーの種類に関するデータ。

データ・エンリッチメントの主な手順

データ・エンリッチメントのプロセスは組織によって異なる場合がありますが、共通する手順はいくつかあります。

データ・クレンジング

標準化(形式の一貫性を確保)やデータ重複排除などの手法を通じて、エンリッチメントの対象となるデータ・セットをクリーンアップします。

エンリッチメントの機会の特定

データ・セットに追加する価値がある情報の種類を判断します。

データ・ソーシング

新しいデータのソースを決定し、必要に応じて内部および外部のソースを選択します。

データ統合

データ統合ソフトウェアなどのツールを使って、新しいデータをターゲット・データセットに追加します。

データ・エンリッチメントに使用されるデータ・ソースの種類とは

組織は、ファーストパーティ・データ(顧客から直接収集されたデータ)とサードパーティ・ソースからのデータを含む内部データを使用してデータ・エンリッチメントを実行できます。

内部ソースからのデータを使用する企業は、データのサイロ化という障害に直面する可能性があります。幸いなことに、データ統合(異種の情報源からデータを統合し、統一され使いやすい形式に変換するプロセス)を通じて、サイロ化を打破することができます。例えば、組織は顧客関係管理(CRM)システムとマーケティング・データベースからのデータを統合することで、顧客データ・セットを強化することができます。

また、企業は外部のデータ・ソース、つまり無料の公開データ・ソースやサードパーティのデータ・プロバイダーを利用することもできます。公開データ・ソースには、官公庁・自治体のデータ・セット(例:国勢調査データ、雇用レポート)が含まれる一方で、サードパーティのデータ・プロバイダーは、連絡先データ、人口統計データ、企業統計データなどのさまざまなデータを収集して販売します。サードパーティのデータを選択する際、企業はデータが正確でタイムリーかつ品質基準を満たしていることを確信できるように、信頼できる情報源やベンダーとのみ連携する必要があります。

データ・エンリッチメント・プロセスの一環として調達され保管されるデータは、GDPRやHIPAA(医療保険の相互運用性と説明責任に関する法律 )など、データ・プライバシーとセキュリティーを管理する規則に従って管理される必要があります。

データ・エンリッチメント・ツール

データ駆動型の意思決定とAI関連のデータ・ニーズの高まりに伴い、高品質のデータ、さらにはデータ・エンリッチメント・ツールに対する需要が高まっています。データ・エンリッチメント・ソリューションの世界市場は、2023年の約24億米ドルから、2030年には約46億米ドルに達すると予測されています。

AIの導入はデータ・エンリッチメント・ソリューションの利用を促進すると同時に、最先端のデータ・エンリッチメント・ツールの一部を支えるものでもあります。一般的なデータ・エンリッチメント・ツールとソリューションには、次のようなものがあります。

  • データ統合ソリューション: データ統合ソリューションは、データ・クレンジングやその他のデータ修正だけでなく、データ・エンリッチメントを含む抽出、変換、ロード(ETL)プロセスをサポートします。(データ統合ソリューションでは、データが強化された後にも運用可能となり、強化されたデータをウェアハウスやその他の宛先にロードして分析できることに注意することが重要です。)
 
  • オープンデータレイクハウス: 先進的な データレイクハウス・ソリューションは、非構造化データの 取り込みとエンリッチメントを自動化し、構造化データと統合することができます。
 
 
  • エージェントによるエンリッチメント・ワークフロー・ソリューション: AIエージェントにより、データ・エンリッチメントのプロセスをさらに合理化することができます。エージェントによるデータ・エンリッチメントの1つのモデルでは、ユーザーがスプレッドシートを作成し、アプリケーション・プログラミング・インターフェース(API)をトリガーして、Webから関連するリアルタイム・データを検索して取り込みます。新しい情報はLLMによって処理され、スプレッドシートに追加されます。 1

データ・エンリッチメントのユースケース

データ・エンリッチメントは、さまざまな分野や業種・業務に応用できます。

マーケティングおよび営業

マーケティングや営業チームは、データ・エンリッチメント(特に行動データ、人口統計、企業統計のエンリッチメント)を頻繁に利用しています。強化されたデータを活用して顧客プロファイルを構築し、セグメンテーション戦略をサポートし、カスタマイズされたマーケティング・キャンペーンを作成し、パーソナライズされた顧客体験を提供します。

都市計画

高品質の空間データは、都市計画と開発に不可欠です。ジオコーディングとして知られる地理情報のエンリッチメントの一種は、所在地から緯度と経度の測定値を導き出すことで、都市計画者がより正確に場所を特定するのに役立ちます。

医療およびライフサイエンス

ウェアラブル・デバイス、ヘルスやフィットネス関連のアプリ、その他のヘルス・モニタリング・テクノロジーは、患者や研究のデータセットを充実させるための新しい情報源として機能しています。このようなエンリッチメントは、医療専門家が患者ケアを改善するのに役立ち、研究者が重要なパターンや洞察を発見するのにも役立ちます。

サイバーセキュリティー

セキュリティー・イベント・データを、物理的な場所(地理的エンリッチメント)や使用されているデバイス(技術的エンリッチメント)などの情報で強化することで、サイバーセキュリティー・リスクと脆弱性のアセスメントを改善できます。

関連ソリューション
データ管理ソフトウェアとソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

  1. データ管理ソリューションの詳細はこちら
  2. watsonx.dataについてはこちら