The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
データ・メッシュとは、マーケティング、セールス、カスタマー・サービスといったビジネス・ドメインごとにデータを整理する分散型データ・アーキテクチャーのことです。ドメインのデータ作成者はデータを製品として扱い、ビジネス・ユーザーが組織全体からデータを簡単に検索、理解、使用できるようにします。
このドメイン駆動設計は、集中型のモノリシック・データ・システムに見られる運用上のボトルネックの多くに対処します。しかし、データ・メッシュを採用したからといって、従来のデータ・ストレージ・システム(データレイクやデータウェアハウスなど)が時代遅れになるわけではありません。代わりに、その役割は、単一の集中型データ・プラットフォームとしての機能から、複数の分散型データ・リポジトリーのサポートへと移行します。
データ・メッシュの概念は、ITコンサルタント会社ThoughtWorks社の新興テクノロジー担当ディレクターであるZhamak Dehghani氏によって導入され、普及しました。同氏は、限られたアクセスや組織的なサイロなど、集中型データ・アーキテクチャーに固有の課題に対するソリューションとして、この分散型データ・アーキテクチャーを提案しました。
データ・メッシュは一般的にマイクロサービス・アーキテクチャーと比較されます。マイクロサービス・アーキテクチャーとは、1つのアプリケーションが多数の小規模で疎結合なサービスで構成されるアーキテクチャーであり、どちらも分散化、自律性、スケーラビリティーを重視しているからです。
組織は毎日、膨大な量のデータを作成し、収集しています。各部門や事業単位が生成するデータセットは、多くの場合、異種のリポジトリーに保管され、一元化されたデータ・チームによって管理されています。
このような分離は、データのサイロ化、つまり、データの共有を妨げ、データ品質を低下させ、データ駆動型意思決定を弱める、業務データと分析データの分離されたコレクションを生み出します。データのサイロ化も、ビッグデータ、機械学習(ML)、人工知能(AI)の取り組みの効果を制限します。
実際、IBM Data Differentiatorによると、企業の82%がデータのサイロ化によってクリティカルなワークフローが中断され、企業データの68%が分析されないままであると報告しています。
分散データ・メッシュ・アーキテクチャーは、データの所有権と管理を分散化することでこれらの課題に対処します。集中化されたデータ・チームや従来のパイプラインに頼るのではなく、データの所有権はドメイン・チームに移転されます。これらのチームは自分たちでデータを管理し、セルフサービス・データ・インフラを通じて、組織の残りの部分に製品として提供します。
このData as a Productアプローチは、アクセシビリティ、ガバナンス、ユーティリティーを重視します。これは、データは高品質の消費者製品と同様に、ユーザーの特定のデータ・ニーズを満たすように管理および整理されるべきであるという原則に基づいています。
データ・プロダクトは、データ、メタデータ、セマンティクス、テンプレートを含む、再利用可能で自己完結型の資産です。特定のユースケース向けに設計されており、企業全体の幅広いユーザーにサービスを提供することで、他の方法ではサイロ化されている可能性のあるデータから有意義なビジネス価値を抽出できるようになります。
データ・プロダクトは、プロダクト思考アプローチと従来の製品開発原則を適用して開発されます。このアプローチでは、ユーザーのデータ・ニーズを理解し、価値の高い機能に優先順位を付け、フィードバックに基づいて繰り返すことが含まれます。
効果的なデータ製品は、発見可能、理解可能、相互運用可能、共有可能、安全かつ再利用可能である必要があります。
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
データ・メッシュのパラダイムは単なる技術的な実装ではありません。これには、組織がデータの所有権とアクセスについて考察する方法の文化的変化が伴います。従来、組織はドメイン・データをプロセスやシステムの副産物として扱っていました。ただし、データ・メッシュではデータを製品として扱うため、ドメイン・チームはデータ・プロダクトの所有者になります。
Zhamak Dehghani氏によると、データ・メッシュには4つの基本原則があります。1
従来は、中央集権型のインフラストラクチャーチームまたはデータ・エンジニアリング・チームが、複数のドメインにわたるデータの所有権を管理していました。データ・メッシュ・モデルでは、この所有権は分散化され、データに最も近く、データの使用方法に最も精通しているドメイン・チームに移行します。これらのデータ所有者は、特定の用途に合わせてカスタマイズされたデータ製品を作成する責任を負います。
ドメイン・チームはまた、データ・メッシュ・アーキテクチャー内で、独自の抽出、変換、ロード(ETL)/抽出、ロード、変換(ELT)パイプラインを管理します。ただし、この責任があるからといって、一元化されたデータ・エンジニアリング・チームが不要になるわけではありません。その代わりに、その役割は、データ製品を保管および提供するための最適なデータ・インフラストラクチャー・ソリューションの提供および保守に移行します。
data-as-a-product(DaaP)のアプローチでは、データセットを組織内外の様々なユーザーに提供できる市場性のある製品として扱います。ドメイン・データ製品は、アプリケーション・プログラミング・インターフェース(API)やデータ共有プラットフォームを通じて、組織全体のユーザーがアクセスできるようになっています。
このように、データ・メッシュ・アプローチにより、より柔軟なデータ統合と相互運用可能なデータ・プロダクトが実現します。データ分析、データサイエンス、機械学習、その他のユースケースのために、複数のドメインからのデータを容易に消費することができます。
セルフサービス・データ・プラットフォームには、製品構築の専門知識があまりないドメイン・チームが、新しいデータ・プロダクトを作成、保守、共有するのに役立つツールが備わっています。データ・プラットフォーム・チームは、スケーラブルなデータ・ストレージ、データ・パイプライン・オーケストレーション、データ・リネージュなどのデータ・サービスを提供することができます。
セルフサービス・プラットフォームは、さまざまなユーザーにサービスを提供するために、さまざまなプレーンまたはレイヤーを設定することもできます。Dehghani氏は、データ・インフラストラクチャー・プロビジョニング・プレーン、データ製品開発者エクスペリエンス・プレーン、データ・メッシュ監督プレーンの3つの例を挙げています。
データ・メッシュ・エコシステムでは、ドメイン・チームがドキュメンテーション、品質、アクセスに関連するデータ・ガバナンス・ポリシーを定義する責任を負います。これには、セマンティック定義の維持、メタデータのカタログ化、権限と使用ポリシーの設定が含まれます。
この標準化は組織全体のセルフサービス・データ・アクセスをサポートし、中央のデータ・ガバナンス・チームは組織の標準を確立して維持します。
データ・ファブリックとデータ・メッシュは補完的なデータ・アーキテクチャーです。実際、データ・ファブリックは多くの場合機能を強化し、データ・メッシュの実装を可能にします。
データ・ファブリックは、インテリジェントで自動化されたシステムを使用して、サイロを取り除き、データ資産を管理し、データ管理を大規模に最適化します。データ取り込み、データ統合、データ・エンジニアリング、ガバナンスの自動化に重点を置いています。例えば、データ・ファブリックは、データ製品の作成やそのライフサイクルの管理など、データ・メッシュの主要な部分を自動化できます。
組織がデータ・メッシュ・アーキテクチャーを採用することで、エクスペリエンスを含むさまざまなメリットを享受できます。
データ・メッシュ・アーキテクチャーは、データセットを検出可能にして利用可能にすることで、セルフサービスのデータ・アクセスを容易にします。この民主化により、データ・アクセスは、データサイエンティスト、データ・エンジニア、開発者などの技術チームの枠を超えて拡大します。適切なガバナンスがあれば、このアプローチはデータ・サイロや運用上のボトルネックを減らし、より迅速でアジャイルな意思決定を可能にします。
企業がクラウドインフラ上にデータ・メッシュを実装する場合、データ・チームは必要に応じてストレージやコンピューティング・リソースを拡張することができます。例えば、数日ではなく数時間でジョブを完了するために追加のコンピューティング能力が必要な場合、企業は一時的な追加のコンピューティング・ノードを簡単にプロビジョニングできます。
データ・パイプラインの責任をドメインごとに分散すると、集中型データ・システムを維持するために必要な複雑さとコラボレーションが不要になります。この分散型アプローチにより、技術的な負担と負債が軽減され、データ・コンシューマーへの提供が加速されます。
データ・メッシュは、ドメインチームが、標準化された、ドメインにとらわれないデータフィールドとフォーマット(フィールドタイプ、メタデータ、スキーマフラグなど)に合意することを奨励します。これらの共有ルールにより、ドメイン間で関連するルールを迅速かつ簡単に適用できるため、統合と再利用が容易になります。
データ・メッシュ・アーキテクチャーは、標準化されたルールと組み込みオブザーバビリティーを通じて、ドメイン・レベルでデータ・ルールとアクセス制御を適用するのに役立ちます。この強力なガバナンス体制は、米国医療保険の相互運用性と説明責任に関する法律(HIPAA)のような機密データに関する規制に組織が従っていることを保証するのに役立ちます。
データ・メッシュ・アーキテクチャーは、ドメイン・オーナーシップと分散型データ・エコシステムを通じて、組織が次のようなさまざまなユースケースでデータへのアクセス性と使いやすさを向上させるのに役立ちます。
発見可能で、ドメインが所有し、キュレートされたデータセットは、BIイニシアチブをサポートします。チームは、中央のデータ・エンジニアリング・チームの技術的支援がなくても、これらのデータセットをBIダッシュボードやデータの可視化に簡単に追加できます。
チャットボットとバーチャル・アシスタントは、質の高い関連データにアクセスできるときに最高のパフォーマンスを発揮します。データ・メッシュ・アーキテクチャーは、複数のドメインにまたがるより高品質なデータ・ソースをこれらのシステムで利用できるようにします。
組織は、複数のドメインにわたって標準化された顧客データを組み合わせることで、顧客をより統一的に把握できます。この視点により、パーソナライゼーションやターゲティングの取り組みを含め、顧客体験全体を向上させることができます。
標準化されたデータにより、データサイエンティストがさまざまなドメインのデータを組み合わせるのに費やす時間を短縮できます。こうした時間短縮によりデータ処理が高速化され、本番環境に移動できるモデルの数が増えます。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1 「Data Mesh Principles and Logical Architecture」、Martin Fowler、2020年12月3日。