データ・メッシュとは

執筆者

Staff Editor

IBM Think

Staff Writer

IBM Think

データ・メッシュとは

データ・メッシュとは、マーケティング、セールス、カスタマー・サービスといったビジネス・ドメインごとにデータを整理する分散型データ・アーキテクチャーのことです。ドメインのデータ作成者はデータを製品として扱い、ビジネス・ユーザーが組織全体からデータを簡単に検索、理解、使用できるようにします。

このドメイン駆動設計は、集中型のモノリシック・データ・システムに見られる運用上のボトルネックの多くに対処します。しかし、データ・メッシュを採用したからといって、従来のデータ・ストレージ・システム（データレイクやデータウェアハウスなど）が時代遅れになるわけではありません。代わりに、その役割は、単一の集中型データ・プラットフォームとしての機能から、複数の分散型データ・リポジトリーのサポートへと移行します。

データ・メッシュの概念は、ITコンサルタント会社ThoughtWorks社の新興テクノロジー担当ディレクターであるZhamak Dehghani氏によって導入され、普及しました。同氏は、限られたアクセスや組織的なサイロなど、集中型データ・アーキテクチャーに固有の課題に対するソリューションとして、この分散型データ・アーキテクチャーを提案しました。

データ・メッシュは一般的にマイクロサービス・アーキテクチャーと比較されます。マイクロサービス・アーキテクチャーとは、1つのアプリケーションが多数の小規模で疎結合なサービスで構成されるアーキテクチャーであり、どちらも分散化、自律性、スケーラビリティーを重視しているからです。

なぜデータ・メッシュを使うのですか？

組織は毎日、膨大な量のデータを作成し、収集しています。各部門や事業単位が生成するデータセットは、多くの場合、異種のリポジトリーに保管され、一元化されたデータ・チームによって管理されています。

このような分離は、データのサイロ化、つまり、データの共有を妨げ、データ品質を低下させ、データ駆動型意思決定を弱める、業務データと分析データの分離されたコレクションを生み出します。データのサイロ化も、ビッグデータ、機械学習（ML）、人工知能（AI）の取り組みの効果を制限します。

実際、IBM Data Differentiatorによると、企業の82%がデータのサイロ化によってクリティカルなワークフローが中断され、企業データの68%が分析されないままであると報告しています。

分散データ・メッシュ・アーキテクチャーは、データの所有権と管理を分散化することでこれらの課題に対処します。集中化されたデータ・チームや従来のパイプラインに頼るのではなく、データの所有権はドメイン・チームに移転されます。これらのチームは自分たちでデータを管理し、セルフサービス・データ・インフラを通じて、組織の残りの部分に製品として提供します。

このData as a Productアプローチは、アクセシビリティ、ガバナンス、ユーティリティーを重視します。これは、データは高品質の消費者製品と同様に、ユーザーの特定のデータ・ニーズを満たすように管理および整理されるべきであるという原則に基づいています。

データ・プロダクトとは

データ・プロダクトは、データ、メタデータ、セマンティクス、テンプレートを含む、再利用可能で自己完結型の資産です。特定のユースケース向けに設計されており、企業全体の幅広いユーザーにサービスを提供することで、他の方法ではサイロ化されている可能性のあるデータから有意義なビジネス価値を抽出できるようになります。

データ・プロダクトは、プロダクト思考アプローチと従来の製品開発原則を適用して開発されます。このアプローチでは、ユーザーのデータ・ニーズを理解し、価値の高い機能に優先順位を付け、フィードバックに基づいて繰り返すことが含まれます。

効果的なデータ製品は、発見可能、理解可能、相互運用可能、共有可能、安全かつ再利用可能である必要があります。

詳細を読む：データ製品とは

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

データ・メッシュの仕組み

データ・メッシュのパラダイムは単なる技術的な実装ではありません。これには、組織がデータの所有権とアクセスについて考察する方法の文化的変化が伴います。従来、組織はドメイン・データをプロセスやシステムの副産物として扱っていました。ただし、データ・メッシュではデータを製品として扱うため、ドメイン・チームはデータ・プロダクトの所有者になります。

Zhamak Dehghani氏によると、データ・メッシュには4つの基本原則があります。¹

ドメイン指向の分散型データの所有権とアーキテクチャー
製品としてのデータ
プラットフォームとしてのセルフサービス・データ・インフラストラクチャー
フェデレーテッド計算ガバナンス

ドメイン指向の分散型データの所有権とアーキテクチャー

従来は、中央集権型のインフラストラクチャーチームまたはデータ・エンジニアリング・チームが、複数のドメインにわたるデータの所有権を管理していました。データ・メッシュ・モデルでは、この所有権は分散化され、データに最も近く、データの使用方法に最も精通しているドメイン・チームに移行します。これらのデータ所有者は、特定の用途に合わせてカスタマイズされたデータ製品を作成する責任を負います。

ドメイン・チームはまた、データ・メッシュ・アーキテクチャー内で、独自の抽出、変換、ロード（ETL）／抽出、ロード、変換（ELT）パイプラインを管理します。ただし、この責任があるからといって、一元化されたデータ・エンジニアリング・チームが不要になるわけではありません。その代わりに、その役割は、データ製品を保管および提供するための最適なデータ・インフラストラクチャー・ソリューションの提供および保守に移行します。

製品としてのデータ

data-as-a-product（DaaP）のアプローチでは、データセットを組織内外の様々なユーザーに提供できる市場性のある製品として扱います。ドメイン・データ製品は、アプリケーション・プログラミング・インターフェース（API）やデータ共有プラットフォームを通じて、組織全体のユーザーがアクセスできるようになっています。

このように、データ・メッシュ・アプローチにより、より柔軟なデータ統合と相互運用可能なデータ・プロダクトが実現します。データ分析、データサイエンス、機械学習、その他のユースケースのために、複数のドメインからのデータを容易に消費することができます。

プラットフォームとしてのセルフサービス・データ・インフラストラクチャー

セルフサービス・データ・プラットフォームには、製品構築の専門知識があまりないドメイン・チームが、新しいデータ・プロダクトを作成、保守、共有するのに役立つツールが備わっています。データ・プラットフォーム・チームは、スケーラブルなデータ・ストレージ、データ・パイプライン・オーケストレーション、データ・リネージュなどのデータ・サービスを提供することができます。

セルフサービス・プラットフォームは、さまざまなユーザーにサービスを提供するために、さまざまなプレーンまたはレイヤーを設定することもできます。Dehghani氏は、データ・インフラストラクチャー・プロビジョニング・プレーン、データ製品開発者エクスペリエンス・プレーン、データ・メッシュ監督プレーンの3つの例を挙げています。

フェデレーション・ガバナンスとパイプライン管理

データ・メッシュ・エコシステムでは、ドメイン・チームがドキュメンテーション、品質、アクセスに関連するデータ・ガバナンス・ポリシーを定義する責任を負います。これには、セマンティック定義の維持、メタデータのカタログ化、権限と使用ポリシーの設定が含まれます。

この標準化は組織全体のセルフサービス・データ・アクセスをサポートし、中央のデータ・ガバナンス・チームは組織の標準を確立して維持します。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

データ・メッシュとデータ・ファブリック

データ・ファブリックとデータ・メッシュは補完的なデータ・アーキテクチャーです。実際、データ・ファブリックは多くの場合機能を強化し、データ・メッシュの実装を可能にします。

データ・ファブリックは、インテリジェントで自動化されたシステムを使用して、サイロを取り除き、データ資産を管理し、データ管理を大規模に最適化します。データ取り込み、データ統合、データ・エンジニアリング、ガバナンスの自動化に重点を置いています。例えば、データ・ファブリックは、データ製品の作成やそのライフサイクルの管理など、データ・メッシュの主要な部分を自動化できます。

データ・ファブリックとデータ・メッシュの違いについての詳細はこちら

データ・メッシュのメリット

組織がデータ・メッシュ・アーキテクチャーを採用することで、エクスペリエンスを含むさまざまなメリットを享受できます。

データの民主化と発見性
コスト効率
拡張への柔軟性
技術的負債の削減
相互運用性の向上
セキュリティーとコンプライアンスの強化

データの民主化と発見性

データ・メッシュ・アーキテクチャーは、データセットを検出可能にして利用可能にすることで、セルフサービスのデータ・アクセスを容易にします。この民主化により、データ・アクセスは、データサイエンティスト、データ・エンジニア、開発者などの技術チームの枠を超えて拡大します。適切なガバナンスがあれば、このアプローチはデータ・サイロや運用上のボトルネックを減らし、より迅速でアジャイルな意思決定を可能にします。

コスト効率

データ・メッシュの分散アーキテクチャーは、クラウドデータ・プラットフォームやパイプラインの採用を促進することができます。クラウドデータ・プラットフォームやパイプラインは、リアルタイムデータのストリーミングのためです。これらのツールにより、ストレージと処理コストの可視性が向上し、エンジニアリング・チームによる予算とリソースの割り当てを改善することが可能になります。

拡張の柔軟性

企業がクラウドインフラ上にデータ・メッシュを実装する場合、データ・チームは必要に応じてストレージやコンピューティング・リソースを拡張することができます。例えば、数日ではなく数時間でジョブを完了するために追加のコンピューティング能力が必要な場合、企業は一時的な追加のコンピューティング・ノードを簡単にプロビジョニングできます。

技術的負債の削減

データ・パイプラインの責任をドメインごとに分散すると、集中型データ・システムを維持するために必要な複雑さとコラボレーションが不要になります。この分散型アプローチにより、技術的な負担と負債が軽減され、データ・コンシューマーへの提供が加速されます。

相互運用性の向上

データ・メッシュは、ドメインチームが、標準化された、ドメインにとらわれないデータフィールドとフォーマット（フィールドタイプ、メタデータ、スキーマフラグなど）に合意することを奨励します。これらの共有ルールにより、ドメイン間で関連するルールを迅速かつ簡単に適用できるため、統合と再利用が容易になります。

セキュリティーとコンプライアンスの強化

データ・メッシュ・アーキテクチャーは、標準化されたルールと組み込みオブザーバビリティーを通じて、ドメイン・レベルでデータ・ルールとアクセス制御を適用するのに役立ちます。この強力なガバナンス体制は、米国医療保険の相互運用性と説明責任に関する法律（HIPAA）のような機密データに関する規制に組織が従っていることを保証するのに役立ちます。