データメッシュとは

データメッシュとは何か、そしてデータ・ファブリックとの関連性、さらにデータメッシュが分散化の使用により、大規模な組織全体にわたってデータを汎用化する方法について説明します

中庭を歩く人々
データメッシュとは

データメッシュとは、特定のビジネス・ドメインによってデータを編成する、非集中データのアーキテクチャーであり、定められたデータ・セットのプロデューサーに対し、より多くの所有権を付与します。ビジネス・ドメインの例としては、マーケティング、売上、顧客サービスなどが挙げられます。 ドメイン・データを理解している複数のプロデューサーが、文書化、品質、およびアクセスに焦点を当てたデータ・ガバナンス・ポリシーを設定することになります。 それによって、組織全体で順番にセルフサービスで使用することができるようになります。 この統合アプローチは、一元化された集積システムに関する、運用上の多くのボトルネックを排除しますが、それによってデータレイクまたはデータウェアハウスのような従来のストレージ・システムが、必ずしも使用できなくなるということではありません。 そのアプローチは、使用形態を、単一で一元化されたのデータ・プラットフォームから、複数の非集中データ・レポジトリーに移していくことを意味するのです。

重要な点として、データメッシュは、クラウドネイティブおよびクラウド・プラットフォーム両方のテクノロジーの導入を促進することで、データ管理の目標を拡大し、達成することができます。 この概念は、一般的にマイクロサービスとの比較によって、オーディエンスがこのランドスケープ内でその使用法を理解するために役立ちます。 この分散型データは、組織全体のデータのニーズをスケーリングする場合に特に役立つため、データメッシュが全種類のビジネス向けではないということが推測できます。つまり、比較的小規模なビジネスは、全社的なデータがより大規模な組織と比べて複雑にならない場合があり、データメッシュのメリットを得ることがない可能性があります。  

ITコンサルタント会社である、ThoughtWorks社のテクノロジー・ディレクターのZhamak Dehghani氏は、データ・アクセシビリティーおよびデータ編成などの、一元化された集積データ構造に内在する課題へのソリューションとして、データメッシュの概念を促進した功績が評価されています。 データメッシュの採用は、新型コロナウイルス感染症によって、文化的な変化を推進してデータを巡る組織的な複雑性を削減しようという努力において、さらに促進されました。


データメッシュによる処理方法とは

データメッシュは、企業のデータに対する考え方に、文化的なシフトをもたらします。 データは、プロセスの副産物ではなく、製品そのものとして機能することとなり、そこではデータのプロデューサーが、データ製品の所有者として役割を果たすことになります。 過去には、一元化されたインフラストラクチャー・チームが、ドメイン全体のデータ所有権を維持していましたが、データメッシュ・モデルの基礎にあるプロダクト思考の焦点により、この所有権がプロデューサーに移行しています。それは、対象となる内容については、プロデューサーが専門家であるからです。 プロデューサーは、基本データの消費者およびその消費者によるドメインの運用上そして分析上のデータ活用法を理解することにより、利益を念頭に置いてAPIの設計を行うことができます。 このドメイン主導の設計により、データ・プロデューサーにはセマンティックの定義の文書化、メタデータの分類、および許可と使用方法に対するポリシー設定を行う責任も生じる中で、一元化されたデータ・ガバナンス・チームは引き続き存在し、それらの基準とデータに関する諸手続きを強化します。 さらに、ドメイン・チームにデータメッシュ・アーキテクチャーの基礎にあるETLデータパイプラインに対する責任も生じますが、それによって一元化されたデータ・エンジニアリング・チームの必要性が無くなることはありません。 ただし、彼らには、保管されているデータ製品に対する最高のデータ・インフラストラクチャー・ソリューションを決定することにより焦点を絞るという責任が生じることになります。

マイクロサービス・アーキテクチャーは、軽量のサービスを集めてつなげることにより、ビジネス向けまたは消費者向けのアプリケーションに機能性を提供します。その方法と同様に、データメッシュは、データ関連のパラメーターを設定する方法として機能ドメインを使用して、データメッシュを組織全体にわたるユーザーがアクセス可能な製品として、扱えるようにします。 このようにデータメッシュは、データ統合および相互運用可能な機能性に対して柔軟性を向上させて、そこではユーザーが、複数のドメインからのデータをビジネス・アナリティクスやデータサイエンスの実験などのために、直ちに消費することが可能です。


データメッシュとデータレイク

前述の通り、データメッシュは分散データ・アーキテクチャーであり、そこではデータが、その属するドメインによって編成され、組織全体のユーザーへのアクセシビリティー対応性を向上させます。 データレイクは低コストのストレージ環境で、通常ペタバイトの構造化、半構造化、および非構造化データを、ビジネス・アナリティクス、機械学習、およびその他アプリケーションのために格納しています。 データメッシュとは、データに対するアーキテクチャー上のアプローチのことで、データレイクはその一部になることができます。 ただし、中央のデータレイクは、まだ目的が定義されていないデータの取り込みに使用される頻度が高いため、通常はデータのゴミ捨て場としての利用がほとんどです。 その結果、データ・スワンプ(すなわち、洞察に富んだ学習を提供するための適切なデータの質とデータ・ガバナンス実践の無いデータレイク)になるという、犠牲者になる可能性があります。


データメッシュとデータ・ファブリック

データ・ファブリックとはアーキテクチャーの概念であり、データ統合、データ・エンジニアリング、およびデータ提供者とデータ消費者の間のデータ・バリュー・チェーンにおけるガバナンスに焦点を置いています。 データ・ファブリックは、「アクティブ・メタデータ」の考え方が基礎にあり、ナレッジ・グラフ、セマンティクス、およびAI/MLテクノロジーを使用して、様々な種類のメタデータ(たとえばシステム・ログ、ソーシャルなど)のパターンを発見し、その洞察をデータのバリュー・チェーンの自動化およびオーケストレーション(たとえばデータ消費者がデータ製品を見付けてそのデータ製品を自身に自動的にプロビジョンされることを可能にすること)に適用します。 データ・ファブリックは、データメッシュに対して無料で、相互に排他的であることの逆です。 実際、データ・ファブリックはデータメッシュの機能性を向上させます。その理由は、データ・ファブリックがデータ製品の作成を高速化したり、グローバル・ガバナンスの強化、および複数のデータ製品の組み合わせに対するオーケストレーションを容易にするためです。


データメッシュのメリット

データの民主化:データメッシュ・アーキテクチャーは、複数のデータソースからセルフサービスアプリケーションを促進して、データ・サイエンティストやデータ・エンジニア、および開発者などのよりテクニカルな要因以外のユーザーがデータにアクセスできるようにします。 このドメイン主導型設計を通して、データをより解明可能でアクセス可能にすることにより、データ・サイロおよび運用上のボトルネックを削減して、意思決定を迅速化して技術系のユーザーを解放することで、これらのユーザーがそのスキル・セットをより有効に活用できるタスクを優先できるようにします。

費用対効果: この分散型アーキテクチャーは、バッチ・データ処理から離れて移動していく代わりに、クラウド・データ・プラットフォームの採用、およびリアルタイムでデータ収集するためのパイプラインのストリーミングを促進します。 クラウド・ストレージは、データ・チームが必要に応じて大規模なクラスターを起動できるようにすることで、さらなるコストの利点を提供します。 つまり、数時間と数日でジョブを実行するために追加のコンピュート性能が必要な場合は、追加のコンピュート・ノードを購入することにより、クラウド・プラットフォームで簡単に実現できるのです。 これはまた、クラウド・ストレージが、ストレージのコストの可視性を向上させ、エンジニアリング・チームに対する予算を増やして、リソースの割り振りを改善することが可能になるということです。

技術的負債の軽減:一元化されたデータ・インフラストラクチャーでは、システムを維持するための複雑性および必要とされるコラボレーションによる技術的負債が、より多く発生します。 データがレポジトリー内に蓄積するにつれて、システム全体もスローダウンし始めます。 ドメインの所有権によってデータ・パイプラインを分配することにより、データ・チームはデータ消費者の要求を満たし、ストレージ・システム上の技術的な制約を削減しやすくなります。 また、それらにインターフェースするAPIを提供することで、データへのアクセス可能度を向上することができ、個人の要求の全体ボリュームを削減することができます。

相互運用性: データメッシュ・モデル下で、データ所有者は、ドメインに依存しないデータ・フィールドの前払いを標準化する方法について合意し、相互運用性を促進します。 このように、ドメイン・チームが各データベースを構造化している場合、彼らは関連ルールを適用してドメイン全体にわたるデータ・リンケージを迅速および簡単に実現します。  一般的に標準化されているフィールドには、フィールド・タイプ、メタデータ、スキーマフラグなどがあります。 ドメイン間の一貫性により、データ消費者がAPIとインターフェースすることをより簡単にできるようになり、ビジネス・ニーズにより適切に対応したアプリケーション開発が可能になります。

セキュリティとコンプライアンス: データメッシュ・アーキテクチャーは、ドメインに依存しないデータのデータ基準、および機密データのアクセス制御を実行することに役立つため、ガバナンス実践の強化を促進します。 これにより、組織がHIPPA法などの政府による規制に従うことを確実にして、このコンプライアンスについて、データ・エコシステムの構造がデータ監査の有効化を通じてサポートします。 データメッシュ・アーキテクチャーのログおよびトレース・データは、システムに可観測性を組み込みます。それにより監査人は、特定のデータにアクセスにどのユーザーがアクセスしているのか、そしてその頻度を把握することができます。


データメッシュのユースケース

分散データメッシュ・アーキテクチャはー、今も採用されつつある段階ですが、チームが一般的なビック・データのユースケースに対して、拡張容易性の目標を達成することに役立っています。 以下に例を示します。

  • ビジネス・インテリジェンス・ダッシュボード:新たなイニシアチブが生じると、通常チームにはこれらのプロジェクトのパフォーマンスを理解するために、カスタマイズされたデータ・ビューが必要になります。 データメッシュ・アーキテクチャーは、データをデータ消費者に使用可能にすることで、この柔軟性およびカスタマイズに対するニーズに対応することができます。 
  • 自動化された仮想アシスタント:企業は通常、チャットボットを使用してコール・センターおよびカスタマー・サービス・チームをサポートします。 「よくあるご質問」がさまざまなデータセットに関連する可能性があるため、分散データ・アーキテクチャーは、より多くのデータ資産を仮想エージェントシステムに対して使用可能にすることができます。
  • カスタマー・エクスペリエンス:顧客データにより、企業はユーザーへの理解を深めることができ、パーソナライズの向上したエクスペリエンスを提供できるようになります。 このことは、マーケティングから医療までのさまざまな業界で見られます。
  • 機械学習プロジェクト:ドメインに依存しないデータを標準化することにより、データ・サイエンティストがさまざまなデータ・ソースからデータをつなぎ合わせることがより簡単になり、データ処理に費やす時間を短縮することができます。 この時間が、実稼働環境に移動するモデル数を加速することを支援して、自動化目標の達成を可能にします。

IBMソリューション

IBM Cloud Pak for Data

IBMは、IBM Data Fabric on Cloud Pak for Dataを使用して、データメッシュの実装をサポートします。 IBM Data Fabricは、データ製品を作成するために必要なすべての機能を含む統一ソリューションであり、これらのデータ製品のアクセスおよび使用に対するガバナンスとオーケストレーションを可能にします。 IBM Data Fabricは、データメッシュの実装をあらゆるプラットフォーム(たとえば、オンプレミス・データレーク、クラウド・データウェアハウスなど)で可能にして、全社的な真のセルフサービス、およびデータの場所を問わないデータ製品の再使用を可能にします。



次のステップ

IBMは、データ・ファブリック・ソリューションを通じて、データメッシュの実装をサポートします。 データ・ファブリックに対するIBMのアプローチは、顧客の4つの一般的な問題点を解決することです:データ・ガバナンスとプライバシー、マルチクラウド・データ統合、MLOpsと信頼できるAI、およびカスタマー360は、すべてそれぞれのハイブリッドクラウド・プラットフォームである、IBM Cloud Pak for Dataに提供されます。