データ・メッシュは、マーケティング、販売、カスタマー・サービスなどの特定の部門ごとにデータを整理し、特定のデータ・セットの作成者にさらなる所有権を与える分散型データ・アーキテクチャーです。
プロデューサーが必要な部門のデータを理解することで、ドキュメント、品質、アクセスに重点を置いたデータ・ガバナンス・ポリシーを設定できるようになります。これにより、組織全体でのセルフサービス使用が可能になります。このフェデレーション・アプローチにより、集中型のモノリシック・システムに関連する多くの運用上のボトルネックが解消されますが、必ずしもデータレイクやデータウェアハウスなどの従来のストレージ・システムを使用できないということではありません。単に、データの使用が単一の集中型データ・プラットフォームから複数の分散型データ・リポジトリーに移行したことを意味します。
注目すべきは、データ・メッシュは、データ管理の目標を拡張して達成するために、クラウドネイティブおよびクラウド・プラットフォーム・テクノロジーの採用を促進するということです。この概念は、この分野での使用法を視聴者に理解してもらうために、マイクロサービスと比較されることがよくあります。この分散型アーキテクチャーは、組織全体のデータに対して拡大しつつあるニーズに特に役立つため、データ・メッシュはすべての種類のビジネスに適しているわけではありません。つまり、小規模なビジネスでは、企業データが大規模な組織ほど複雑ではないため、データ・メッシュのメリットを享受できない可能性があります。
ITコンサルタント会社のThoughtWorks社の技術ディレクターであるZhamak Dehghani氏は、データのアクセシビリティーや整理など、集中型のモノリシック・データ構造に固有の課題に対するソリューションとしてデータ・メッシュの概念を推進したことで知られています。新型コロナウイルスの感染拡大は文化的変化を促進し、データに関する組織の複雑さを軽減する取り組みの一環として、その導入がさらに促進されました。
データ・メッシュは、企業がデータについて考える方法の文化的変化を伴います。データはプロセスの副産物としてではなく製品そのものとなり、データ作成者はデータ製品の所有者となります。従来、集中型のインフラストラクチャー・チームがドメイン間でデータの所有権を保持していましたが、データ・メッシュ・モデルでの製品思考の焦点により、この所有権は、主題の専門家であるプロデューサーに移行しました。主要なデータ・コンシューマーと、部門ごとの運用データや分析データをどのように活用しているかを理解しているため、最大の利益を念頭に置いてAPIを設計できます。
このドメイン駆動型設計では、データ・プロデューサーがセマンティック定義の文書化、メタデータのカタログ化、アクセス許可と使用に関するポリシーの設定の責任を負うことになりますが、中央データ・ガバナンス・チームは依然としてデータに関するこれらの標準と手順を適用します。さらに、データ・メッシュ・アーキテクチャーでは関連部門がETLデータ・パイプラインを担当することになりますが、中央で指揮を取るデータ・エンジニアリング・チームの必要性がなくなるわけではありませんが、その主な責任は、保存されるデータ製品に最適なデータ・インフラストラクチャー・ソリューションを決定することにシフトします。
マイクロサービス・アーキテクチャーが軽量のサービスを結合してビジネス向けまたは消費者向けアプリケーションに機能を提供するのと同様に、データ・メッシュは部門を使用してデータ・パラメーターを設定し、組織のすべてのユーザーがアクセスできる製品として扱えるようにします。このように、データ・メッシュにより、より柔軟なデータ統合と相互運用可能な機能が実現し、ユーザーは複数の部門のデータにすぐにアクセスし、ビジネス分析、データサイエンス実験などに活用できるようになります。
前述のように、データ・メッシュは分散型データ・アーキテクチャーで、データがドメインごとに整理され、組織全体のユーザーがアクセスしやすくなります。データレイクは低コストのストレージ環境であり、通常、ビジネス分析、機械学習、その他の幅広いアプリケーション用のペタバイト単位の構造化データ、半構造化データ、非構造化データが格納されます。データ・メッシュはデータに対するアーキテクチャー上のアプローチであり、データレイクはその一部となることができます。ただし、中央データレイクは、まだ目的が定義されていないデータを取り込むために使用されることが多いため、データの投棄場所として使用されるのが一般的です。その結果、洞察に富んだ学習を提供するための適切なデータ品質とデータ・ガバナンスのプラクティスが欠如したデータレイク、すなわち、データ・スワンプとなる可能性があります。
データ・ファブリックは、データ・プロバイダーとデータ・コンシューマー間のデータ・バリューチェーンにおけるデータ統合、データ・エンジニアリング、ガバナンスのオートメーションに重点を置いたアーキテクチャーの1つのコンセプトです。データ・ファブリックは、「アクティブ・メタデータ」という概念に基づいており、ナレッジ・グラフ、セマンティクス、人工知能/機械学習テクノロジーを使用して、さまざまな種類のメタデータ(システム・ログ、ソーシャルなど)のパターンを検出します。次に、この洞察を適用して、データ・バリュー・チェーンを自動化および調整します。例えば、データ・コンシューマーがデータ製品を見つけて、そのデータ製品を自動的にプロビジョニングできるようになります。データ・ファブリックは、相互に排他的ではなく、データ・メッシュを補完するものです。実際、データ・ファブリックは、データ製品をより速く作成し、グローバル・ガバナンスを適用して複数のデータ製品の組み合わせをより簡単にオーケストレーションするなど、データ・メッシュの重要な部分を自動化できるため、データ・メッシュをより優れたものにします。
データの民主化:データ・メッシュ・アーキテクチャーにより、複数のデータ・ソースからのセルフサービス・アプリケーションが容易になり、データサイエンティスト、データ・エンジニア、開発者などの担当のサイロを超えたデータにアクセスできるようになります。このドメイン駆動設計により、データの検出とアクセスが容易になるだけではありません。データ・サイロと運用上のボトルネックが排除され、意思決定が迅速化され、技術ユーザーが自分のスキルセットをより有効に活用できるタスクを優先できるようになります。
コスト効率:この分散型アーキテクチャーは、バッチ・データ処理から離れ、代わりにクラウド・データ・プラットフォームとストリーミング・パイプラインの採用を促進して、リアルタイムでデータを収集します。クラウド・ストレージを利用すると、データ・チームは必要に応じて大規模なクラスターを立ち上げることができ、指定したストレージに対してのみ料金を支払うことで、コストを最適化することができます。つまり、数日ではなく数時間で実行するジョブのために追加のコンピューティング能力が必要な場合も、クラウド・データ・プラットフォームであれば、コンピューティング・ノードの費用を追加で支払うことで簡単に実現できます。これにより、ストレージ・コストの可視性を向上させ、エンジニアリング・チームによる予算とリソースの割り当てを改善することが可能になります。
技術的負荷の軽減:中央型データ・インフラストラクチャーは複雑で、システムを維持するために他部署とのコラボレーションが必要となるため、技術的負荷が増加します。また、リポジトリー内にデータが蓄積されるにつれて、システム全体の速度も低下し始めます。部門ごとの所有権でデータ・パイプラインを分散することで、データ・チームはデータ・コンシューマーの要求をより適切に満たし、ストレージ・システムへの技術的負荷を軽減できます。また、インターフェース用のAPIを提供することでデータへのアクセシビリティーを高め、データ・アクセスへのリクエストの全体的な量を削減することもできます。
相互運用性:データ・メッシュ・モデルでは、データ所有者は部門に依存しないデータ・フィールドを標準化する方法について事前に合意し、相互運用性を促進します。このように、ある部門がそれぞれのデータ・セットを構築するときに、関連ルールを適用して、部門間でのデータ・リンクを迅速かつ簡単に実現します。一般的に標準化されるフィールドには、フィールド・タイプ、メタデータ、スキーマ・フラグなどがあります。部門間の一貫性により、データ・コンシューマーはAPIとのインターフェースをより簡単に実現し、ビジネス・ニーズにより適切に対応するアプリケーションを開発できるようになります。
セキュリティーとコンプライアンス:データ・メッシュ・アーキテクチャーは、ドメインに依存しないデータに対するデータ標準の適用と機密データに対するアクセス制御の強化に役立つため、ガバナンスを強化します。これにより、組織はHIPPA制限などの政府規制に確実に準拠できます。また、このデータ・エコシステムの構造は、データ監査を可能にすることで、こうした規制準拠をサポートします。データ・メッシュ・アーキテクチャーでデータをログに記録およびトレースすると、システムに可観測性が組み込まれるため、監査人は特定のデータにアクセスしているユーザーとそのアクセス頻度を把握できます。
分散データ・メッシュ・アーキテクチャーはまだ広く採用されていませんが、一般的なビッグデータのユースケースの拡張性目標を達成を後押ししています。例えば、次のようなユースケースです。
ライフサイクル全体にわたってデータを成果物として管理します。データ・プロダクトのバージョン管理、保守、更新のための堅牢なシステムにより、データ・プロダクトの導入から廃止までのライフサイクルを管理します。
未加工データを実行可能な洞察にすばやく変換し、データ・ガバナンス、品質、リネージ、共有を統合し、信頼性が高くコンテキスト化されたデータでデータ・コンシューマーを支援します。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築できます。