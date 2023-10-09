データ・プラットフォーム・アーキテクチャーには興味深い歴史があります。2000年代に入ると、企業はレポーティングやビジネス・インテリジェンスの業務に、トランザクション・アプリケーション以外の新しいソリューションが必要であることに気づき始めました。複数のアプリケーションからのデータを統合できる、読み取りに最適化されたプラットフォームが登場しました。それがデータウェアハウスです。
その後の10年で、インターネットとモバイルは予想外の量、種類、速度のデータを生成し始めました。そのために別のデータ・プラットフォーム・ソリューションが必要になります。そこで、膨大な量の非構造化データと構造化データを扱うデータレイクが登場しました。
さらに10年が過ぎました。データレイクやデータウェアハウスだけでは、エンタープライズのビジネスの複雑さや新しいワークロードに対応するには、もはや十分ではないことが明らかになりました。あまりにも高額。データ・プロジェクトの価値実現が難しい。データ・プラットフォームの変更が難しい。時は再び、新たな解決策を求めました。
それは何でしょうか。今度は、データレイクハウス、データ・ファブリック、データ・メッシュという、少なくとも3つの異なるデータ・プラットフォーム・ソリューションが登場しました。心強いことではありますが、同時に市場に混乱をもたらしています。コンセプトも価値観も重複しています。時には、質問する相手によって異なる解釈が生まれることもあります。
この記事では、そうした混乱の解消を目指すものです。まず、それぞれの概念について説明します。その後、これら3つの概念が互いにどのようにつながるのか、あるいは互いにどのように利用されるのかを示すフレームワークを紹介します。
レイクハウスの概念はDatabricksによって広まったものです。その定義は次のとおりです。 「データレイクハウスとは、データレイクの柔軟性、コスト効率、規模と、データウェアハウスのデータ管理およびACIDトランザクションを組み合わせた、新しいオープンなデータ管理アーキテクチャーのことで、あらゆるデータでのビジネス・インテリジェンス（BI）と機械学習を可能にします」
従来のデータウェアハウスは、ETL（Extract-Transform-Load）プロセスを利用してデータを取り込んでいたが、データレイクはその代わりにELT（Extract-Load-Transform）プロセスを利用します。複数のソースから抽出されたデータは、安価なBLOBストレージにロードされ、その後、高価なブロックストレージを使用するデータウェアハウスに変換され、永続化されます。
このストレージ・アーキテクチャは柔軟性に欠け、非効率的です。BLOBとデータウェアハウスのストレージを同期させるためには、変換を継続的に実行しなければならず、コストがかさみます。さらに継続的なトランスフォーメーションにはまだ時間がかかります。データが分析に使えるようになる頃には、そこから得られるインサイトは、トランザクション・システムの現状と比較すると陳腐化しているでしょう。
さらに、データウェアハウスのストレージは、モデルトレーニングのために膨大な量のデータを必要とする人工知能（AI）や機械学習（ML）のようなワークロードをサポートすることはできません。このようなワークロードの場合、データレイク・ベンダーは通常、データをフラットファイルに抽出し、モデルのトレーニングとテストの目的のみに使用することを推奨しています。これによってETLのステップが追加され、データはさらに古くなってしまいます。
データレイクハウスは、こうした問題を解決するために作られた。データウェアハウスのストレージ層は、レイクハウス・アーキテクチャから取り除かれる。その代わり、BLOBストレージ内で継続的なデータ変換が行われる。複数のAPIが追加され、異なるタイプのワークロードが同じストレージバケットを使用できるようになった。AWS S3やAzure DLS2が必要なストレージを提供できるので、これはクラウドに適したアーキテクチャだ。
データ・ファブリックは、新世代のデータ・プラットフォーム・アーキテクチャです。定義は次のようになるでしょう。「分散型サービスの疎結合による集合体であり、コスト効率、パフォーマンス、ガバナンス、セキュリティ、コンプライアンスなどの非機能要件を満たしながら、あらゆるクラウドおよびオンプレミスプラットフォームにおいて、トランザクションおよび分析的性質が異なる複数のソースから、適切なデータを適切な形、適切な時間、適切な場所で、通常はセルフサービスで、利用可能にする」。
データ・ファブリックの目的は、必要なときにいつでもどこでもデータを利用できるようにすることであり、データの移動、トランスフォーメーション、統合に伴う技術的な複雑さを廃して、誰もがデータを利用できるようにすることです。データ・ファブリックの主な特徴を以下に挙げます。
データ・ファブリックは、データ・ノード（データ・プラットフォームやデータベースなど）のネットワークで構成され、すべてのノードが相互に作用してより大きな価値を提供します。データ・ノードは、企業のハイブリッドおよびマルチクラウド・コンピューティングのエコシステム全体に広ります。
データ・ファブリックは、複数のデータウェアハウス、データレイク、IoT（モノのインターネット）／エッジデバイス、トランザクションデータベースで構成することができます。Oracle、Teradata、Apache Hadoop、Azure上のSnowflake、AWS上のRedShift、オンプレミス・データセンター内のMS SQL、他にも数多くのテクノロジーを包含することが可能です。
データ・ファブリックは、データ、情報、インサイトのライフサイクルのすべてのフェーズを包含します。ファブリックの任意のノードが生データを別のノードに提供し、そのノードが分析を実行します。これらのアナリティクスは、ファブリック内でREST APIとして公開することができ、意思決定のためのトランザクション記録システムで利用することができます。
データ・ファブリックは、分析の世界とトランザクションの世界を結びつけるように設計されています。ここではすべてがノードであり、ノードはさまざまなメカニズムを通じて互いにインタラクションを行います。データの移動が必要な場合もあれば、移動なしでデータアクセスが可能な場合もあります。このアーキテクチャーでは、データのサイロ化（および差別化）が最終的に解消されるというのが基本的な考え方です。
セキュリティとガバナンスのポリシーは、データ・ファブリック内でデータが移動したりアクセスされたりするたびに実行されます。IstioがKubernetesのコンテナにセキュリティ・ガバナンスを適用するように、データ・ファブリックは同様の原則に従ってデータにリアルタイムでポリシーを適用します。
データ・ファブリックはデータの検索性を高めます。データ資産をカテゴリーに分けて公開し、全社的なデータマーケットプレイスを構築することが可能です。このマーケットプレイスは、メタデータとナレッジグラフを活用した検索メカニズムを提供し、資産を検索できるようにします。これにより、データ価値実現のライフサイクルのすべての段階でデータにアクセスできるようになります。
データ・ファブリックの登場は、企業文化や業務モデルを変革する新たな機会を開くものです。データ・ファブリックは分散型でありながら包括的であるため、その使用は連合型でありながら統一されたガバナンスを促進します。そうすることで、データはより信頼できるものになります。マーケットプレイスは、ビジネス全体の利害関係者がデータを発見し、革新に活用することを容易にします。多様なチームのコラボレーションがやりやすくなり、共通の目的意識を持って共有データ資産を管理できるようになります。
データ・ファブリックは、いくつかの新しいテクノロジー（データ仮想化など）が重要な役割を果たす、包括的なアーキテクチャーです。しかし、既存のデータベースやデータ・プラットフォームがネットワークに参加することを可能にし、データ・カタログやデータ・マーケットプレイスが新しい資産の発見に役立ちます。データ資産を発見する上で、メタデータが重要な役割を果たします。
データ・メッシュというコンセプトはThoughtworksが導入しました。その定義は次のとおりです。「... データが製品として扱われ、データを最もよく知り、利用するチームが所有する、分析用データアーキテクチャおよび運用モデル」このコンセプトは、ドメイン・オーナーシップ、プロダクトとしてのデータ、セルフサービス・データ・プラットフォーム、連携されたコンピューテーショナル・ガバナンスという4つの原則に基づいています。
概念としてのデータ・ファブリックとデータ・メッシュには重なる部分があります。たとえば、データウェアハウス、データレイク、データレイクハウスなどの集中型プラットフォームとは異なり、どちらも分散アーキテクチャーを推奨しています。両者とも、マーケットプレイスを通じて提供されるデータ商品というアイデアを引き出すことを意図しています。
また、違いも存在します。先述の定義から明らかなように、データ・ファブリックとは異なり、データメッシュは分析データに関するものです。データ・ファブリックよりも対象範囲が狭いものです。第二に、データメッシュは運用モデルと文化を重視しています。つまり、データ・ファブリックのような単なるアーキテクチャを超えるものとなっています。データ製品の性質はデータ・ファブリックでは汎用的なものですが、データメッシュはデータ製品のドメイン駆動型の所有権を明確に規定しています。
明らかに、これら3つのコンセプトそれぞれに焦点と強みがあります。それでも、重なりは明白です。
レイクハウスは他の2つとは一線を画します。先行者同様、新しいテクノロジーです。成文化が可能です。市場にはDatabricks、Azure Synapse、Amazon Athenaなど複数の製品が存在します。
データ・メッシュは、新しいオペレーション・モデルと文化的な変化を必要とします。多くの場合、このような企業文化の変革には、企業全体の考え方の転換が必要です。その結果、データ・メッシュは革命的な性質を持つことになります。組織内の比較的小さな場所から構築を始めて、後から全体に拡張することができます。
データ・ファブリックにはデータ・メッシュのような前提条件はなく、文化的な変化は期待されていません。それは企業が長年にわたって投資してきた既存の資産を利用して構築することができます。したがって、そのアプローチは進化的と言えます。
では、どうすれば企業はこれらのコンセプトをすべて受け入れることができるでしょうか。
レイクハウスの採用は、自社のデータプラットフォームの進化過程の一部として受け入れることができます。例えば、銀行が10年来のデータウェアハウスを廃止し、レイクハウスを導入することで、BIとAIのすべてのユースケースを単一のデータプラットフォームから提供することができます。
企業が複雑で複数のデータ・プラットフォームを持っている場合、データ検出に課題がある場合、組織のさまざまな部分でのデータ配信が困難な場合、採用するアーキテクチャーとしてはデータ・ファブリックがふさわしいと考えられます。既存のデータ・プラットフォームのノードとともに、1つまたは複数のレイクハウス・ノードを参加させることができます。トランザクション・データベースも、データ資産を提供または消費するノードとしてファブリック・ネットワークに参加させることができます。
ビジネスの複雑性に対処するために、企業がドメイン主導のデータ所有に向けた文化的転換に着手し、データ検出と提供におけるセルフサービスを推進し、連合型のガバナンスを採用すれば、データメッシュの旅に出ることになります。データ・ファブリックのアーキテクチャーが既に導入されている場合、企業はそれをデータ・メッシュの実現に向けた重要な要素として使用できます。たとえば、データ・ファブリック・マーケットプレイスから、データ・メッシュの主要な成果であるドメイン中心のデータ製品を利用できるかもしれません。データ・ファブリックを通じて機能として確立されているメタデータ主導の検出は、メッシュから登場する新しいデータ製品の検出に役立ちます。
どの企業も、それぞれのビジネス目標を確認して、どのエントリー・ポイントが最も適しているかを決めることができます。ただし、エントリー・ポイントや動機が異なる場合であっても、企業はデータ中心の体制を追求する中で、3つのコンセプトを合わせて簡単に活用することができます。
