データレイクハウスのアーキテクチャーとメリット

概要

データレイクハウスは、データ・ウェアハウスとデータレイクの優れた側面を1つのデータ管理ソリューションに統合したデータ・プラットフォームです。

IBMのデータレイクハウスとハイブリッドクラウド環境向けのガバナンス・アーキテクチャーは、watsonx.dataプラットフォーム上に構築されています。このプラットフォームにより、企業は分析とAIを拡張でき、オープン・レイクハウス・アーキテクチャー上に構築された堅牢なデータ・ストアが提供されます。このアーキテクチャーは、データウェアハウスのパフォーマンスと使いやすさの属性と、データレイクの柔軟性と拡張性を融合し、データ管理と分析のタスクにバランスの取れたソリューションを提供します。

導入

watsonx.dataプラットフォームは、SaaSサービスとオンプレミス・ソリューションの両方で提供されます。SaaSオファリングが提供されていない地域のクライアントや、規制などの制約によレイクハウス・プラットフォームをオンプレミスのままにしておく必要があるお客様のために、IBMは次のデプロイメント・オプションを通じて柔軟性を提供し、どこでもデータ・レイクハウス機能を活用できるようにしています。

IBM CloudまたはAWS上でwatsonx.data SaaSをプロビジョニングします。
マネージドOpenShiftを備えたOpenShiftオンプレミスまたはその他のハイパースケーラー上に、watsonx.dataをスタンドアロン・ソリューションとしてデプロイします。
IBM Cloud Pak for Data（CP4D）クラスターの一部であるwatsonx.dataをデプロイします。

IBM Cloud Pak for Data（CP4D）クラスターのワークフロー・チャートの一部としてwatsonx.dataをデプロイします

複数の目的に適したクエリー・エンジンの使用を可能にしながら、すべてのエンジンで同じデータに同時にアクセスできるデータレイクハウス・アーキテクチャー

データ・ソース - これには、データベースやアプリケーションからの構造化データ、ファイル、SNS、IoTデバイスなどからの非構造化データ、エンタープライズ・データウェアハウス、お客様のオンプレミス・アプリケーションとSaaSの両方からのその他の非構造化データ・ストアが含まれます。
お客様のアプリケーション - お客様はオンプレミスのアプリケーション、または独自のデータ・ストア（構造化および非構造化）を備えたSaaSを所有している場合があります。これらのデータはデータレイクに存在しない可能性があり、お客様は簡単に照会できるようにそのデータをレイクハウスに持ち込むことを望む場合があります。
データレイクハウス - watsonx.dataは、データレイクとデータウェアハウスの機能のバランスをとる次世代のデータ・ストア・アーキテクチャーです。これは IBM のデータレイクハウス・アプローチの基礎であり、効率的なデータ・ガバナンスを確保しながらAIおよび機械学習（ML）ワークロードのスケーリングを容易にします。
生成AIプラットフォーム - データレイクハウスは、オプションで生成AIプラットフォームに接続して、LLMによるクエリーを拡張できます。ユーザーはプロンプトを入力することができ、そのプロンプトは微調整されたLLMに送信され、データレイクハウスでサポートされているエンジンによって実行される可能性のある検索質問が生成されます。

レイクハウスのパターン

レイクハウスのパターン1：複数の専用クエリー・エンジン

目的に合ったコンピューティングを使用して、適切なワークロードに適切なエンジンを活用することでコストを最適化し、同時にすべてのエンジン、共有メタストア（データ・カタログなど）、および同じ環境間でデータとメタデータを共有します。

複数のクエリー・エンジンを使用してコストとパフォーマンスを最適化できるデータレイクハウス・アーキテクチャー。

レイクハウスのパターン2：すべてのデータを一元管理

データレイクハウスは、現在のデータ・アーキテクチャーに対する最新のアプローチを可能にします。企業は、構造化された高性能なエンタープライズ・データウェアハウス（EDW）から、多くの場合データ・スワンプ（重複、データ品質、ガバナンスの欠如）に変わる大量の非構造化/半構造化データレイクまで、さまざまなニーズに対応するために、長年にわたって複数のデータ・ストアのサイロを構築してきました。watsonx.dataを備えたデータレイクハウスでは、データを移動することなく、複数のクエリー・エンジン、オープン・データ形式、ガバナンスを通じて、さまざまなデータ・ストアへの単一層のアクセスが可能になります。

オブジェクト・ストレージ、リレーショナル・データ、データレイクなど、企業のすべてのデータ・ストアに対して単一のアクセス層（単一の画面）を提供するデータレイクハウス・アーキテクチャー。

レイクハウスのパターン3：データウェアハウスのワークロードを最適化してコストを削減

レイクハウスの安価なストレージとコンピューティングを活用し、複数のクエリー・エンジンが同じデータセットを使用できるようにすることで、一時的な照会機能を維持しながらウェアハウスのコストを削減します。Sparkなどのクエリー・エンジンを使用すると、現在の状態（例：すべてのデータ変更履歴ではないなど）でデータのヴァキュームド／マテリアライズド・ビューを実行できるため、データ・クエリーのサイズとクエリーの計算コストが削減されます。また、レイクハウスの前処理および選択的変換機能により、データウェアハウスのワークロードを最適に分散できるため、コストが削減されます。

データウェアハウスのワークロードとコストを最適化し、ウェアハウス・コストを削減しながらも、TemporalQuery機能を維持します。

データウェアハウスのコストを最小限に抑え、ウェアハウスのクエリー・パフォーマンスを最適化するデータレイクハウス・アーキテクチャー。

レイクハウスのパターン4：ハイブリッド・マルチクラウド・デプロイメント

リモート・ソースをキャッシュする機能を使用して、ハイブリッドクラウド全体でリモートでデータに接続し、アクセスします。

複数のプロバイダー間でオンプレミスとクラウド上のデータを統合するデータレイクハウス・アーキテクチャー。

レイクハウスのパターン5：メインフレーム・データと分析エコシステムの統合

レイクハウス分析用にDb2 for z/OSデータを同期および組み込み、VSAMおよびDb2データ全体にわたってメインフレーム上でリアルタイム分析を実行します。データ仮想化では、負荷を考慮して常にメインフレームから直接データを照会しますが、CDCでは管理者が定義した頻度に基づいて氷山形式で情報を取得します（メインフレームに負荷を追加せず、リアルタイム・データも提供しません）。

データ・ゲートウェイとデータ仮想化を使用してメインフレーム・データとメインフレーム以外のソースのデータを統合するデータレイクハウス・アーキテクチャー。

その他のレイクハウスのユースケース

新しいデータ資産用のストレージ層最新のアプリケーションでは、より効率的でスケーラブルなデータ駆動型サービスを提供するために、新しいデータセットと高度なデータ処理技術が使用されることがよくあります。データレイクハウスは、必要なデータ/ストレージ層、統合、パフォーマンス、拡張性、コスト効率を提供できます。
自然言語データ・プロンプトと応答データレイクハウス（watsonx.data）を生成AIおよび大規模言語モデル（LLM）（watsonx.ai）と組み合わせると、情報の技術的構造を知らず、SQLを習得していないアナリストでも、自然言語プロンプトを使用してさまざまなデータ・ストア間で相互分析を実行し、LLMから応答を取得できるようになります。

アーキテクチャーの決定

クエリー・エンジンの選択

使用するクエリー・エンジンの種類は、通常、照会するデータの種類によって決まります。

Prestoクエリー・エンジンは、HiveおよびParquetテーブル／バケツでの使用に最適です。
Sparkクエリー・エンジンは、既存のHadoop/Cloudera環境内でSCALAコーディングを使用する場合に最適です。
DB2クエリー・エンジンは、DB2データ・ストアでの使用に最適です。
Netezzaクエリー・エンジンは、Netezzaデータウェアハウスの照会に最適です。

データ・レイクハウスの特性

統合データ管理：データレイクハウスが単一の真実のソースとして機能するようにすることは、データ分析と意思決定における一貫性と信頼性にとって重要です。
データ統合：さまざまなソースからのさまざまな形式のデータの統合は、リアルタイムおよびバッチのデータ取り込みをサポートし、シームレスである必要があります。
クエリー・パフォーマンス：エンタープライズSLA/SLOに沿った分析とレポートのニーズをサポートするために最適化されたクエリー・パフォーマンス。
データ・ガバナンス：データレイクハウスの導入を成功させるには、データの品質、メタデータ管理、系統の追跡を保証する強力なデータ・ガバナンス・フレームワークが必要です。
セキュリティー：組織および規制の要件に準拠するために、データの暗号化、アクセス制御、監査証跡を確保します。
柔軟なデプロイメント：オンプレミス、ハイブリッド、マルチクラウドのデプロイメントをサポートすることで柔軟性が向上し、コストとパフォーマンスの最適化に役立ちます。
データの機密性：データの一貫性と整合性を維持しながら、異なる環境間でのデータの移動を容易にします。
監視と管理：データの移動、ジョブの完了時間とレート、パフォーマンス・チューニングを可視化するための監視、ログ記録、管理ツールを導入します。