データレイクハウスは、データ・ウェアハウスとデータレイクの優れた側面を1つのデータ管理ソリューションに統合したデータ・プラットフォームです。
IBMのデータレイクハウスとハイブリッドクラウド環境向けのガバナンス・アーキテクチャーは、watsonx.dataプラットフォーム上に構築されています。このプラットフォームにより、企業は分析とAIを拡張でき、オープン・レイクハウス・アーキテクチャー上に構築された堅牢なデータ・ストアが提供されます。このアーキテクチャーは、データウェアハウスのパフォーマンスと使いやすさの属性と、データレイクの柔軟性と拡張性を融合し、データ管理と分析のタスクにバランスの取れたソリューションを提供します。
watsonx.dataプラットフォームは、SaaSサービスとオンプレミス・ソリューションの両方で提供されます。SaaSオファリングが提供されていない地域のクライアントや、規制などの制約によレイクハウス・プラットフォームをオンプレミスのままにしておく必要があるお客様のために、IBMは次のデプロイメント・オプションを通じて柔軟性を提供し、どこでもデータ・レイクハウス機能を活用できるようにしています。
データレイクハウス - watsonx.dataは、データレイクとデータウェアハウスの機能のバランスをとる次世代のデータ・ストア・アーキテクチャーです。これは IBM のデータレイクハウス・アプローチの基礎であり、効率的なデータ・ガバナンスを確保しながらAIおよび機械学習(ML)ワークロードのスケーリングを容易にします。
生成AIプラットフォーム - データレイクハウスは、オプションで生成AIプラットフォームに接続して、LLMによるクエリーを拡張できます。ユーザーはプロンプトを入力することができ、そのプロンプトは微調整されたLLMに送信され、データレイクハウスでサポートされているエンジンによって実行される可能性のある検索質問が生成されます。
レイクハウスのパターン1:複数の専用クエリー・エンジン
目的に合ったコンピューティングを使用して、適切なワークロードに適切なエンジンを活用することでコストを最適化し、同時にすべてのエンジン、共有メタストア(データ・カタログなど)、および同じ環境間でデータとメタデータを共有します。
レイクハウスのパターン2:すべてのデータを一元管理
データレイクハウスは、現在のデータ・アーキテクチャーに対する最新のアプローチを可能にします。企業は、構造化された高性能なエンタープライズ・データウェアハウス(EDW)から、多くの場合データ・スワンプ(重複、データ品質、ガバナンスの欠如)に変わる大量の非構造化/半構造化データレイクまで、さまざまなニーズに対応するために、長年にわたって複数のデータ・ストアのサイロを構築してきました。watsonx.dataを備えたデータレイクハウスでは、データを移動することなく、複数のクエリー・エンジン、オープン・データ形式、ガバナンスを通じて、さまざまなデータ・ストアへの単一層のアクセスが可能になります。
レイクハウスのパターン3:データウェアハウスのワークロードを最適化してコストを削減
レイクハウスの安価なストレージとコンピューティングを活用し、複数のクエリー・エンジンが同じデータセットを使用できるようにすることで、一時的な照会機能を維持しながらウェアハウスのコストを削減します。Sparkなどのクエリー・エンジンを使用すると、現在の状態(例:すべてのデータ変更履歴ではないなど)でデータのヴァキュームド/マテリアライズド・ビューを実行できるため、データ・クエリーのサイズとクエリーの計算コストが削減されます。また、レイクハウスの前処理および選択的変換機能により、データウェアハウスのワークロードを最適に分散できるため、コストが削減されます。
レイクハウスのパターン4:ハイブリッド・マルチクラウド・デプロイメント
リモート・ソースをキャッシュする機能を使用して、ハイブリッドクラウド全体でリモートでデータに接続し、アクセスします。
レイクハウスのパターン5:メインフレーム・データと分析エコシステムの統合
レイクハウス分析用にDb2 for z/OSデータを同期および組み込み、VSAMおよびDb2データ全体にわたってメインフレーム上でリアルタイム分析を実行します。データ仮想化では、負荷を考慮して常にメインフレームから直接データを照会しますが、CDCでは管理者が定義した頻度に基づいて氷山形式で情報を取得します(メインフレームに負荷を追加せず、リアルタイム・データも提供しません)。
使用するクエリー・エンジンの種類は、通常、照会するデータの種類によって決まります。