通常、データレイクとデータウェアハウスは連携して使用されます。データレイクはあらゆる新規データに対応するシステムとして機能し、データウェアハウスではこのデータに下流構造を適用します。
しかし、信頼性の高いデータを提供するためにこれらのシステムを調整するには、時間とリソースが多く求められる場合があります。処理時間が長くなるとデータが古くなり、ETL(抽出、変換、読み込み)層が増えるとデータ品質のリスクが高まります。
データレイクハウスは、データウェアハウスとデータレイク内の欠陥を補うもので、より優れたデータ管理システムを構築する機能を備えており、データウェアハウスのデータ構造と、データレイクの低コストのストレージおよび柔軟性を組み合わせます。
データレイクハウスにより、データ・チームはさまざまなデータ・システムを統合し、より高度な分析(機械学習(ML)など)のためのデータ処理を高速化し、ビッグデータに効率的にアクセスし、データ品質を向上させることができます。
データレイクハウスは、データウェアハウスとデータレイクの課題を解決し、そのメリットを1つのデータ・アーキテクチャーにまとめるために存在します。
たとえば、データウェアハウスは、エンタープライズ・データの保管と変換の両方において、データレイクよりもパフォーマンスが優れています。ただし、データウェアハウジングには、厳格なスキーマ(通常はスター・スキーマとスノーフレーク・スキーマ)が必要です。
したがって、データウェアハウスは、人工知能(AI)や機械学習(ML)のユースケースにとって重要な非構造化データや半構造化データではうまく機能しません。また、拡張能力にも制限があります。
一方、データレイクを使用すると、組織はさまざまなデータ・ソースから、構造化データ、非構造化データ、半構造化データなど、あらゆるタイプのデータを1か所に集約できます。よりスケーラブルで手頃な価格のデータ・ストレージを実現しますが、データ処理ツールは組み込まれていません。
データレイクハウスは、データウェアハウスとデータレイクの特性を統合しています。Cloud Object Storageを使用して、あらゆる形式のデータを低コストで保管します。また、そのクラウド・ストレージの上には、ウェアハウス・スタイルの分析インフラストラクチャーがあり、高性能な照会、ほぼリアルタイムの分析、Business Intelligence(BI)の取り組みをサポートします。
データウェアハウス、データレイク、データレイクハウスはいずれもデータ・リポジトリーですが、重要な違いがあります。これらは、さまざまなユースケースに対応する統合データ・アーキテクチャーを支援するために、併用されることがよくあります。
データウェアハウスは、複数のソースから未加工データを中央リポジトリーに収集し、リレーショナル・データベース インフラストラクチャーに整理します。このデータ管理システムは主にデータ分析と、企業レポートなどのBusiness Intelligenceアプリケーションを支援するものです。
システムはデータの抽出、変換、格納先へのロードを行うETLプロセスを使用します。ただし、特にデータ・ソース数とデータ量が増加する場合、非効率性とコストのために限界があります。
データウェアハウスは従来、オンプレミス環境のメインフレーム上でホストされていましたが、現在では、多くのデータウェアハウスがクラウドでホストされ、クラウド・サービスとして提供されています。
データレイクは当初、Apache Hadoopなどのビッグデータ・プラットフォーム上に構築されていましたが、最新のデータレイクの中心はクラウド・オブジェクト・ストレージ・サービスで、これによりあらゆるタイプのデータを保管できるようになりました。一般的なサービスには、Amazon Simple Storage Service(Amazon S3)、Microsoft Azure Blob Storage、Google Cloud Storage、IBM Cloud Object Storageなどがあります。
企業は非構造化データを生成することが多いので、このストレージ機能は重要な違いと言えます。これにより、データサイエンスと人工知能(AI)プロジェクトを増やすことが可能になり、組織全体でより革新的な洞察とより良い意思決定が促進されます。
ただし、データレイクの規模と複雑さによっては、データサイエンティストやデータ・エンジニアなど、より技術的なユーザーの専門知識が必要になる場合があります。また、データ・ガバナンスはこれらのシステムの下流で行われるため、データレイクはデータ・サイロになりやすく、結果的にデータ・スワンプ(管理が不十分なために適切なデータにアクセスできない状態)に進化する可能性があります。
データレイクハウスは、データウェアハウスとデータレイクの両方にまたがる根本的な課題を解決し、組織にとってより理想的なデータ管理ソリューションを実現することができます。クラウド・オブジェクト・ストレージを活用して、幅広いデータ型にわたって高速かつ低コストのストレージを実現するとともに、高性能な分析機能も提供します。組織は、完全に解体して再構築することなく、データレイクハウスを既存のデータレイクやデータウェアハウスと並行して使用できます。
データレイクハウスはユーザーにいくつかの主要なメリットをもたらし、次のことを支援します。
単一のデータ・ストレージ・システムが、どのようなビジネス・データ要求にも対応できる合理的なプラットフォームを構築し、データの重複を削減します。また、データレイクハウスは、データ・パイプラインを介してさまざまなシステムに移動するデータの量を削減することで、エンドツーエンドのデータ・オブザーバビリティー(可観測性)を簡素化します。
データレイクハウスは、クラウド・オブジェクト・ストレージの低コストを活用しているため、データウェアハウスよりも費用対効果が高くなります。さらに、データレイクハウスのハイブリッド・アーキテクチャーのおかげで複数のデータ・ストレージ・システムを維持する必要がなくなるので、運用コストが削減されます。
データレイクハウスは、データ管理のライフサイクル全体でさまざまなユースケースに対応できます。また、Business Intelligenceと、データ駆動型の可視化ワークフローまたはより複雑なデータサイエンスのワークフローにも対応します。
データレイクハウス・アーキテクチャーは、データレイクのガバナンス問題を軽減します。例えば、データが取り込まれてアップロードされる時に、レイクハウスは、そのデータが定義されたスキーマ要件を満たしていることを確認できるため、ダウンストリームのデータ品質に関する問題が軽減されます。
従来のデータウェアハウスでは、計算とストレージが一体化されていますが、データレイクハウスはストレージと計算を分離するため、データ・チームが同じデータ・ストレージにアクセスしながら、アプリケーションごとに異なるコンピューティング・ノードを使用できるようになります。この分離により、拡張性と柔軟性が向上します。
データレイクハウスは、今日のビジネスとテクノロジーに合わせて構築されています。多くのデータ・ソースには、モノのインターネット・デバイスなどからのリアルタイムのストリーミング・データが含まれています。レイクハウス・システムは、リアルタイムでのデータ取り込みを通じて、これらのソースをサポートします。
2016年にDatabricks社が開発したDelta Lakeは、Apache Parquetのデータ・ファイルと堅牢なメタデータ・ログを組み合わせたオープンソースのデータ・ストレージ形式です。この形式は、スキーマの適用、タイム・トラベル、ACIDトランザクションなどの主要なデータ管理機能をデータレイクに追加します。(ACIDは「atomicity(原子性)、consistency(一貫性)、isolation(分離性)、durability(耐久性)を表します。いずれもデータの整合性を確保するトランザクションを定義している重要な特性です。)
このような機能により、データレイクの信頼性と直感性は高まります。また、ユーザーは、構造化クエリー言語(SQL)クエリーや分析ワークロードなどのアクティビティをデータレイク上で実行し、Business Intelligence、データ・インテリジェンス(DI)、AI、MLを効率化することもできます。
Delta Lakeは2019年にオープンソース化されました。それ以来、データレイクハウスは通常、データレイクの上にDelta Lakeストレージ層を構築し、それをApache SparkやHiveなどのデータ処理エンジンと統合することによって作成されます。
オープンソース対応のデータレイクハウスは、多くの場合、オープン・データレイクハウスと呼ばれます。その他のオープン・テーブル形式には、Apache Iceberg(大規模な分析テーブル向けの高性能な形式)やApache Hudi(増分データ処理向けに設計されたもの)などがあります。
データレイクハウスのアーキテクチャーは通常、次の5つの層で構成されています。
この最初の層では、さまざまなソースからデータを収集し、レイクハウスが保存および分析できるデータ形式に変換します。取り込み層には、データベース管理システム、NoSQLデータベースやソーシャル・メディアなど内外のソースに接続するためのプロトコルが使用されています。
この層では、構造化、非構造化、および半構造化データセットは、ParquetやOptimized Row Columnar(ORC)といったオープンソースのファイル形式で保管されます。この層は、手頃なコストであらゆるタイプのデータを受け入れることができるという点で、データレイクハウスの大きなメリットとなっています。
データレイクハウスはアプリケーション・プログラミング・インターフェース(API)を使用して、タスク処理を強化し、より高度な分析を実行します。具体的には、消費者や開発者はこの層によって抽象的なレベルでTensorflowなどさまざまな言語やライブラリーを使用できます。APIはデータ資産の消費に最適化されています。
データレイクハウス・アーキテクチャーの最後の層では、アプリとツールがホストされ、レイクに保管されているすべてのメタデータとデータにアクセスできます。これにより、組織全体のユーザーがデータにアクセスできるようになり、レイクハウスを使用して、Business Intelligenceダッシュボード、データの可視化、機械学習のジョブといったさまざまなタスクを実行できます。
ハイブリッドでオープンなデータレイクハウスを使って、データがどこに保存されていても、すべてのデータをAIと分析に活用しましょう。
今日のデータの課題は、レイクハウス・アーキテクチャーを使って解決。数分でデータに接続し、信頼できる洞察を迅速に獲得して、データウェアハウスのコストを削減できます。
IBMコンサルティングと連携して、企業データの価値を引き出しましょう。洞察を活用してビジネス上の優位性を提供する組織を構築します。