データレイクハウスとは

木々が生い茂る青い湖に佇む山小屋の画像

執筆者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

データレイクハウスとは

データレイクハウスは、データレイクの柔軟なデータ・ストレージデータウェアハウスの高性能な分析機能を組み合わせたデータ・プラットフォーム です。

通常、データレイクとデータウェアハウスは連携して使用されます。データレイクはあらゆる新規データに対応するシステムとして機能し、データウェアハウスではこのデータに下流構造を適用します。

しかし、信頼性の高いデータを提供するためにこれらのシステムを調整するには、時間とリソースが多く求められる場合があります。処理時間が長くなるとデータが古くなり、ETL(抽出、変換、読み込み)層が増えるとデータ品質のリスクが高まります。

データレイクハウスは、データウェアハウスとデータレイク内の欠陥を補うもので、より優れたデータ管理システムを構築する機能を備えており、データウェアハウスのデータ構造と、データレイクの低コストのストレージおよび柔軟性を組み合わせます。

データレイクハウスにより、データ・チームはさまざまなデータ・システムを統合し、より高度な分析(機械学習(ML)など)のためのデータ処理を高速化し、ビッグデータに効率的にアクセスし、データ品質を向上させることができます。

データレイクハウスの出現

データレイクハウスは、データウェアハウスとデータレイクの課題を解決し、そのメリットを1つのデータ・アーキテクチャーにまとめるために存在します。

たとえば、データウェアハウスは、エンタープライズ・データの保管と変換の両方において、データレイクよりもパフォーマンスが優れています。ただし、データウェアハウジングには、厳格なスキーマ(通常はスター・スキーマとスノーフレーク・スキーマ)が必要です。

したがって、データウェアハウスは、人工知能(AI)や機械学習(ML)のユースケースにとって重要な非構造化データや半構造化データではうまく機能しません。また、拡張能力にも制限があります。

一方、データレイクを使用すると、組織はさまざまなデータ・ソースから、構造化データ非構造化データ、半構造化データなど、あらゆるタイプのデータを1か所に集約できます。よりスケーラブルで手頃な価格のデータ・ストレージを実現しますが、データ処理ツールは組み込まれていません。

データレイクハウスは、データウェアハウスとデータレイクの特性を統合しています。Cloud Object Storageを使用して、あらゆる形式のデータを低コストで保管します。また、そのクラウド・ストレージの上には、ウェアハウス・スタイルの分析インフラストラクチャーがあり、高性能な照会、ほぼリアルタイムの分析、Business Intelligence(BI)の取り組みをサポートします。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データウェアハウス、データレイク、データレイクハウスの比較

データウェアハウス、データレイク、データレイクハウスはいずれもデータ・リポジトリーですが、重要な違いがあります。これらは、さまざまなユースケースに対応する統合データ・アーキテクチャーを支援するために、併用されることがよくあります。

データウェアハウス

データウェアハウスは、複数のソースから未加工データを中央リポジトリーに収集し、リレーショナル・データベース インフラストラクチャーに整理します。このデータ管理システムは主にデータ分析と、企業レポートなどのBusiness Intelligenceアプリケーションを支援するものです。

システムはデータの抽出、変換、格納先へのロードを行うETLプロセスを使用します。ただし、特にデータ・ソース数とデータ量が増加する場合、非効率性とコストのために限界があります。

データウェアハウスは従来、オンプレミス環境のメインフレーム上でホストされていましたが、現在では、多くのデータウェアハウスがクラウドでホストされ、クラウド・サービスとして提供されています。

データレイク

データレイクは当初、Apache Hadoopなどのビッグデータ・プラットフォーム上に構築されていましたが、最新のデータレイクの中心はクラウド・オブジェクト・ストレージ・サービスで、これによりあらゆるタイプのデータを保管できるようになりました。一般的なサービスには、Amazon Simple Storage Service(Amazon S3)、Microsoft Azure Blob Storage、Google Cloud Storage、IBM Cloud Object Storageなどがあります。

企業は非構造化データを生成することが多いので、このストレージ機能は重要な違いと言えます。これにより、データサイエンス人工知能(AI)プロジェクトを増やすことが可能になり、組織全体でより革新的な洞察とより良い意思決定が促進されます。

ただし、データレイクの規模と複雑さによっては、データサイエンティストやデータ・エンジニアなど、より技術的なユーザーの専門知識が必要になる場合があります。また、データ・ガバナンスはこれらのシステムの下流で行われるため、データレイクはデータ・サイロになりやすく、結果的にデータ・スワンプ(管理が不十分なために適切なデータにアクセスできない状態)に進化する可能性があります。

データレイクハウス

データレイクハウスは、データウェアハウスとデータレイクの両方にまたがる根本的な課題を解決し、組織にとってより理想的なデータ管理ソリューションを実現することができます。クラウド・オブジェクト・ストレージを活用して、幅広いデータ型にわたって高速かつ低コストのストレージを実現するとともに、高性能な分析機能も提供します。組織は、完全に解体して再構築することなく、データレイクハウスを既存のデータレイクやデータウェアハウスと並行して使用できます。

データレイクハウスのメリット

データレイクハウスはユーザーにいくつかの主要なメリットをもたらし、次のことを支援します。

  • データの冗長性の削減
  • コストを削減
  • さまざまなワークロードのサポート
  • データ・ガバナンスの向上
  • 拡張性の向上
  • リアルタイム・ストリーミングを実現

データの冗長性を削減

単一のデータ・ストレージ・システムが、どのようなビジネス・データ要求にも対応できる合理的なプラットフォームを構築し、データの重複を削減します。また、データレイクハウスは、データ・パイプラインを介してさまざまなシステムに移動するデータの量を削減することで、エンドツーエンドのデータ・オブザーバビリティー(可観測性)を簡素化します。

コストを削減

データレイクハウスは、クラウド・オブジェクト・ストレージの低コストを活用しているため、データウェアハウスよりも費用対効果が高くなります。さらに、データレイクハウスのハイブリッド・アーキテクチャーのおかげで複数のデータ・ストレージ・システムを維持する必要がなくなるので、運用コストが削減されます。

さまざまなワークロードに対応

データレイクハウスは、データ管理のライフサイクル全体でさまざまなユースケースに対応できます。また、Business Intelligenceと、データ駆動型の可視化ワークフローまたはより複雑なデータサイエンスのワークフローにも対応します。

データ・ガバナンスの強化

データレイクハウス・アーキテクチャーは、データレイクのガバナンス問題を軽減します。例えば、データが取り込まれてアップロードされる時に、レイクハウスは、そのデータが定義されたスキーマ要件を満たしていることを確認できるため、ダウンストリームのデータ品質に関する問題が軽減されます。

拡張性の向上

従来のデータウェアハウスでは、計算とストレージが一体化されていますが、データレイクハウスはストレージと計算を分離するため、データ・チームが同じデータ・ストレージにアクセスしながら、アプリケーションごとに異なるコンピューティング・ノードを使用できるようになります。この分離により、拡張性と柔軟性が向上します。

リアルタイム・ストリーミングを実現

データレイクハウスは、今日のビジネスとテクノロジーに合わせて構築されています。多くのデータ・ソースには、モノのインターネット・デバイスなどからのリアルタイムのストリーミング・データが含まれています。レイクハウス・システムは、リアルタイムでのデータ取り込みを通じて、これらのソースをサポートします。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

Delta Lakeとは

2016年にDatabricks社が開発したDelta Lakeは、Apache Parquetのデータ・ファイルと堅牢なメタデータ・ログを組み合わせたオープンソースのデータ・ストレージ形式です。この形式は、スキーマの適用、タイム・トラベル、ACIDトランザクションなどの主要なデータ管理機能をデータレイクに追加します。(ACIDは「atomicity(原子性)、consistency(一貫性)、isolation(分離性)、durability(耐久性)を表します。いずれもデータの整合性を確保するトランザクションを定義している重要な特性です。)

このような機能により、データレイクの信頼性と直感性は高まります。また、ユーザーは、構造化クエリー言語(SQL)クエリーや分析ワークロードなどのアクティビティをデータレイク上で実行し、Business Intelligenceデータ・インテリジェンス(DI)、AI、MLを効率化することもできます。

Delta Lakeは2019年にオープンソース化されました。それ以来、データレイクハウスは通常、データレイクの上にDelta Lakeストレージ層を構築し、それをApache SparkHiveなどのデータ処理エンジンと統合することによって作成されます。

オープンソース対応のデータレイクハウスは、多くの場合、オープン・データレイクハウスと呼ばれます。その他のオープン・テーブル形式には、Apache Iceberg(大規模な分析テーブル向けの高性能な形式)やApache Hudi(増分データ処理向けに設計されたもの)などがあります。

データセンターの回廊

AIのためのハイブリッドなオープン・データレイクハウス

データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化やAIと分析の拡張、場所を問わないあらゆるデータへのアクセスなど、データレイクハウス戦略をデータ・アーキテクチャーに統合するメリットをご覧ください。

データレイクハウス・アーキテクチャーのレイヤー

データレイクハウスのアーキテクチャーは通常、次の5つの層で構成されています。

  • 取り込み層
  • ストレージ層
  • メタデータ層
  • API層
  • 消費層

取り込み層

この最初の層では、さまざまなソースからデータを収集し、レイクハウスが保存および分析できるデータ形式に変換します。取り込み層には、データベース管理システムNoSQLデータベースやソーシャル・メディアなど内外のソースに接続するためのプロトコルが使用されています。

ストレージ層

この層では、構造化、非構造化、および半構造化データセットは、ParquetやOptimized Row Columnar(ORC)といったオープンソースのファイル形式で保管されます。この層は、手頃なコストであらゆるタイプのデータを受け入れることができるという点で、データレイクハウスの大きなメリットとなっています。

メタデータ層

メタデータ層は、レイク・ストレージ内にある全オブジェクトのメタデータを取得できる統合カタログであり、システム内のデータに関する情報を整理して提供するのに役立ちます。また、この層は、ACIDトランザクション、ファイル・キャッシュ、クエリーを高速化するインデックスの作成といった機能も提供します。ユーザーはこの層で定義済みのスキーマを実装し、データ・ガバナンスと監査機能を実現できます。

API層

データレイクハウスはアプリケーション・プログラミング・インターフェース(API)を使用して、タスク処理を強化し、より高度な分析を実行します。具体的には、消費者や開発者はこの層によって抽象的なレベルでTensorflowなどさまざまな言語やライブラリーを使用できます。APIはデータ資産の消費に最適化されています。

データ消費レイヤー

データレイクハウス・アーキテクチャーの最後の層では、アプリとツールがホストされ、レイクに保管されているすべてのメタデータとデータにアクセスできます。これにより、組織全体のユーザーがデータにアクセスできるようになり、レイクハウスを使用して、Business Intelligenceダッシュボード、データの可視化、機械学習のジョブといったさまざまなタスクを実行できます。

関連ソリューション
IBM watsonx.data

ハイブリッドでオープンなデータレイクハウスを使って、データがどこに保存されていても、すべてのデータをAIと分析に活用しましょう。

watsonx.dataについてはこちら
データレイク・ソリューション

今日のデータの課題は、レイクハウス・アーキテクチャーを使って解決。数分でデータに接続し、信頼できる洞察を迅速に獲得して、データウェアハウスのコストを削減できます。

IBMのデータレイク・ソリューションの詳細はこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携して、企業データの価値を引き出しましょう。洞察を活用してビジネス上の優位性を提供する組織を構築します。

分析サービスを発見する