ホーム topics データレイクハウスとは? データレイクハウスとは?
IBMデータレイクハウス・ソリューションの詳細はこちら AI関連の最新情報を購読する
雲、円グラフ、グラフのピクトグラムをコラージュしたイラスト
データレイクハウスとは?

データレイクハウスは、データ・ウェアハウスとデータレイクの両方にまたがる根本的な課題を解決して、組織にとってより理想的なデータ管理ソリューションを提供することを目的としています。これらは、市場におけるデータ管理ソリューションの次の進化を表しています。

データレイクハウスは、データ・ウェアハウスとデータレイクの優れた側面を1つのデータ管理ソリューションに統合したデータ・プラットフォームです。 データ・ウェアハウスはデータレイクよりもパフォーマンスが優れている傾向がありますが、コストが高く、拡張性が限られる場合があります。 データレイクハウスは、クラウド・オブジェクト・ストレージを活用してより多くの種類のデータ(構造化データ、非構造化データ、半構造化データ)を保存することで、この問題の解決を図るものです。 これらの利点を1つのデータ・アーキテクチャーにまとめることで、データ・チームは機械学習などより高度な分析を実施、拡張するために2つの異なるデータ・システムを使う必要がなくなるため、データ処理を高速化できます。

企業の人工知能を拡大するためにAIガバナンスがビジネス上欠かせない理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

関連コンテンツ

責任あるAIワークフローに関する電子ブックに登録する

データ・ウェアハウス、データレイク、データレイクハウスの違い

データレイクハウスはデータ・ウェアハウスとデータレイク双方の課題から生まれたため、それぞれのデータ・リポジトリを定義して違いを理解することは大切です。

データウェアハウス

データ・ウェアハウスは、複数のソースから未加工データを中央リポジトリに収集し、リレーショナル・データベース・インフラストラクチャーに整理します。 このデータ管理システムは主にデータ分析と、企業レポートなどのビジネス・インテリジェンス・アプリケーションを支援するものです。システムはデータの抽出、変換、格納先へのロードを行うETLプロセスを使用します。 ただし、特にデータ・ソース数とデータ量が時間とともに増加する場合、非効率性とコストのために限界があります。

データレイク

データレイクは通常Apache Hadoopなどのビッグデータ・プラットフォーム上に構築されます。 従来のデータ・ウェアハウスのような事前定義されたスキーマがほぼないことから、コストの低さとストレージの柔軟性で知られています。 またオーディオ、動画、テキストなどさまざまな種類のデータも格納します。 データ作成者は非構造化データを生成することが多いので、この違いは重要です。なぜなら、組織全体でさらに斬新なインサイトとよりよい意思決定を促すデータサイエンス人工知能(AI)プロジェクトも増やせるからです。ただし、データレイクにも独自の課題がないわけではありません。 データレイクの規模と複雑さが原因で、大量の保存データに対処するために、データサイエンティストやデータエンジニアなどの技術者を増員しなければならない場合があります。 加えてデータ・ガバナンスはこれらのシステムのより下流で実装されるため、データレイクにはデータサイロが増加しやすく、データスワンプになる可能性があります。 これが発生すると、データレイクが使用できなくなるおそれがあります。

通常、データレイクとデータ・ウェアハウスは連携して使用されます。 データレイクはあらゆる新規データに対応するシステムとして機能し、データ・ウェアハウスではこのシステムから取得した特定データに下流構造を適用します。 しかし、信頼性の高いデータを提供するためにこれらのシステムを調整するには、時間とリソースが多く求められる場合があります。 処理時間が長くなるとデータが古くなり、ETL層が増えるとデータ品質のリスクが高まります。

データレイクハウス

データレイクハウスはデータ・ウェアハウスとデータレイク内の欠陥を最適化して、より優れたデータ管理システムを形成します。 組織に高速かつ低コストのエンタープライズ・データ用ストレージを提供すると同時に、データ分析と機械学習両方のワークロードをサポートするのに十分な柔軟性も備えています。

関連ソリューション

データ管理ソリューション

データレイク・ソリューション

データレイクハウスの主な機能

前述したように、データレイクハウスはデータ・ウェアハウスとデータレイクが持つ機能の最もよい部分を組み合わせたものです。 データ・ウェアハウスと同様のデータ構造を活用してデータレイクの低コストなストレージ、柔軟性と組み合わせることで、組織はビッグデータを迅速かつ効率的に保存、アクセスできると同時に、潜在的なデータ品質の問題も軽減できます。 多様なデータを持つデータ・セット(構造化データと非構造化データ)に対応しているので、ビジネス・インテリジェンスとデータサイエンスのワークストリームどちらのニーズも満たします。 通常はPython、R、高性能SQLなどのプログラミング言語に対応しています。

データレイクハウスは大規模なデータ・ワークロードのACIDトランザクションにも対応しています。 ACID はatomicity(原子性)、consistency(一貫性)、isolation(分離性)、durability(耐久性)を表します。いずれもデータの整合性を確保するトランザクションを定義している重要な特性です。原子性は、データに対するすべての変更が単一の操作であるかのように実行されることとして定義できます。 一貫性とは、トランザクションの開始時と終了時でデータに矛盾がない状態にあることです。 分離性とは、トランザクションの処理過程が他のトランザクションから見えないことを指します。 その結果、同時に実行されるトランザクションがシリアル化されているように見えます。 耐久性とは、トランザクションが正常に完了した後、システム障害が発生してもデータへの変更が保持され、元に戻されないことです。これは複数のユーザーが同時にデータの読み取りと書き込みを行う場合、データの一貫性を確保するために重要な機能となります。

データレイクハウスのアーキテクチャー

データレイクハウスは通常、取り込み層、ストレージ層、メタデータ層、API層、消費層の5層で構成されます。 各層がデータレイクハウスのアーキテクチャー・パターンを作り上げています。

取り込み層

1層目では、さまざまなソースからデータを収集し、レイクハウスで保存、分析できる形式に変換します。 取り込み層には、データベース管理システム、NoSQLデータベース、ソーシャル・メディアなど内外のソースに接続するためのプロトコルが使用されています。 名前が示すとおり、この層はデータの取り込みを担当します。

ストレージ層

この層では構造化データ、非構造化データ、半構造化データがParquetやOptimized Row Columnar(ORC)などのオープンソース・ファイル形式で保存されます。 レイクハウスの真の利点は、手頃なコストでシステムがあらゆるデータ・タイプを受け入れられることです。

メタデータ層

メタデータ層はデータレイクハウスの基盤です。 これは、レイク・ストレージ内にある全オブジェクトのメタデータを取得できる統合カタログであり、システム内のデータに関する情報を整理して提供するのに役立ちます。 この層により、ユーザーはACIDトランザクション、ファイル・キャッシュ、クエリを高速化するインデックスの作成といった管理機能も使用できます。 ユーザーはこの層で定義済みのスキーマを実装し、データ・ガバナンスと監査機能を実現できます。

API層

データレイクハウスではAPIを使用してタスク処理を強化し、より高度な分析を実行します。 具体的には、消費者や開発者はこの層によって抽象的なレベルでTensorflowなどさまざまな言語やライブラリを使用できます。 APIはデータ資産の消費に最適化されています。

データ消費層

データレイクハウス・アーキテクチャーの最後の層では、クライアントのアプリとツールをホストします。つまり、レイクに保存されているすべてのメタデータとデータにアクセスできるということです。 組織のユーザーは、レイクハウスを利用してビジネス・インテリジェンスのダッシュボード、データの可視化、そのほか機械学習のジョブといった分析タスクを実行できます。

データレイクハウスの利点

データレイクハウスはデータ・ウェアハウスとデータレイクの機能で最もよい部分を統合すべく設計されているので、特定の重要メリットをユーザーにもたらします。 これには以下が含まれます

  • データの冗長性を削減:単一のデータ・ストレージ・システムにより、どのようなビジネス・データ要求でも実行する合理的なプラットフォームが実現します。 データレイクハウスはまた、データ・パイプラインを通じて複数のシステムに移動するデータ量を削減することで、データ・オブザーバビリティー(可観測性)を簡素化します。
  • 費用対効果:データレイクハウスはクラウド・オブジェクト・ストレージのコストの低さを活用しているため、データ・ウェアハウスに比べて運用コストが比較的かかりません。 さらに、データレイクハウスのハイブリッド・アーキテクチャーのおかげで複数のデータ・ストレージ・システムを維持する必要がなくなるので、運用コストが削減されます。
  • 多様なワークロードに対応:データレイクハウスは、データ管理のライフサイクル全体でさまざまなユースケースに対応できます。 またビジネス・インテリジェンスとデータ可視化のワークストリームや、より複雑なデータサイエンスのワークストリームにも対応できます。
  • ガバナンスの向上:データレイクハウス・アーキテクチャーは、データレイクについてまわる一般的なガバナンス問題を軽減します。 例えばデータが取り込まれてアップロードされる時に、データが定義されたスキーマ要件を満たしていることを確認できるため、ダウンストリームのデータ品質に関する問題が軽減されます。
  • 規模拡大:従来のデータ・ウェアハウスでは計算とストレージが一体化していたため、運用コストがかさんでいました。 データレイクハウスはストレージと計算を分離するため、データ・チームが同じデータ・ストレージにアクセスしながらアプリケーションごとに異なるコンピューティング・ノードを使用できるようになります。 これにより拡張性と柔軟性が向上します。
  • ストリーミングのサポート:データレイクハウスは現代のビジネスとテクノロジーに合わせて構築されたもので、多くのデータソースがデバイスから直接リアルタイム・ストリーミングを使用しています。 レイクハウス・システムはこのリアルタイムの取り込みをサポートしており、将来はさらに一般的になるでしょう。
関連製品
データレイクハウス IBM watsonx.data

あらゆるデータを対象に、あらゆる場所でAIワークロードを拡張。IBM watsonx.dataは業界唯一のオープンなデータ・ストアであり、複数の照会エンジンを活用することで、どこに存在するワークロードであっても管理されたワークロードを実行することができ、リソースの最大活用とコスト削減を実現します。

IBM watsonx.dataはこちら 対話式デモを見る

データ管理 IBM Db2

データ・セキュリティー、拡張性、可用性における数十年にわたるイノベーションに基づいて構築されたIBM Db2なら、アプリケーションと分析をどこからでも保護し、高いパフォーマンスと回復力を維持できます。

IBM Db2はこちら

データ管理 IBM Netezza Performance Server

統合されたスケーラブルな分析とインサイトをどこでも利用できるよう設計された、高度なクラウドネイティブなデータ・ウェアハウス。 Netezza Performance Serverはきめ細かい柔軟な拡張、一時停止、再開機能を備えているので、大規模なエンタープライズ規模でコストとリソースを制御できます。

Netezza Performance Serverはこちら

データレイクハウスの参考情報 データレイクハウスの統合レジリエンス管理に不可欠なAIOps

IBM® Researchは、データレイクハウスの統合アプローチで統合データ・レジリエンス管理を行う独自の機会を作り出すことを提案しています。

The Forrester Wave™:Data Management for Analytics, Q1 2023

IBMのソリューションには分析環境の課題を解決する機能があります。 IBMが分析ソリューションのデータ管理のリーダーに選ばれる理由をご覧ください。

データ・プラットフォームの三位一体:競合か補完か

3つの概念がどのように相互接続しているか、またはどのように相互利用されているかを理解しましょう。

Presto 101: Presto とは?

watsonx.dataで利用できる高速で柔軟なオープンソースのクエリ・エンジンについて説明します。オープン・データレイクハウス・アーキテクチャー

次のステップ

オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。

watsonx.dataの詳細はこちら ライブ・デモを予約する
脚注

1 レイクハウス:データウェアハウスと高度な分析を統合する次世代のオープン・プラットフォーム(リンクはibm.com外にあります)、スタンフォード、2021年