データウェアハウス、データレイク、データレイクハウスは、それぞれ異なる機能を持つ異なるタイプのデータ管理ソリューションです。
データウェアハウスは、データを集約、クリーンアップ、準備して、ビジネス・インテリジェンス(BI)やデータ分析に使用できるようにします。
データレイクは大量の未加工データを低コストで保管します。
データレイクハウスは、レイクの柔軟なデータ・ストレージとウェアハウスの高性能な分析機能を 1 つのソリューションに組み合わせたものです。
これらのソリューションは機能が異なり、目的も異なるため、多くの企業のデータ・アーキテクチャーでは、包括的なデータ・ファブリックでこれらのソリューションの2つまたは3つすべてを使用しています。
組織は、あらゆる形式の受信データに対応する汎用ストレージ・ソリューションとしてデータレイクを使用できます。
レイクからのデータは、個々の事業単位に合わせたデータウェアハウスに送られ、意思決定に役立つ情報を得ることができます。
データレイクハウス・アーキテクチャーを使用すると、データサイエンティストやデータ・エンジニアは、機械学習(ML)、人工知能(AI)、データサイエンス・プロジェクトのデータレイク内の未加工データをより簡単に操作できるようになります。
データレイクハウスは、既存のデータ・アーキテクチャーのモダナイゼーション経路としても人気があります。組織は、現在のレイクとウェアハウスを撤去して交換することなく新しいレイクハウスを実装できるため、統合されたデータ・ストレージおよび分析ソリューションへの移行が効率化されます。
データウェアハウスは、データベース、ビジネス・アプリケーション、ソーシャルメディア・フィードなど、異なるデータ・ソースからのデータを1つのストアに集約します。データ・ウェアハウジング・ツールの特徴は、取り込んだデータ・セットをクリーンアップして準備することです。
データウェアハウスでは、「スキーマ・オン・ライト」と呼ばれるアプローチが使用され、ストレージに書き込まれるすべてのデータに一貫したスキーマが適用されます。これにより、Business Intelligenceと分析用のデータを最適化できます。
例えば、小売販売データを保管するウェアハウスは、日付、金額、トランザクション番号などの詳細が正しくフォーマットされ、リレーショナル・テーブルの適切なセルに割り当てられるようにします。
データ・マートは、企業全体ではなく、特定のビジネス・ラインまたは部門に固有のデータを格納するデータウェアハウスの一種です。例えば、マーケティング・チームには独自のデータ・マートがあり、人事チームにも独自のデータ・マートがあるなどです。
一般的なデータウェアハウスには3つのレイヤーがあります。
最下層では、さまざまなソースから 抽出、変換、ロード(ETL)プロセスを通じてデータがウェアハウスに流れ込みます。多くのウェアハウスでは、データは リレーショナル・データベース、または同様のシステムに保存されます。
中間層は、オンライン分析処理(OLAP)システムやAnalytics Engineを中心に構築されます。この中間層により、ユーザーはデータ・セットを照会し、ウェアハウスで直接分析を実行できるようになります。
最上位層には、ユーザーがビジネス・データに対してアドホック・データ分析を実行できるようにするユーザー・インターフェースとレポート・ツールが含まれています。
初期のデータウェアハウスはオンプレミスでホストされていましたが、現在では多くがクラウドでホストされるか、クラウド・サービスとして提供されています。ハイブリッド・アプローチも一般的です。
従来のデータウェアハウスはリレーショナル・データベース・システムと厳密なスキーマに依存しているため、構造化されたデータで最も効果的です。最新のウェアハウスの中には、半構造化データや非構造化データに対応できるように進化したものもありますが、多くの組織では、これらの種類のデータにはデータレイクやレイクハウスを好んで使用します。
データウェアハウスは、ビジネス・アナリスト、データサイエンティスト、データ・エンジニアが セルフサービス分析 を実行するために使用されます。
定義されたスキーマをすべてのデータに適用すると、データの一貫性が促進され、データの信頼性が高まり、操作しやすくなります。データウェアハウスは構造化されたリレーショナル・スキーマでデータを格納するため、高パフォーマンスの 構造化クエリー言語(SQL)を用いた照会をサポートします。
組織は、組み込みまたは接続されたBIおよびデータ分析ツールを使用して、トランザクション・データと履歴データを分析し、データの視覚化を生成し、ダッシュボードを作成して、データ主導の意思決定をサポートできます。
倉庫の維持にはコストがかかる場合があります。データはウェアハウスにロードされる前に変換する必要があり、これには時間とリソースが必要です。従来の倉庫ではストレージとコンピューティングが密接に結合されているため、スケーリングにはコストがかかる可能性があります。従来の倉庫ではストレージとコンピューティングが密接に結合されているため、スケーリングにはコストがかかる可能性があります。
データウェアハウスは、非構造化データ・セットや半構造化データ・セットの処理に苦労することがあるため、AIおよびMLワークロードには適していません。
データレイクは、膨大な量のデータを処理するために設計された低コストのデータ・ストレージ・ソリューションです。データレイクは、スキーマ・オン・リード・アプローチを使用します。つまり、受信データに標準形式を適用しません。代わりに、ユーザーが分析ツールまたはその他のインターフェースを通じてデータにアクセスするときにスキーマが適用されます。
データレイクはデータをネイティブ形式で保存します。これにより、データレイクは 構造化データ、非構造化データ、半構造化データをすべて同じデータ・プラットフォームに保存できるようになります。
データレイクは、2000年代後半から2010年代前半にかけてWeb 2.0とクラウドおよびモバイル・コンピューティングの台頭によって発生した大量のビッグデータを組織が管理できるようにするために登場しました。組織はこれまで以上に大量のデータを処理しなければならなくなり、その多くは自由形式のテキストや画像など、従来のデータウェアハウスでは簡単に管理できない非構造化形式になっています。
初期のデータレイクは、多くの場合、Apache Hadoop分散型ファイル・システム(HDFS) 上に構築されていました。最新のデータレイクでは、Amazon Simple Storage Service(S3)、Microsoft Azure Blob Storage、IBM® Cloud Object Storageなどのクラウド・オブジェクト・ストアがよく使用されます。
データレイクはデータ・ストレージをコンピューティング・リソースから分離するため、データウェアハウスよりもコスト効率と拡張性に優れています。組織は、コンピューティング・リソースを拡張することなく、ストレージを追加できます。クラウド・ストレージは、オンプレミスのリソースを拡張することなく組織がストレージを増強できるため、さらなる拡張性をサポートします。
データレイク内のデータを処理するために、ユーザーはApache Sparkなどの外部データ処理ツールを接続できます。データウェアハウスとは異なり、これらの処理ツールはデータレイクに組み込まれていません。
データレイクは、コストが低く、拡張性が高く、あらゆる形式のデータを保存できるため、汎用データ・ストレージとしてよく使用されます。
組織では、バックアップを維持したり、古くて使用されていないデータをアーカイブしたりするために、データレイクを使用することがよくあります。組織は、目的が定義されていないデータも含め、すべての新しい受信データをレイクに保存することもできます。組織がデータを使用するまで、データはレイク内に保持されます。
また、組織はデータレイクを使用して、データ検出、モデルトレーニング、実験分析プロジェクトなど、ML、AI、ビッグデータ分析ワークロードのデータ・セットを保管することもできます。
データレイクは厳密なスキーマを強制せず、組み込みの処理ツールもないため、データ・ガバナンスとデータ品質に苦労する可能性があります。また、ビジネス・ユーザーの日常的なBIやデータ分析の取り組みにもあまり適していません。
多くの場合、組織では、正確性と品質を維持するために、包括的なデータ・カタログやメタデータ管理システムなどの個別のツールが必要になります。このようなツールが導入されていないと、データレイクは簡単にデータ・スワンプになってしまいます。
データレイクハウスは、データレイクとデータウェアハウスの核となる機能を1つのデータ管理ソリューションに統合したものです。
データレイクと同様に、データレイクハウスは、構造化データ、非構造化データ、半構造化データなど、あらゆる形式のデータを低コストで保存できます。
データレイクハウスは、ウェアハウスと同様に、高速クエリと最適化された分析をサポートします。
データレイクハウスは、これまで別々だったテクノロジーとツールを1つの総合的なソリューションに統合します。典型的なレイクハウス・アーキテクチャーには次の層が含まれます。
取り込み層は、さまざまなソースからバッチ・データやリアルタイムのストリーミング・データを収集します。レイクハウスは ETLプロセスを使用してデータをキャプチャできますが、多くのレイクハウスでは抽出、読み込み、変換(ELT)を使用します。レイクハウスは未加工データをストレージにロードし、後で分析に必要になったときに変換できます。
ストレージ層は通常、データレイクのようなクラウド・オブジェクト・ストレージです。
メタデータ層は、ストレージ層内のすべてのオブジェクトのメタデータの統合カタログを提供します。このメタデータ層は、レイクハウスが、クエリを高速化するためのデータのインデックス作成、スキーマの適用、ガバナンスと品質管理の適用など、レイクではできない多くのことを行うのに役立ちます。
API層により、ユーザーは高度な分析のためのツールを接続できます。
消費層は、BI、ML、その他のデータサイエンスおよび分析プロジェクト用のクライアント・アプリケーションとツールをホストします。
データレイクと同様に、計算リソースとストレージ・リソースは分離されているため、拡張性が確保できます。
データレイクはオープンソース・テクノロジーに大きく依存しています。Apache ParquetやApache Icebergなどのデータ形式により、組織は環境間でワークロードを自由に移動できるようになります。オープンソースのストレージ層であるDelta Lakeは、バージョン管理やACIDトランザクションなど、未加工データ・セットに対する分析の実行に役立つ機能をサポートしています。「ACID」は、原子性、一貫性、独立性、耐久性の略で、データ・トランザクションの整合性を保証するのに役立つ重要な特性です。
組織はコンポーネント部分から独自のレイクハウスを構築することも、Databricks、Snowflake、IBM watsonx.dataなどの事前構築済み製品を使用することもできます。
データレイクハウスは、組織が倉庫やレイクの限界や複雑さを克服するのに役立ちます。
データウェアハウスとデータレイクは目的が異なるため、多くの組織ではデータ・スタックに両方を実装しています。ただし、これは、特により高度な分析プロジェクトの場合、ユーザーは2つの異なるデータ・システムにまたがる必要があることを意味します。これにより、非効率的なワークフロー、重複データ、ガバナンスの課題、その他の問題が発生する可能性があります。
レイクハウスは、データ統合をサポートすることで、分析作業を効率化できます。データの種類に関係なく、すべてのデータを同じ中央リポジトリーに保存できるため、重複の必要性が軽減されます。あらゆる種類のビジネス・ユーザーが、BI、予測分析、AI、MLなどのプロジェクトにレイクハウスを使用できます。
データレイクハウスは、既存のデータ・アーキテクチャーのモダナイゼーションの経路としても機能します。オープン・レイクハウス・アーキテクチャーは、既存のレイクやウェアハウスと並行して簡単に配置できるため、組織は中断を伴うことなく、新しい統合ソリューションへの移行を開始できます。
レイクハウスは多くのデータワークフローを効率化できますが、それを稼働させるのは複雑になる可能性があります。レイクハウスの使用は、ユーザーが慣れている倉庫とは異なる場合があるため、ユーザーは作業の進め方を習得するまでに時間がかかることがあります。レイクハウスも比較的新しい技術であり、フレームワークはまだ進化しています。
データウェアハウス、データレイク、データレイクハウスは、さまざまなビジネスおよびデータのニーズに対応します。多くの組織では、これらのシステムの2つまたは3つすべてを組み合わせて使用し、データ・パイプラインを合理化し、AI、ML、分析をサポートしています。
例として、業務用キッチンを考えてみましょう。このキッチンには毎日、トラックで運ばれてきた食材(データ)(トランザクション・データベース、ビジネス・アプリケーションなど)の荷物が届きます。
すべての材料は、種類に関係なく、積み込みドック(データレイク)に届きます。原材料は加工され、冷蔵庫、パントリー、その他の保管場所(データウェアハウス)に分類されます。そこでは、食材は追加の加工をすることなく、シェフがすぐに使用できる状態になっています。
このプロセスはかなり効率的ですが、従来のデータレイクやデータウェアハウスの課題がいくつか露呈しています。荷物搬入口の素材と同じように、データレイク内のデータは、さらに処理しなければ使用できません。キッチンの食材と同じように、データウェアハウス内のデータは、使用する前に適切に準備され、適切な場所に配信される必要があります。
データレイクハウスは、荷積みドック、パントリー、冷蔵庫を1つの場所に統合するようなものです。もちろん、この組み合わせは業務用厨房の分野では非現実的かもしれません。しかし、エンタープライズ・データの世界では、組織は処理コスト、冗長性、データ・サイロを削減しながら、データから同じ価値を得ることができます。
データウェアハウスにはクリーンアップされ処理されたデータが保存されますが、データレイクには未加工データがネイティブ形式で保存されます。
データウェアハウスには分析エンジンとレポート作成ツールが組み込まれていますが、データレイクでは処理に外部ツールが必要です。
データレイクは、より安価で柔軟性があり、スケーラブルなストレージを備えています。データウェアハウスは照会を最適化します。
ウェアハウスは、ビジネス・ユーザーのBusiness Intelligenceと分析の取り組みをサポートするのに最適です。データレイクは、人工知能、機械学習、データサイエンスなど、さまざまなデータ形式の大量のデータを必要とするオペレーションに最適です。
ウェアハウスはACIDトランザクションをサポートしますが、データレイクはサポートしません。
レイクハウスとウェアハウスは同様の分析機能と照会機能を備えていますが、レイクハウスはウェアハウスよりも複雑なAIおよびMLワークロードをより適切にサポートできます。
レイクハウスは、あらゆる種類のデータに対して、より安価で柔軟性があり、スケーラブルなストレージを提供します。ウェアハウスは主に構造化データをサポートします。
ウェアハウスではETLが使用され、レイクハウスではETLまたはELTが使用されます。
レイクハウスはバッチ・データとストリーミング・データを処理できます。ウェアハウスはバッチで機能します。
データレイクとレイクハウスはどちらも、大量のデータとさまざまなデータ構造をサポートできます。どちらも、クラウド・オブジェクト・ストレージなどの同様のデータ・ストレージ・システムを使用します。
データレイクは、取り込まれたデータにスキーマを適用しません。データレイクハウスにはスキーマを適用するオプションがあります。
データレイクとレイクハウスはどちらもAIおよびMLワークロードをサポートできますが、レイクハウスはデータレイクよりもBIおよびデータ分析の取り組みをより適切にサポートします。
レイクハウスには分析ツールが組み込まれているか、分析フレームワークと緊密に統合されています。データレイクでは、データ処理に外部ツールが必要です。
レイクハウスは、データレイクよりも強力なデータ・ガバナンス、整合性、品質管理を備えています。
レイクハウスはACIDトランザクションをサポートしますが、データレイクはサポートしません。
データレイクはバッチ処理用に構築されることが多く、ストリーミング・データをサポートしていない可能性があります。レイクハウスはバッチ・データとストリーミング・データをサポートできます。
オープンなデータレイクハウス・アプローチがどのように信頼できるデータを提供し、分析とAIプロジェクトをより迅速に実行できるかをご覧ください。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
AIを活用したデータ・インテリジェンスとデータ統合が、構造化データおよび非構造化データの備えを推進し、AIによる成果を加速するために重要である理由をご紹介します。
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
IBM ResearchがIBM® Cloud Pak for Dataの新機能に頻繁に統合されている様子をご覧ください。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッドな、管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBM®コンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。