ホーム
Topics
データレイクハウスとは?
データレイクハウスは、データ・ウェアハウスとデータレイクの両方にまたがる根本的な課題を解決して、組織にとってより理想的なデータ管理ソリューションを提供することを目的としています。これらは、市場におけるデータ管理ソリューションの次の進化を表しています。
データレイクハウスは、データ・ウェアハウスとデータレイクの優れた側面を1つのデータ管理ソリューションに統合したデータ・プラットフォームです。 データ・ウェアハウスはデータレイクよりもパフォーマンスが優れている傾向がありますが、コストが高く、拡張性が限られる場合があります。 データレイクハウスは、クラウド・オブジェクト・ストレージを活用してより多くの種類のデータ(構造化データ、非構造化データ、半構造化データ)を保存することで、この問題の解決を図るものです。 これらの利点を1つのデータ・アーキテクチャーにまとめることで、データ・チームは機械学習などより高度な分析を実施、拡張するために2つの異なるデータ・システムを使う必要がなくなるため、データ処理を高速化できます。
特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。
データレイクハウスはデータ・ウェアハウスとデータレイク双方の課題から生まれたため、それぞれのデータ・リポジトリを定義して違いを理解することは大切です。
データ・ウェアハウスは、複数のソースから未加工データを中央リポジトリに収集し、リレーショナル・データベース・インフラストラクチャーに整理します。 このデータ管理システムは主にデータ分析と、企業レポートなどのビジネス・インテリジェンス・アプリケーションを支援するものです。システムはデータの抽出、変換、格納先へのロードを行うETLプロセスを使用します。 ただし、特にデータ・ソース数とデータ量が時間とともに増加する場合、非効率性とコストのために限界があります。
データレイクは通常Apache Hadoopなどのビッグデータ・プラットフォーム上に構築されます。 従来のデータ・ウェアハウスのような事前定義されたスキーマがほぼないことから、コストの低さとストレージの柔軟性で知られています。 またオーディオ、動画、テキストなどさまざまな種類のデータも格納します。 データ作成者は非構造化データを生成することが多いので、この違いは重要です。なぜなら、組織全体でさらに斬新なインサイトとよりよい意思決定を促すデータサイエンスや人工知能(AI)プロジェクトも増やせるからです。ただし、データレイクにも独自の課題がないわけではありません。 データレイクの規模と複雑さが原因で、大量の保存データに対処するために、データサイエンティストやデータエンジニアなどの技術者を増員しなければならない場合があります。 加えてデータ・ガバナンスはこれらのシステムのより下流で実装されるため、データレイクにはデータサイロが増加しやすく、データスワンプになる可能性があります。 これが発生すると、データレイクが使用できなくなるおそれがあります。
通常、データレイクとデータ・ウェアハウスは連携して使用されます。 データレイクはあらゆる新規データに対応するシステムとして機能し、データ・ウェアハウスではこのシステムから取得した特定データに下流構造を適用します。 しかし、信頼性の高いデータを提供するためにこれらのシステムを調整するには、時間とリソースが多く求められる場合があります。 処理時間が長くなるとデータが古くなり、ETL層が増えるとデータ品質のリスクが高まります。
データレイクハウスはデータ・ウェアハウスとデータレイク内の欠陥を最適化して、より優れたデータ管理システムを形成します。 組織に高速かつ低コストのエンタープライズ・データ用ストレージを提供すると同時に、データ分析と機械学習両方のワークロードをサポートするのに十分な柔軟性も備えています。
前述したように、データレイクハウスはデータ・ウェアハウスとデータレイクが持つ機能の最もよい部分を組み合わせたものです。 データ・ウェアハウスと同様のデータ構造を活用してデータレイクの低コストなストレージ、柔軟性と組み合わせることで、組織はビッグデータを迅速かつ効率的に保存、アクセスできると同時に、潜在的なデータ品質の問題も軽減できます。 多様なデータを持つデータ・セット(構造化データと非構造化データ)に対応しているので、ビジネス・インテリジェンスとデータサイエンスのワークストリームどちらのニーズも満たします。 通常はPython、R、高性能SQLなどのプログラミング言語に対応しています。
データレイクハウスは大規模なデータ・ワークロードのACIDトランザクションにも対応しています。 ACID はatomicity(原子性)、consistency(一貫性)、isolation(分離性)、durability(耐久性)を表します。いずれもデータの整合性を確保するトランザクションを定義している重要な特性です。原子性は、データに対するすべての変更が単一の操作であるかのように実行されることとして定義できます。 一貫性とは、トランザクションの開始時と終了時でデータに矛盾がない状態にあることです。 分離性とは、トランザクションの処理過程が他のトランザクションから見えないことを指します。 その結果、同時に実行されるトランザクションがシリアル化されているように見えます。 耐久性とは、トランザクションが正常に完了した後、システム障害が発生してもデータへの変更が保持され、元に戻されないことです。これは複数のユーザーが同時にデータの読み取りと書き込みを行う場合、データの一貫性を確保するために重要な機能となります。
データレイクハウスは通常、取り込み層、ストレージ層、メタデータ層、API層、消費層の5層で構成されます。 各層がデータレイクハウスのアーキテクチャー・パターンを作り上げています。
1層目では、さまざまなソースからデータを収集し、レイクハウスで保存、分析できる形式に変換します。 取り込み層には、データベース管理システム、NoSQLデータベース、ソーシャル・メディアなど内外のソースに接続するためのプロトコルが使用されています。 名前が示すとおり、この層はデータの取り込みを担当します。
この層では構造化データ、非構造化データ、半構造化データがParquetやOptimized Row Columnar(ORC)などのオープンソース・ファイル形式で保存されます。 レイクハウスの真の利点は、手頃なコストでシステムがあらゆるデータ・タイプを受け入れられることです。
メタデータ層はデータレイクハウスの基盤です。 これは、レイク・ストレージ内にある全オブジェクトのメタデータを取得できる統合カタログであり、システム内のデータに関する情報を整理して提供するのに役立ちます。 この層により、ユーザーはACIDトランザクション、ファイル・キャッシュ、クエリを高速化するインデックスの作成といった管理機能も使用できます。 ユーザーはこの層で定義済みのスキーマを実装し、データ・ガバナンスと監査機能を実現できます。
データレイクハウスではAPIを使用してタスク処理を強化し、より高度な分析を実行します。 具体的には、消費者や開発者はこの層によって抽象的なレベルでTensorflowなどさまざまな言語やライブラリを使用できます。 APIはデータ資産の消費に最適化されています。
データレイクハウス・アーキテクチャーの最後の層では、クライアントのアプリとツールをホストします。つまり、レイクに保存されているすべてのメタデータとデータにアクセスできるということです。 組織のユーザーは、レイクハウスを利用してビジネス・インテリジェンスのダッシュボード、データの可視化、そのほか機械学習のジョブといった分析タスクを実行できます。
データレイクハウスはデータ・ウェアハウスとデータレイクの機能で最もよい部分を統合すべく設計されているので、特定の重要メリットをユーザーにもたらします。 これには以下が含まれます
あらゆるデータを対象に、あらゆる場所でAIワークロードを拡張。IBM watsonx.dataは業界唯一のオープンなデータ・ストアであり、複数の照会エンジンを活用することで、どこに存在するワークロードであっても管理されたワークロードを実行することができ、リソースの最大活用とコスト削減を実現します。
データ・セキュリティー、拡張性、可用性における数十年にわたるイノベーションに基づいて構築されたIBM Db2なら、アプリケーションと分析をどこからでも保護し、高いパフォーマンスと回復力を維持できます。
統合されたスケーラブルな分析とインサイトをどこでも利用できるよう設計された、高度なクラウドネイティブなデータ・ウェアハウス。 Netezza Performance Serverはきめ細かい柔軟な拡張、一時停止、再開機能を備えているので、大規模なエンタープライズ規模でコストとリソースを制御できます。
IBM® Researchは、データレイクハウスの統合アプローチで統合データ・レジリエンス管理を行う独自の機会を作り出すことを提案しています。
IBMのソリューションには分析環境の課題を解決する機能があります。 IBMが分析ソリューションのデータ管理のリーダーに選ばれる理由をご覧ください。
3つの概念がどのように相互接続しているか、またはどのように相互利用されているかを理解しましょう。
watsonx.dataで利用できる高速で柔軟なオープンソースのクエリ・エンジンについて説明します。オープン・データレイクハウス・アーキテクチャー
1 レイクハウス:データウェアハウスと高度な分析を統合する次世代のオープン・プラットフォーム(リンクはibm.com外にあります)、スタンフォード、2021年