ホーム Topics データレイク データレイクとは
IBMのデータ・レイク・ソリューションの詳細はこちら AI関連の最新情報を購読する
雲、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
データレイクとは

データレイクは低コストのストレージ環境で、通常はペタバイト単位の未加工データを保管します。データレイクという言葉はPentaho社の元CTOが考案しました。

データ・ウェアハウスとは違って、データレイクは構造化データと非構造化データの両方の保管に対応しています。データを保管するうえで、定義済みのスキーマは必要ありません。この特性を「スキーマ・オン・リード」といいます。ストレージの要件がこのように柔軟であることは、データサイエンティスト、データ・エンジニア、開発者にとって特に有益で、データ検出作業や機械学習プロジェクトでのデータ・アクセスに活用できます。

調査会社451 Research社の最近のVoice of the Enterprise(ibm.com外部へのリンク)レポートによると、「約4分の3(71%)の企業は、現在データレイク環境を使用または試験運用しているか、今後12カ月以内にこれらを開始する予定にしており、回答者の53%は既に導入や概念実証を進めている」とのことです。導入にはさまざまなバリエーションがあり、レポートの回答者は導入の主要なメリットとしてビジネスの機敏性を挙げています。またレポートによると、データレイクはクラウドでの運用か、または組織のデータセンターを使用した「オンプレミス」での運用が一般的です。またこのレポートによると、データレイクはクラウドでの運用か、または組織のデータセンターを使用した「オンプレミス」での運用が一般的です。

データレイクを導入する企業はその価値を認識していますが、場合によっては、データ・スワンプ(沼)やデータ・ピット(落とし穴)の餌食になることがあります。データ・スワンプとは、データレイクの管理が不十分な場合に生じる結果です。つまり、適切なデータ品質やデータ・ガバナンス策が備わっておらず、洞察に満ちた学習が得られない状態を指します。適切に管理しなければ、こうしたリポジトリーの保管データは役に立たないものとなります。一方データ・ピットは、ビジネス価値がほとんど得られないという点ではデータ・スワンプに似ていますが、こちらはデータの問題の原因が明確ではありません。データ・スワンプと同様に、データ・ガバナンス・チームやデータサイエンス・チームが関与することが、落とし穴を防ぐうえで有益です。

IBMがIDCによってリーダーに選出される

IDC MarketScape: Worldwide AI Governance Platforms 2023レポートで、IBMがリーダーに選出された理由をお読みください。

関連コンテンツ

データリーダー向けガイドを読む

データレイクとデータ・ウェアハウスの違い

データレイクとデータ・ウェアハウスはどちらもデータを保管しますが、両リポジトリーはストレージに関して独自の要件があり、理想的な選択肢となるシナリオがそれぞれ異なります。例えばデータ・ウェアハウスは、ダッシュボード、データの可視化、ビジネス・インテリジェンス関連のその他のタスクなど、データ出力に向けたデータ分析の個別の要件に合った定義済みのスキーマが必要です。こうした要件は通常、レポートの出力を定期的に利用するビジネス・ユーザーやその他の利害関係者が規定します。データ・ウェアハウスの基盤となる構造は一般にリレーショナル・システム(つまり構造化データ形式)として編成されており、格納するデータはトランザクション・データベースから取得します。一方データレイクは、リレーショナル・システムと非リレーショナル・システムの両方のデータを格納できることから、データサイエンティストはより多くのデータサイエンス・プロジェクトに構造化データと非構造化データを取り入れることができます。

長所と短所もシステムごとに異なります。例えばデータ・ウェアハウスは、一般にパフォーマンスが優れていますが、コストも高くなります。データレイクは、クエリーの結果が返るまで時間がかかる場合がありますが、ストレージのコストは抑えられます。加えて、データレイクのストレージ容量はエンタープライズ・データに最適です。

データレイクとデータレイクハウスの違い

データレイクとデータ・ウェアハウスは、新しいデータ・ソースの拡大に伴って今後も導入は増える一方ですが、どちらのデータ・リポジトリーも制約があり、両テクノロジーの統合が進みつつあります。コスト面でデータレイクが持つメリットと、データ構造とデータ管理機能に関してデータ・ウェアハウスが持つメリットを兼ね備えているのがデータレイクハウスです。415 Researchの別の調査レポート(ibm.com外部へのリンク)によると、「企業の3分の2は、既にデータレイクハウス環境を使用または試験運用しているか、今後12カ月以内にこれらを開始する予定である」と回答しています。加えて、データレイクを導入した組織の93%が今後12カ月以内にデータレイクハウスを導入する予定であるとの結果も示されています。

データレイクのアーキテクチャー

データレイクは多くの場合Apache Hadoopと結び付いています。Apache Hadoopとは、大規模なデータ・ストレージ向けに信頼性の高い分散処理を低コストで提供するオープンソースのソフトウェア・フレームワークです。こうしたデータ・ストレージは、以前はオンプレミスに導入されていましたが、451 Researchのレポートにもあるように、エンド・ユーザーにとって柔軟性が高いクラウド環境への移行が急速に進んでいます。クラウド・ストレージの場合、オンプレミスでの導入とは違って、ユーザーが必要に応じて大規模なクラスターを立ち上げられる機能をクラウド・ストレージ・プロバイダーが提供しており、支払いは割り当てたストレージの分のみで済みます。つまり、数日ではなく数時間で実行するジョブのために追加のコンピューティング能力が必要な場合も、クラウド・プラットフォームであれば、コンピューティング・ノードの費用を追加で支払うことで簡単に実現できます。Forrester Research(ibm.com外部へのリンク)のレポートによると、オンプレミスのデータレイクよりもクラウド・データレイクを使用している企業は、約25%の節約を実現しています。

Hadoopの中では、Hadoop分散ファイル・システム(HDFS)が複数のサーバーにデータを保管およびレプリケートし、Yet Another Resource Negotiator(YARN)がそれらのサーバーの間でリソースを割り当てる方法を決定します。そのうえで企業はApache Sparkを使用してデータ処理用に1つの大きなメモリー空間を作成できます。高度なユーザーはPython、R、Spark SQLを使用したインターフェースを通じてデータにアクセスできます。

データの量が飛躍的に増加する中で、データレイクはデータ・パイプラインの重要な構成要素となっています。

データレイクのユースケース

データレイクは膨大な量の未加工データを保管できるという面で主に活用されるため、データをどのようなビジネス目的で利用するかを必ずしも最初に規定する必要はありません。それでも、データレイクの主なユースケースとしては次の2つを挙げることができます。

- 概念実証(POC):データレイク・ストレージは概念実証のプロジェクトに最適です。さまざまな種類のデータを保管できることは機械学習モデルで特に効果を発揮し、構造化データと非構造化データの両方を予測モデルに組み込めるようになります。これが役立つユースケースとしては、例えばテキスト分類があります。データサイエンティストはこうしたテキスト分類にリレーショナル・データベースを利用できないからです(少なくとも、スキーマ要件に合わせたデータの前処理が必要となります)。またデータレイクは、他のビッグデータ分析プロジェクトのサンドボックスとしても利用できます。その範囲は、大規模なダッシュボード開発から、一般にリアルタイムのストリーミング・データを必要とするIoT(モノのインターネット)アプリケーションのサポートにまで及びます。データの目的と価値を特定したうえで、ETLまたはELTの処理を行い、下流のデータ・ウェアハウスに保管できます。

- データのバックアップと復元:大容量のストレージを低コストで利用できるデータレイクは、災害復旧のインシデント向けの代替ストレージの役割を果たすことができます。また、データがネイティブ形式(つまり変換なし)で保管されることから、品質保証を適用するためのデータ監査にも有益です。これは、データ・ウェアハウスのデータ処理に関する適切な文書がない場合に特に役立ち、以前のデータ所有者の作業のクロス・チェックに利用できます。

さらに、データレイクのデータは保管の時点では必ずしも用途が決まっていなくてもよいことから、コールドデータや使用頻度の低いデータを費用対効果に優れたコストで保管しておく手段としても利用できます。後日、規制当局の問い合わせやまったく新しい分析で役立つ可能性があります。

データレイクのメリット

柔軟性の向上:データレイクは、構造化データ、半構造化データ、非構造化データのすべてのデータセットを取り入れることができ、高度な分析や機械学習プロジェクトに最適です。

コスト:データレイクの場合、データを取り入れるための事前の計画(例えばスキーマと変換の定義)がさほど必要ないため、人的リソースに投じる費用が少なくて済みます。加えて、データレイクの実際のストレージ・コストは、例えばデータ・ウェアハウスなど、他のストレージ・リポジトリーに比べて低くなります。したがって企業は、データ管理の取り組み全体で、予算とリソースをより効果的に最適化できます。

拡張性:データレイクはいくつかの形でビジネスの拡張に役立ちます。セルフサービス機能と包括的なストレージ容量を備えていることから、データレイクは他のストレージ・サービスに比べてスケーラブルです。加えてデータレイクは、成果につながるPOCを構築するためのサンドボックスとしても利用できます。一度小規模なプロジェクトで価値を実証すれば、オートメーションを利用してそのワークフローの規模を拡大することは容易です。

データ・サイロの減少:ヘルスケアからサプライチェーンに至るまで、組織内のデータ・サイロはさまざまな業種の企業でみられます。データレイクには各種部門の未加工データを取り入れます。したがって、特定のデータセットに対する単一の所有者が存在しなくなり、これらの依存関係は自然に解消へと向かいます。

顧客体験の向上:このメリットはすぐには顕在化しませんが、概念実証の成功はユーザー・エクスペリエンス全体の向上につながります。チームは洞察に満ちたまったく新しい分析を通じて、カスタマー・ジャーニーに対する理解とパーソナライズを強化できます。

データレイクの課題

データレイクには多くのメリットがありますが、課題がないわけではありません。例えば次のような課題があります。

- パフォーマンス:データレイクに格納するデータの量が増えると、パフォーマンスが犠牲になります。それでなくても、データレイクのパフォーマンスは他の代替データ・ストレージ・システムよりも低速です。

- ガバナンス:データレイクはさまざまなデータ・ソースを取り入れることができるため、企業がデータ管理を実践するうえでメリットがありますが、その一方で、適切な管理のためには強力なガバナンスが必要です。データ・スワンプを回避するために、関連するメタデータでデータのタグ付けと分類を行う必要があります。また、その情報はデータ・カタログを通じて簡単にアクセスできるようにし、テクノロジー系ではないビジネス・アナリストなどのスタッフも利用できるセルフサービスの機能を実現する必要があります。さらに、プライバシーと規制の基準を満たすために、例えばアクセス制御やデータ暗号化などのガードレールも導入する必要があります。

関連ソリューション
データレイク・ソリューション

オープンなクラウド・データに含まれるあらゆるデータを使用して、アプリケーション、分析、AIを強化します。

データレイク・ソリューションの詳細はこちら
参考情報 IBM + Cloudera

ハイブリッドクラウド向けのエンタープライズ・データ・プラットフォームを提供するIBMとClouderaのパートナーシップについて、詳細をご覧ください。

インテリジェントなデータ・ガバナンスとデータレイク

AIを中心とするデータ・アーキテクチャーの基盤として、データ品質、アクセシビリティー、セキュリティーを確保するためのベスト・プラクティスを学びます。

State bank of India

State Bank of India社がいくつかのIBMソリューションとIBM Garage方法論を使用して包括的なオンライン・バンキング・プラットフォームをどのように開発したかを学びましょう。

データレイクハウスとは

市場におけるデータ管理ソリューションの次なる進化について学びましょう。

次のステップ

オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。

watsonx.dataの詳細はこちら デモの予約