最初に旧Pentaho社の元CTOが作り出したデータレイクは、通常ペタバイトの生データを格納する低コストのストレージ環境です。 データウェアハウスとは異なり、データレイクは構造化データと非構造化データの両方を格納可能で、データ格納の際には定義されたスキーマを必要としません。これは「既読スキーマ」と呼ばれる特性です。 このような柔軟なストレージ要件は、データ・サイエンティスト、データ・エンジニア、および開発者が、データ検出の演習や機械学習プロジェクトのためにデータ・アクセスすることが可能になる点で特に有益です。
最近の451 Research社によるVoice of the Enterprise (ibm.com外部へのリンク)では、「企業のほぼ4分の3(71%)が現在データレイク環境を使用または試験運用しているか、今後12か月以内に使用する予定であり、回答者の53%がすでに展開中または概念検証(POC)中となっている。」と報告されています。 このレポートにおける回答者達は、データレイク展開の主なメリットとしてビジネスの俊敏性を強調していますが、内容は多岐にわたります。 そして、データレイクは通常、クラウドでホストされる、または企業のデータセンターを介して「オンプレミス」でホストされるかのいずれか一方であることも分かりました。
採用者達はデータレイクを評価していますが、一方でデータレイク(データの湖)がデータ・スワンプ(沼地)やデータピット(くぼみ)になってしまうことによる犠牲者になる可能性もあります。 データ・スワンプは、データレイクの不十分な管理が原因となります。つまり、データ品質が適切ではなく、データ・ガバナンスの実践が十分ではないため、洞察に満ちた学習を提供できない状況ということです。 適切に管理をしなければ、これらのリポジトリのデータは無用なものとなってしまいます。 一方データ・ピットは、ビジネス価値をほとんど生み出さないという点ではデータ・スワンプと同じですが、そのようなデータ問題が発生する理由については不明です。 同様に、データ・ガバナンスおよびデータ・サイエンスの両チームが関与することによって、それらの落とし穴から保護できる可能性があるとも言えます
データレイクとデータウェアハウスはどちらもデータを格納しますが、各リポジトリに独自のストレージ要件があることにより、さまざまなシナリオに合わせた最適な選択をすることが可能です。 たとえば、データウェアハウスには、定義されたスキーマが必要です。そのスキーマは、ダッシュボード、データの視覚化、その他のビジネス・インテリジェンス・タスクなど、データ出力に対する特定のデータ分析要件に適合しなければなりません。 これらの要件を指定するのは通常、ビジネス・ユーザーや関連するその他の利害関係者であり、その人たちが定期的にレポート出力を利用することになります。 データウェアハウスの基盤となる構造は、通常リレーショナル・システムとして(つまり、構造化されたデータ形式で)編成され、トランザクション・データベースからデータを調達します。 一方データレイクは、リレーショナル・システムと非リレーショナル・システムの両方からのデータを組み込んでいるため、データ・サイエンティストは、構造化データと非構造化データをより多くのデータ・サイエンス・プロジェクトに組み込むことができます。
各システムには、それぞれ一連の長所と短所もあります。 たとえば、データウェアハウスではパフォーマンス向上の傾向がありますが、高いコストがかかります。 データレイクの方がデータウェアハウスよりも照会結果が出るまでに時間がかかる場合がありますが、ストレージ・コストは低くなります。 さらに、データレイクのストレージ容量は、エンタープライズ・データ用に最適です。
データレイクとデータウェアハウスの両方の採用は、新たなデータ・ソースが増えていく中で増加の一途とたどっています。そのような中、それぞれのデータ・リポジトリには限界があるため、二つのテクノロジーを収束する形に向かいました。 データレイクハウスは、データレイクのコスト・メリットと、データウェアハウスのデータ構造およびデータ管理機能を組み合わせたものです。 415 Research社によるまた別の調査報告書 (リンクはibm.comの外部にあります)によると、「企業の3分の2は、データレイクハウス環境をすでに使用または試験運用しているか、12か月以内に使用する予定です。」 さらに、データレイクを採用している組織の93%が、今後12か月以内にデータレイクハウスの採用も計画していることがわかりました。
データレイクは、一般的にApache Hadoopという、ビック・データ・ストレージ向けに低コストで信頼性の高い分散処理を提供する、オープン・ソース・ソフトウェア・フレームワークに関連付けられることもあります。 それらは従来オンプレミスで展開されていましたが、451 Research社のレポートで指摘されているように、採用者はエンドユーザーに提供する柔軟性を高めるため、クラウド環境に急速に移行しています。 オンプレミス展開とは異なり、クラウドのストレージ・プロバイダーによってユーザーは必要に応じて大規模なクラスターを起動可能で、支払いは指定されたストレージに対する料金のみとなります。 つまり、数時間と数日でジョブを実行するために追加のコンピュート性能が必要な場合は、追加のコンピュート・ノードを購入することにより、クラウド・プラットフォームで簡単に実現できるのです。 Forrester Research (ibm.com外部へのリンク) では、オンプレミスのデータレイクよりもクラウドでデータレイクを使用する企業の方が、約25%の節約となっていることが報告されています。
Hadoop内では、Hadoop分散ファイルシステム(HDFS)が複数のサーバー間でデータを保存および複製し、さらにYet Another Resource Negotiator(YARN)がそれらのサーバー間でリソースを割り当てる方法を決定します。 次に、Apache Sparkを使用してデータ処理用の1つの大きなメモリスペースを作成し、上級のユーザーがPython、R、およびSparkSQLを使用するインターフェイスを介してデータにアクセスできるようにします。
データの量が指数関数的に増大するにつれて、データレイクはデータ・パイプラインの重要なコンポーネントとして機能します。
データレイクは、主に大量の生データを格納する機能のために活用されるため、データのビジネス目的を最初に定義する必要はありません。 ただし以下は、データレイクの主な2つの使用事例です。
-概念実証(POC):データレイクのストレージは、概念実証プロジェクトに最適です。 さまざまなタイプのデータを保存する機能は、構造化データと非構造化データの両方を予測モデルに組み込む機会を提供するため、機械学習モデル向けには特に有益です。 これは、テキスト分類などの使用事例に役立ちます。それは、データ・サイエンティストがその使用事例のためにリレーショナル・データベースを利用することができないことが理由(少なくともデータを前処理してスキーマ要件に適合しなければならないため)です。 データレイクは、他のビッグ・データ分析プロジェクトのサンドボックスとしても機能します。 この機能は、大規模なダッシュボードの開発から、通常はリアルタイムのストリーミング・データを必要とするIoTアプリのサポートまでさまざまな場面で利用できます。 データの目的と価値の確定後は、ダウンストリームのデータウェアハウスに保存するためにETLまたはELT処理を実行できます。
-データのバックアップと復旧:高いストレージ容量と低いストレージコストのデータレイクは、災害復旧インシデントの代替ストレージとして機能することが可能です。 また、データはネイティブ形式で(つまり変換なしで)保存されるため、品質保証を実施するためのデータ監査にも役立ちます。 このことは、データウェアハウスにデータ処理に関する適切なドキュメントがない場合に特に便利な点であり、データの前所有者から引き継いだ作業に対してチームでクロスチェックすることを可能にします。
最後に、データレイク内のデータは、保存目的を必ずしもすぐに必要としないため、コールド・データまたは非アクティブなデータを費用効果の高い価格で保存するための一つの手段にもなります。それによって後日、規制に関する問い合わせやネットの新規分析の際に役立つ可能性もあります。
高い柔軟性:データレイクは、構造化データセット、半構造化データセット、非構造化データセットのいずれも取り込むことができるため、高度な分析や機械学習プロジェクトに最適です。
費用:データレイクは、データを取り込むための事前の計画(スキーマや変換定義など)をそれほど必要としないため、人的資源に必要な投資額を削減できます。 さらに、データレイクの実際のストレージ・コストは、データウェアハウスなどの他のストレージ・リポジトリよりも低額です。 これにより、企業はデータ管理イニシアチブ全体で予算とリソースをより効果的に最適化できます。
拡張性:データレイクをビジネスの拡張に役立てる方法はいくつかあります。 セルフサービス機能と全体的なストレージ容量を持つデータレイクには、他のストレージ・サービスよりも高い拡張性があります。 さらに、データレイクは、作業者が優れた概念実証を開発するためのサンドボックスを提供します。 プロジェクトにおいて価値が小規模で実証されれば、そのワークフローを自動化の利用によって大規模に拡張することで、より簡単になります。
データ・サイロの削減:ヘルスケアからサプライ・チェーンまで、さまざまな業界の企業が組織内のデータ・サイロを経験しています。 データレイクがさまざまな機能にわたって生データを取り込むと同時に、それらのデータの依存関係は解消し始めます。それは、取り込んだデータセットについては、所有者が1人ではなくなるためです。
ワンランク上の顧客体験:メリットは直ちに目に見えるものではありませんが、優れた概念実証によって全体的な顧客体験の向上が可能となるため、チームがカスタマー・ジャーニーに対して、まったく新しい洞察に富んだ分析を通じて、理解を深めてパーソナライズできるようになります。
データレイクには数多くのメリットがありますが、課題が無いという訳ではありません。 以下は課題の一部です。
-パフォーマンス:データレイクに供給されるデータ量が増大するに従って、もともとその他の代替データ・ストレージ・システムよりも低速なパフォーマンスがさらに低下することになります。
-ガバナンス:さまざまなデータソースを取り込むデータレイクの機能は、企業がデータ管理を実践する上での利点となりますが、同時にその管理を適切に行うために強力なガバナンスも必要となってきます。 データ・スワンプを回避するために、データにはタグを付けて関連するメタデータで分類する必要があります。この情報には、データ・カタログを通して簡単にアクセスできなければならず、ビジネス・アナリストのような技術を専門としないスタッフ向けにセルフサービス機能を実現する必要があります。 最後に、プライバシーと規制の基準を満たすためにガードレールの設置も必要です。それには、アクセス制御やデータ暗号化などが含まれます。