データレイクとは、大まかに言うと、大規模なデータの単一のリポジトリです。データは、そのまま元の形式で保管することも、特殊なエンジンによる使用に適した別の形式に最適化することもできます。

最も人気のあるデータレイクの1つであるHadoopの場合、オープンソース・ソフトウェアを使用してそのようなリポジトリーを実装し、すべてを汎用ハードウェア上で実行することが約束されていたため、非常に低コストで大量のデータをシステムに保存できました。データはオープン・データ形式で保存できるため、データ消費が民主化されるだけでなく、自動的に複製されるため、高可用性を維持できます。デフォルトの処理フレームワークでは、航空機が飛行中に障害から回復するための機能が得られました。これは疑いもなく、従来の分析環境からの大きな逸脱であり、多くの場合、ベンダー・ロックインや大規模なデータの操作不能を意味していました。

もう 1 つの予期せぬ課題は、ビッグデータの処理フレームワークとして Spark を導入したことです。これはデータ変換、ストリーミング、SQLをサポートしているため、急速に人気を博しました。しかし、既存のデータレイク環境内で友好的に共存することはできませんでした。その結果、Spark を実行できるようにするためだけに専用のコンピューティング クラスターが追加されることがよくありました。

それから約 15 年が経過し、このテクノロジーに伴うトレードオフや妥協が現実のものとなってきました。これらは急速に普及したため、顧客はすぐにデータレイクに何が入ったのかわからなくなってしまいました。そして同様に困難だったのが、データがどこから来て、どのように取り込まれ、その過程でどのように変換されたかを判断できなかったということです。データ ガバナンスは、このテクノロジーにとって未開拓の領域のままです。ソフトウェアはオープンであっても、誰かがその使用方法、保守方法、サポート方法を学ぶ必要があります。コミュニティーのサポートに頼るだけでは、ビジネス・オペレーションに求められる所要時間は必ずしも得られません。複製による高可用性が得られても、より多くのディスクへのデータコピーの増加、ストレージコストの増加、および障害の頻度の増加が伴います。可用性の高い分散処理フレームワークでは、レジリエンスを優先してパフォーマンスを犠牲にすることになりました。つまり、対話型分析とBIのパフォーマンスが桁違いに低下したのです。