Pendant longtemps, les entreprises ont eu recours à des bases de données relationnelles (développées dans les années 1970) et à des entrepôts de données (développés dans les années 1980) pour gérer leurs données. Ces solutions constituent toujours des éléments importants des écosystèmes informatiques de nombreuses entreprises, mais elles ont été conçues principalement pour des jeux de données structurés.
Avec la croissance d’Internet, et en particulier l’arrivée des réseaux sociaux et du streaming, les entreprises se sont retrouvées confrontées à de grandes quantités de données non structurées, telles que du texte et des images en format libre. Les entrepôts de données et les bases de données relationnelles étaient mal équipés pour gérer cet afflux de données en temps réel en raison de leurs schémas stricts et de leurs coûts de stockage relativement élevés.
En 2011, James Dixon, alors directeur de la technologie chez Pentaho, a inventé le terme « data lake ». James Dixon voyait le data lake comme une alternative à l’entrepôt de données. Alors que les entrepôts fournissent des données traitées pour des cas d’utilisation métier ciblés, James Dixon imaginait un data lake comme un grand volume de données hébergées dans leur format naturel. Les utilisateurs pouvaient extraire les données dont ils avaient besoin de ce lake et les exploiter à leur guise.
Beaucoup des premiers data lakes ont été construits sur le système de fichiers distribué Hadoop (HDFS), un cadre open source et l’un des composants majeurs d’Apache Hadoop. Ces premiers data lakes étaient hébergés sur site, une caractéristique devenant rapidement un problème, alors que le volume de données continuait d’augmenter. Le cloud computing a offert une solution : déplacer les data lakes vers des services de stockage d’objets dans le cloud plus évolutifs.
Les data lakes ne cessent d’évoluer. Nombreuses sont les solutions de data lake qui ne se contentent plus de proposer un stockage évolutif et bon marché, alliant désormais outils de sécurité des données et de gouvernance, catalogues de données et gestion des métadonnées.
Les data lakes sont également des composants essentiels des data lakehouses, une solution de gestion des données relativement nouvelle qui allie le stockage à faible coût d’un lake et les capacités d’analyse haute performance d’un entrepôt.