Durante mucho tiempo, las organizaciones se basaron en bases de datos relacionales (desarrolladas en la década de 1970) y data warehouses (desarrollados en la década de 1980) para gestionar sus datos. Estas soluciones siguen siendo partes importantes de los ecosistemas de TI de muchas organizaciones, pero se diseñaron principalmente para conjuntos de datos estructurados.
Con el crecimiento de Internet, y especialmente la llegada de las redes sociales y los medios de transmisión, las organizaciones se encontraron con grandes cantidades de datos no estructurados, como texto e imágenes de forma libre. Los almacenes de datos y las bases de datos relacionales estaban mal equipados para manejar esta afluencia de datos en tiempo real debido a sus esquemas estrictos y costos de almacenamiento comparativamente altos.
En 2011, James Dixon, entonces director de tecnología de Pentaho, acuñó el término "data lake". Dixon vio el lago como una alternativa al almacén de datos. Mientras que los almacenes proporcionan datos procesados para casos de uso empresarial específicos, Dixon imaginó un data lake como un gran cuerpo de datos alojados en su formato natural. Los usuarios podían extraer los datos que necesitaban de este lago y usarlos como quisieran.
Muchos de los primeros data lakes se crearon en el Hadoop Distributed File System (HDFS), una infraestructura de código abierto y uno de los principales componentes de Apache Hadoop. Estos primeros data lakes se alojaban on premises, pero esto se convirtió rápidamente en un problema a medida que el volumen de datos seguía aumentando. La computación en la nube ofreció una solución: trasladar los data lakes a servicios de almacenamiento de objetos en la nube más escalables.
Los data lakes siguen evolucionando hoy en día. Muchas soluciones de data lakes ofrecen ahora funciones que van más allá del almacenamiento económico y escalable, como herramientas de seguridad y gobernanza de datos, catálogos de datos y gestión de metadatos.
Los data lakes también son componentes centrales de los data lakehouses, una solución de gestión de datos relativamente nueva que combina el almacenamiento de bajo costo de un lago y las capacidades de analytics de alto rendimiento de un almacén.