Durante mucho tiempo, las organizaciones confiaron en bases de datos relacionales (desarrolladas en la década de 1970) y almacenes de datos (desarrollados en la década de 1980) para gestionar sus datos. Estas soluciones siguen siendo partes importantes de los ecosistemas informáticos de muchas organizaciones, pero fueron diseñadas principalmente para conjuntos de datos estructurados.
Con el crecimiento de Internet, y especialmente con la llegada de las redes sociales y los medios de transmisión, las organizaciones se encontraron lidiando con grandes cantidades de datos no estructurados, como texto e imágenes de forma libre. Los almacenes de datos y las bases de datos relacionales estaban mal equipados para gestionar esta afluencia de datos en tiempo real debido a sus esquemas estrictos y a los costes de almacenamiento comparativamente elevados.
En 2011, James Dixon, entonces director de tecnología de Pentaho, acuñó el término “data lake”. Dixon vio el data lake como una alternativa al almacén de datos. Mientras que los almacenes proporcionan datos procesados para casos de uso empresarial específicos, Dixon imaginó un data lake como un gran cuerpo de datos alojados en su formato natural. Los usuarios podían extraer los datos que necesitaban de este lago y utilizarlos como quisieran.
Muchos de los primeros data lakes se construyeron en el Hadoop Distributed File System (HDFS), un marco de código abierto y uno de los principales componentes de Apache Hadoop. Estos primeros data lakes se alojaban on-premises, pero esto se convirtió rápidamente en un problema a medida que el volumen de datos continuaba aumentando. El cloud computing ofrecía una solución: mover los data lakes a servicios de almacenamiento de objetos en la nube más escalables.
Los data lakes siguen evolucionando hoy en día. Muchas soluciones de data lake ofrecen ahora características que van más allá del almacenamiento escalable y barato, como seguridad de datos y herramientas de gobierno, catálogos de datos y gestión de metadatos.
Los data lakes también son componentes fundamentales de los lakehouses de datos, una solución de gestión de datos relativamente nueva que combina el almacenamiento de bajo coste de un data lake y las capacidades analíticas de alto rendimiento de un almacén.