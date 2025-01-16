Durante mucho tiempo, las organizaciones dependieron de las bases de datos relacionales (desarrolladas en la década de 1970) y los almacenes de datos (desarrollados en la década de 1980) para administrar sus datos. Estas soluciones siguen siendo partes importantes de los ecosistemas de TI de muchas organizaciones, pero se diseñaron principalmente para conjuntos de datos estructurados.

Con el crecimiento de Internet, y especialmente con la llegada de las redes sociales y los medios de transmisión, las organizaciones se encontraron lidiando con muchos más datos no estructurados, como texto e imágenes de forma libre. Debido a sus estrictos esquemas y a los costes de almacenamiento comparativamente elevados, los almacenes y las bases de datos relacionales estaban mal equipados para gestionar esta afluencia de datos.

En 2011, James Dixon, entonces director de tecnología en Pentaho, acuñó el término "data lake". Dixon vio el data lake como una alternativa al almacén de datos. Mientras que los almacenes entregan datos preprocesados para casos de uso empresariales específicos, Dixon imaginó un data lake como un gran cuerpo de datos alojados en su formato natural. Los usuarios podían extraer los datos que necesitaban de este lago y utilizarlos como quisieran.

Muchos de los primeros data lakes se crearon en Apache Hadoop, un marco de software código abierto para el procesamiento distribuido de grandes conjuntos de datos. Estos primeros data lakes se alojaban en las instalaciones, pero esto se convirtió rápidamente en un problema a medida que el volumen de datos continuaba aumentando.

El cloud computing ofrecía una solución: mover los data lakes a servicios de almacenamiento de objetos en la nube más escalables.

Los data lakes siguen evolucionando hoy en día. Muchas soluciones de data lake ofrecen ahora funciones que van más allá del almacenamiento barato y escalable, como herramientas de seguridad y gobierno de datos, catálogos de datos y gestión de metadatos.

Los data lakes también son componentes centrales de los data lakehouses, una solución de gestión de datos relativamente nueva que combina el almacenamiento de bajo coste de un data lake y las capacidades analíticas de alto rendimiento de un almacén. (Para obtener más información, consulte "Data lakes vs. lakehouses de datos").