¿Qué es un data lake?

16 de enero de 2025

Autores

Matthew Kosinski

Enterprise Technology Writer

¿Qué es un data lake?

Un data lake es un entorno de almacenamiento de datos de bajo costo diseñado para manejar cantidades masivas de datos sin procesar en cualquier formato, incluidos datos estructurados, semiestructurados y no estructurados. La mayoría de los lagos de datos utilizan almacenamiento de objetos basado en la nube, como AWS S3, Google Cloud Storage o IBM Cloud Object Storage.

Los lagos de datos surgieron para ayudar a las organizaciones a lidiar con la avalancha de big data, en gran parte desestructurada, creada por aplicaciones y servicios conectados a Internet a fines de la década de 2000 y principios de 2010.  

A diferencia de las bases de datos y los almacenes de datos tradicionales, los lagos de datos no requieren que todos los datos sigan un esquema definido. En su lugar, los lagos de datos pueden almacenar diferentes tipos de datos en diversos formatos en un repositorio centralizado. Los lagos de datos también aprovechan la computación en la nube para que el almacenamiento de datos sea más escalable y asequible.

En la actualidad, los lagos de datos son componentes fundamentales de las arquitecturas de datos de muchas organizaciones. Según el estudio de IBM CDO, el 75% de los principales directores de datos (CDO) están invirtiendo en lagos de datos. 

Gracias a su almacenamiento flexible, los lagos de datos pueden ayudar a las organizaciones a eliminar los silos de datos y construir tejidos de datos holísticos. También son útiles para los científicos e ingenieros de datos, que a menudo emplean los lagos de datos para gestionar los enormes conjuntos de datos no estructurados necesarios para las cargas de trabajo de inteligencia artificial (IA) y machine learning (ML).

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

La evolución de los data lakes

Durante mucho tiempo, las organizaciones confiaron en bases de datos relacionales (desarrolladas en la década de 1970) y almacenes de datos (desarrollados en la década de 1980) para gestionar sus datos. Estas soluciones siguen siendo partes importantes de los ecosistemas de TI de muchas organizaciones, pero se diseñaron principalmente para conjuntos de datos estructurados.

Con el crecimiento de Internet, y especialmente con la llegada de las redes sociales y los medios de transmisión, las organizaciones se encontraron lidiando con muchos más datos no estructurados, como texto e imágenes de forma libre. Debido a sus estrictos esquemas y a los costos de almacenamiento comparativamente elevados, los almacenes y las bases de datos relacionales estaban mal equipados para gestionar esta afluencia de datos.  

En 2011, James Dixon, entonces director de tecnología de Pentaho, acuñó el término “lago de datos”. Dixon veía el lago como una alternativa al almacén de datos. Mientras que los almacenes entregan datos preprocesados para casos de uso empresarial específicos, Dixon imaginó un lago de datos como un gran conjunto de datos alojados en su formato natural. Los usuarios podrían extraer los datos que necesitaban de este lago y emplearlos como quisieran.

Muchos de los primeros data lakes se crearon en Apache Hadoop, un marco de software de código abierto para el procesamiento distribuido de grandes conjuntos de datos. Estos primeros data lakes se alojaban on premises, pero esto se convirtió rápidamente en un problema a medida que el volumen de datos seguía aumentando.

La computación en la nube ofreció una solución: trasladar los lagos de datos a servicios de almacenamiento de objetos en la nube escalable.

Los lagos de datos siguen evolucionando en la actualidad. Muchas soluciones de data lake ofrecen ahora características más allá del almacenamiento de información escalable y económico, como herramientas de seguridad y control de datos, catálogos de datos y administración de metadatos

.

Los lagos de datos también son componentes básicos de los lagos de datos de casa, una solución de gestión de datos relativamente nueva que combina el almacenamiento de bajo costo de un lago y las capacidades de análisis de alto rendimiento de un almacén. (Para obtener más información, consulte “Lagos de datos vs. lagos de datos de casa”).

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Arquitectura de data lake

Mientras que los primeros lagos de datos se construyeron en Hadoop, el núcleo de un lago de datos moderno es un servicio de almacenamiento de objetos en la nube. Las opciones comunes incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Almacenamiento, Google Cloud Almacenamiento e IBM Cloud Object Storage

Cloud object storage permite a las organizaciones almacenar diferentes tipos de datos sin procesar, todo en el mismo almacenamiento. También es generalmente más Escalable y más rentable que el almacenamiento on premises. Los proveedores de Cloud storage permiten a los usuarios poner en marcha grandes clústeres bajo demanda, lo que requiere un pago solo por el almacenamiento utilizado.

Los recursos de almacenamiento y computación están separados entre sí en una arquitectura de lago de datos. Para procesar datos, los usuarios deben conectar herramientas externas de procesamiento de datos. Apache Spark, que admite interfaces como Python, R y Spark SQL, es una opción popular.

Desvincular el almacenamiento y la computación ayuda a mantener los costos bajos y la escalabilidad alta. Las organizaciones pueden agregar más almacenamiento sin escalar los recursos informáticos junto con él.  

El almacenamiento central del data lake está conectado a varias fuentes de datos, como bases de datos, aplicaciones, dispositivos de Internet de las cosas (IoT) y sensores, a través de una capa de ingesta.  

La mayoría de los lagos de datos utilizan un proceso de extracción, carga y transformación (ELT) en lugar de un proceso de extracción, transformación y carga (ETL) para Ingesta de datos. Los datos permanecen en su estado original cuando el lago los Ingesta, y no se transforman hasta que se necesitan. Este enfoque—aplicando un esquema solo cuando se accede a los datos—se denomina “schema-on-read.”

Además de estos componentes principales, las organizaciones pueden construir otras capas en sus arquitecturas de data lake para hacerlas más seguras y utilizables. Estas capas pueden incluir:

  • Múltiples capas de almacenamiento distintas para adaptarse a las diferentes etapas del procesamiento de datos. Por ejemplo, un lago de datos puede tener una capa para datos sin procesar, una capa para datos limpios y una capa para datos de aplicaciones confiables. 

Lagos de datos, almacenes de datos y lakehouses de datos

Los lagos de datos, almacenes y lakehouses son todos tipos de herramientas de gestión de datos, pero tienen diferencias importantes. A menudo se utilizan juntos en una arquitectura de datos integrada para admitir varios casos de uso.  

Lagos de datos frente a almacenes de datos

Al igual que un lago de datos, un almacén de datos agrega datos de fuentes de datos Dispar en un único almacenar, generalmente un sistema de base de datos relacional. La diferencia clave es que los almacenes de datos limpian y preparan los datos que Ingesta para que estén listos para su uso en analytics.

Los almacenes de datos están diseñados principalmente para admitir consultas de alto rendimiento, análisis en tiempo real y esfuerzos de business intelligence (BI). Como tales, están optimizados para datos estructurados y estrechamente integrados con Analytics Engine, paneles y herramientas de visualización de datos.

Los almacenes tienden a tener un almacenamiento más caro, menos flexible y menos escalable que los lagos de datos. Las organizaciones suelen emplear los almacenes para proyectos de analytics específicos, mientras que confían en los lagos de datos para el almacenamiento a gran escala, multipropósito.  

Data lakes vs. data lakehouses

Un lakehouse de datos es una solución de gestión de datos que combina el almacenamiento de datos flexible de un lago y las capacidades de analytics de alto rendimiento de un almacén.

Al igual que un lago de datos, un lakehouse de datos puede almacenar datos en cualquier formato a bajo costo. Los lakehouses de datos también construyen una infraestructura de analytics de estilo almacén sobre ese sistema de almacenamiento de data lakes en la cloud, combinando características de las dos soluciones.  

Las organizaciones pueden usar lakehouses para admitir numerosas cargas de trabajo, que incluyen IA, ML, BI y análisis de datos. Los lakehouses también pueden servir como una vía de modernización para las arquitecturas de datos. Las organizaciones pueden colocar lakehouses junto a lagos y almacenes existentes sin un costoso esfuerzo de quitar y reemplazar.  

Casos de uso de data lakes

Almacenamiento multiusos

Muchas organizaciones emplean lagos de datos como soluciones de almacenamiento multipropósito para los datos entrantes, ya que pueden alojar fácilmente petabytes de datos en cualquier formato.  

En lugar de configurar diferentes pipelines de datos para diferentes tipos de datos, las organizaciones pueden poner todos los datos entrantes en el almacenamiento de data lake. Los usuarios pueden acceder a los datos directamente desde el lago o moverlos a un almacén u otra plataforma de datos según sea necesario.

Las organizaciones pueden incluso utilizar lagos de datos para almacenar datos "por si acaso" con casos de uso aún no definidos. Debido a que los lagos de datos son baratos y escalables, las organizaciones no tienen que preocuparse por gastar recursos en datos que quizás aún no necesiten.

Copias de seguridad, archivos y datos inactivos 

Las grandes capacidades de almacenamiento y los bajos costos de almacenamiento hacen de los lagos de datos una opción habitual para las copias de seguridad y la recuperación ante desastres.

Los data lakes también pueden ser una forma de almacenar datos fríos o inactivos a un precio bajo. Esto es útil para archivar datos antiguos y mantener registros históricos que podrían ayudar con auditorías de cumplimiento, consultas regulatorias o incluso nuevos análisis netos en el futuro.

Cargas de trabajo de IA y ML

Los data lakes desempeñan un papel importante en las cargas de trabajo de IA, machine learning (ML) y analytics de big data, como la creación de modelos predictivos y el entrenamiento de aplicaciones de IA generativa (IA gen) que requieren grandes cantidades de datos no estructurados. Estos proyectos pueden ser gestionados de forma económica y eficiente por los data lakes.  

Según el estudio del director ejecutivo (CEO) de IBM, el 72 % de los CEO con mejor rendimiento están de acuerdo en que contar con las herramientas de IA generativa más avanzadas proporciona a una organización una ventaja competitiva. Dada la importancia de la IA y el ML, tiene sentido que los data lakes se hayan convertido en una inversión fundamental en arquitectura de datos para muchas organizaciones.

Integración de datos 

Los data lakes pueden ayudar a respaldar las iniciativas de integración de datos, cuyo objetivo es combinar y armonizar datos de múltiples fuentes para que puedan utilizarse con diversos fines analíticos, operativos y de toma de decisiones.

Según los datos de evaluación comparativa del IBM Institute for Business Value, el 64 % de las organizaciones afirman que derribar las barreras organizacionales para el intercambio de datos es uno de sus mayores desafíos relacionados con las personas. Las investigaciones muestran que hasta el 68 % de los datos organizacionales nunca se analizan. Las organizaciones no pueden obtener todos los beneficios de sus datos si las personas no pueden usarlos cuando los necesitan.

Los data lakes pueden facilitar el acceso y el intercambio de datos al brindar a las organizaciones una manera fácil de almacenar todo tipo de datos en un repositorio central accesible.

Beneficios del lago de datos

Los data lakes pueden ayudar a las organizaciones a obtener más valor de sus datos empresariales al facilitar el almacenamiento, el intercambio y el uso de esos datos. Más específicamente, los lagos de datos pueden proporcionar:

  • Flexibilidad: los lagos de datos pueden ingerir conjuntos de datos estructurados, semiestructurados y no estructurados. Las organizaciones no necesitan mantener sistemas de almacenamiento separados para los distintos tipos de datos, lo que puede ayudar a simplificar las arquitecturas de datos.

  • Bajos costos: los datos no necesitan pasar por un costoso proceso de limpieza y Transformación para el almacenamiento, y el cloud object storage suele ser más barato que las alternativas locales. Las organizaciones pueden optimizar sus Recursos y presupuestos de manera más efectiva a través de iniciativas de gestión de datos.

  • Escalabilidad: debido a que los lagos de datos desacoplan los recursos informáticos y de almacenamiento, y debido a que suelen utilizar servicios de almacenamiento en la nube, son más fáciles de ampliar o reducir que muchas otras soluciones de almacenamiento de datos. 

  • Menos silos de datos: según los datos de evaluación comparativa del IBM Institute for Business Value, el 61 % de las organizaciones dice que los silos de datos son uno de sus principales desafíos. Los data lakes pueden ayudar a eliminar los silos de datos al eliminar la necesidad de almacenar diferentes tipos de datos en diferentes lugares. Un data lake central o un conjunto de data lakes puede ser más accesible que almacenes de datos dispares repartidos entre unidades de negocio.  

Desafíos de los data lakes

Gobernanza y calidad de datos

Debido a que no aplican un esquema estricto y aceptan muchos tipos de datos diferentes de muchas fuentes, los lagos de datos pueden tener dificultades con la gobernanza y la calidad de los datos. Sin una gestión adecuada, los lagos de datos pueden convertirse fácilmente en "pantanos de datos": ciénagas desordenadas de datos poco confiables que dificultan que los usuarios obtengan insights procesables.

Para combatir los pantanos de datos, las organizaciones pueden invertir en herramientas de etiquetado y clasificación, como sistemas de administración de metadatos y catálogos de datos, que facilitan la navegación. 

Las soluciones de seguridad y gobernanza de datos, como los controles de acceso, la prevención de pérdida de datos y las soluciones de detección y respuesta de datos pueden ayudar a garantizar que no se acceda, utilice o modifique los datos sin autorización.  

Desempeño

Los lagos de datos no tienen herramientas integradas de procesamiento y consulta como muchos almacenes y casas de lago. Además, el rendimiento de las consultas y el análisis puede verse afectado a medida que crece el volumen de datos que se introducen en un lago de datos, especialmente si los datos no están optimizados para su recuperación.

El uso de las herramientas y configuraciones adecuadas, como formatos de almacenamiento optimizados y motores de consulta, puede ayudar a garantizar un alto rendimiento, independientemente del tamaño del lago de datos.

Soluciones relacionadas
IBM watsonx.data

Ponga sus datos a trabajar, dondequiera que residan, con el lakehouse de datos híbrido y abierto para IA y analytics.

Descubra watsonx.data
Soluciones de lago de datos

Resuelva los desafíos de datos actuales con una arquitectura de lakehouse.Conéctese a los datos en minutos, obtenga rápidamente insights confiables y reduzca los costos de su almacén de datos.

Explorar las soluciones de data lake de IBM
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data