¿Qué es un data lake?

Lago amplio con montañas al fondo

Autores

Matthew Kosinski

Staff Editor

IBM Think

¿Qué es un data lake?

Un data lake es un entorno de almacenamiento de datos de bajo coste diseñado para gestionar enormes cantidades de datos sin procesar en cualquier formato, incluidos datos estructurados, semiestructurados y no estructurados. La mayoría de los lagos de datos utilizan almacenamiento de objetos basado en la nube, como AWS S3, Google Cloud Storage o IBM Cloud Object Storage.

Los data lakes surgieron para ayudar a las organizaciones a hacer frente a la avalancha de big data, gran parte de ella no estructurada, creada por aplicaciones y servicios conectados a Internet a finales de la década de 2000 y principios de la de 2010.  

A diferencia de las bases de datos y los almacenes de datos tradicionales, los data lakes no requieren que todos los datos sigan un esquema definido. En su lugar, los data lakes pueden almacenar distintos tipos de datos en diversos formatos en un repositorio centralizado. Los lagos de datos también se benefician de cloud computing para hacer que el almacenamiento de datos sea más escalable y asequible.

Los data lakes son componentes centrales de las arquitecturas de datos de muchas organizaciones en la actualidad. Según el estudio CDO de IBM, el 75 % de los principales directores de datos (CDO) están invirtiendo en data lakes. 

Gracias a su almacenamiento flexible, los data lakes pueden ayudar a las organizaciones a derribar los silos de datos y construir tejidos de datos holísticos. También son útiles para los científicos de datos y los ingenieros de datos, que a menudo utilizan los lagos de datos para gestionar los enormes conjuntos de datos no estructurados necesarios para las cargas de trabajo de la inteligencia artificial (IA) y el machine learning (ML).

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

La evolución de los data lakes

Durante mucho tiempo, las organizaciones dependieron de las bases de datos relacionales (desarrolladas en la década de 1970) y los almacenes de datos (desarrollados en la década de 1980) para administrar sus datos. Estas soluciones siguen siendo partes importantes de los ecosistemas de TI de muchas organizaciones, pero se diseñaron principalmente para conjuntos de datos estructurados.

Con el crecimiento de Internet, y especialmente con la llegada de las redes sociales y los medios de transmisión, las organizaciones se encontraron lidiando con muchos más datos no estructurados, como texto e imágenes de forma libre. Debido a sus estrictos esquemas y a los costes de almacenamiento comparativamente elevados, los almacenes y las bases de datos relacionales estaban mal equipados para gestionar esta afluencia de datos.  

En 2011, James Dixon, entonces director de tecnología en Pentaho, acuñó el término "data lake". Dixon vio el data lake como una alternativa al almacén de datos. Mientras que los almacenes entregan datos preprocesados para casos de uso empresariales específicos, Dixon imaginó un data lake como un gran cuerpo de datos alojados en su formato natural. Los usuarios podían extraer los datos que necesitaban de este lago y utilizarlos como quisieran.

Muchos de los primeros data lakes se crearon en Apache Hadoop, un marco de software código abierto para el procesamiento distribuido de grandes conjuntos de datos. Estos primeros data lakes se alojaban en las instalaciones, pero esto se convirtió rápidamente en un problema a medida que el volumen de datos continuaba aumentando.

El cloud computing ofrecía una solución: mover los data lakes a servicios de almacenamiento de objetos en la nube más escalables.

Los data lakes siguen evolucionando hoy en día. Muchas soluciones de data lake ofrecen ahora funciones que van más allá del almacenamiento barato y escalable, como herramientas de seguridad y gobierno de datos, catálogos de datos y gestión de metadatos.

Los data lakes también son componentes centrales de los data lakehouses, una solución de gestión de datos relativamente nueva que combina el almacenamiento de bajo coste de un data lake y las capacidades analíticas de alto rendimiento de un almacén. (Para obtener más información, consulte "Data lakes vs. lakehouses de datos").

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Arquitectura de data lake

Mientras que los primeros data lakes se construyeron en Hadoop, el núcleo de un data lake moderno es un servicio de almacenamiento de objetos en la nube. Las opciones comunes incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage.

El almacenamiento de objetos en la nube permite a las organizaciones almacenar distintos tipos de datos sin procesar en el mismo almacenamiento. También suele ser más escalable y más rentable que el almacenamiento in situ. Los proveedores de almacenamiento en la nube permiten a los usuarios poner en marcha grandes clústeres bajo demanda, exigiendo el pago únicamente por el almacenamiento utilizado.

Los recursos de almacenamiento y proceso de datos están separados unos de otros en un data lake. Para procesar los datos, los usuarios deben conectar herramientas de proceso de datos externas. Apache Spark, que admite interfaces como Python, R y Spark SQL, es una opción popular.

Desvincular el almacenamiento y la computación ayuda a mantener bajos los costes y la escalabilidad alta. Las organizaciones pueden añadir más almacenamiento sin escalar los recursos informáticos junto con él.  

El almacenamiento central del data lake está conectado a varias fuentes de datos, como bases de datos, aplicaciones, dispositivos de Internet de las cosas (IoT) y sensores, a través de una capa de ingesta.  

La mayoría de los data lakes utilizan un proceso de extracción, carga y transformación (ELT) en lugar de un proceso de extracción, transformación y carga (ETL) para consumir datos. Los datos permanecen en su estado original cuando el lago los consumir, y no se transforman hasta que se necesitan. Este enfoque, que aplica un esquema solo cuando se accede a los datos, se denomina “esquema en lectura.”

Además de estos componentes, las organizaciones pueden incorporar otras capas a sus arquitecturas de data lake para hacerlas más seguras y utilizables. Estas capas pueden incluir:

  • Múltiples capas de almacenamiento distintas para acomodar las diferentes etapas del proceso de datos. Por ejemplo, un data lake puede tener una capa para datos sin procesar, una capa para datos limpios y una capa para datos de aplicaciones de confianza. 

  • Un catálogo de datos para ayudar a los usuarios a encontrar datos fácilmente mediante el uso de filtros de metadatos u otros métodos.

Data lakes, almacenes de datos y lakehouses de datos

Los data lakes, los almacenes y los lakehouses son todo tipo de herramientas de gestión de datos, pero tienen diferencias importantes. A menudo se utilizan juntos en una arquitectura de datos integrada para dar soporte a varios casos de uso.  

Data lakes vs. almacenes de datos

Al igual que un data lake, un almacén de datos agrega datos de diferentes fuentes de datos en un solo almacén, normalmente un sistema de bases de datos relacionales. La principal diferencia es que los almacenes de datos limpian y preparan los datos que ingieren para que estén listos para su uso en el análisis de datos

.

Los almacenes de datos están diseñados principalmente para admitir consultas de alto rendimiento, análisis casi en tiempo real y esfuerzos de inteligencia empresarial (BI). Como tales, están optimizados para datos estructurados y estrechamente integrados con motores de análisis, paneles de control y herramientas de visualización de datos .

Los almacenes suelen tener un almacenamiento más caro, menos flexible y menos escalable que los data lakes. Las organizaciones suelen utilizar los almacenes para proyectos analíticos específicos, mientras que confían en los data lakes para el almacenamiento multiuso a gran escala.  

Data lakes vs. lakehouses de datos

Un lakehouse de datos es una solución de gestión de datos que combina el almacenamiento de datos flexible de un lake y las capacidades analíticas de alto rendimiento de un almacén.

Como un data lake, un lakehouse de datos puede almacenar datos en cualquier formato a bajo coste. Los lakehouse de datos también crean una infraestructura de análisis sobre ese sistema de almacenamiento de datos en la nube, fusionando las funciones de las dos soluciones.

Las organizaciones pueden usar lakehouses para admitir numerosas cargas de trabajo, que incluyen IA, ML, BI y análisis de datos. Los lakehouses también pueden servir como una vía de modernización para las arquitecturas de datos. Las organizaciones pueden colocar lakehouses junto a lagos y almacenes existentes sin un costoso esfuerzo de quitar y reemplazar.  

Casos de uso de data lakes

Almacenamiento multiuso

Muchas organizaciones utilizan los data lakes como soluciones de almacenamiento para los datos entrantes, ya que pueden alojar fácilmente petabytes de datos en cualquier formato.  

En lugar de configurar diferentes canalizaciones de datos para distintos tipos de datos, las organizaciones pueden colocar todos los datos entrantes en el almacenamiento del data lake. Los usuarios pueden acceder a los datos directamente desde el lago o moverlos a un almacén u otra plataforma de datos según sea necesario.

Las organizaciones pueden incluso utilizar data lakes para almacenar datos "por si acaso" con casos de uso aún no definidos. Debido a que los data lakes son económicos y escalables, las organizaciones no tienen que preocuparse por gastar recursos en datos que tal vez aún no necesiten.

Copias de seguridad, archivos y datos inactivos 

Las altas capacidades de almacenamiento y los bajos costes de almacenamiento hacen que los data lakes sean una opción común para copias de seguridad y recuperación ante desastres.

Los data lakes también pueden ser una forma de almacenar datos fríos o inactivos a un precio bajo. Esto es útil para archivar datos antiguos y mantener registros históricos que puedan ayudar con auditorías de cumplimiento, consultas normativas o incluso nuevos análisis netos en el futuro.

Cargas de trabajo de IA y ML

Los data lakes desempeñan un papel importante en las cargas de trabajo de IA, ML y análisis de big data, como la creación de modelos predictivos y el entrenamiento de aplicaciones de IA generativa (IA gen) que requieren grandes cantidades de datos no estructurados. Estos proyectos pueden ser gestionados de forma económica y eficiente por los data lakes.

Según el estudio del CEO de IBM, el 72 % de los CEO con mejor rendimiento están de acuerdo en que contar con las herramientas de IA generativa más avanzadas proporciona a una organización una ventaja competitiva. Dada la importancia de la IA y el ML, tiene sentido que los data lakes se hayan convertido en una inversión fundamental en arquitectura de datos para muchas organizaciones.

Integración de datos 

Los data lakes pueden ayudar a respaldar las iniciativas de integración de datos, cuyo objetivo es combinar y armonizar datos de múltiples fuentes para que puedan utilizarse con diversos fines analíticos, operativos y de toma de decisiones.

Según los datos de evaluación comparativa del IBM Institute for Business Value, el 64 % de las organizaciones afirman que derribar las barreras organizativas para el intercambio de datos es uno de sus mayores retos relacionados con las personas. Las investigaciones muestran que hasta el 68 % de los datos organizativos nunca se analizan. Las organizaciones no pueden obtener todos los beneficios de sus datos si las personas no pueden usarlos cuando los necesitan.

Los lagos de datos pueden facilitar el acceso a datos y su puesta en común al ofrecer a las organizaciones una forma sencilla de almacenar todo tipo de datos en un repositorio central accesible.

Beneficios del data lake

Los data lakes pueden ayudar a las organizaciones a obtener más valor de sus datos empresariales al facilitar el almacenar, compartir y utilizar esos datos. Más específicamente, los data lakes pueden proporcionar:

  • Flexibilidad: los data lakes pueden consumir conjuntos de datos estructurados, semiestructurados y no estructurados. Las organizaciones no necesitan mantener sistemas de almacenamiento separados para diferentes tipos de datos, lo que puede ayudar a simplificar las arquitecturas de datos.

  • Bajos costes: los datos no necesitan pasar por un costoso proceso de limpieza y transformación para su almacenamiento, y el almacenamiento de objetos en la nube suele ser más barato que las alternativas locales. Las organizaciones pueden optimizar sus presupuestos y recursos de forma más eficaz a través de iniciativas de gestión de datos.

  • Escalabilidad: como los data lakes desacoplan los recursos informáticos y de almacenamiento, y como suelen utilizar servicios de almacenamiento en la nube, son más fáciles de ampliar o reducir que muchas otras soluciones de almacenamiento de datos. 

  • Menos silos de datos: según los datos comparativos del IBM Institute for Business Value, el 61 % de las organizaciones afirman que los silos de datos son uno de sus principales desafíos. Los data lakes pueden ayudar a eliminar los silos de datos al eliminar la necesidad de almacenar diferentes tipos de datos en diferentes lugares. Un data lake central o un conjunto de data lakes pueden ser más accesibles que almacenes de datos dispares repartidos por las unidades de negocio.  

Desafíos del data lake

Gobierno y calidad de los datos

Como no aplican un esquema estricto y aceptan muchos tipos de datos diferentes de muchas fuentes, los data lakes pueden tener dificultades con el gobierno del dato y la calidad de los datos. Sin una gestión adecuada, los data lakes pueden convertirse fácilmente en "pantanos de datos", es decir, pantanos desordenados de datos poco fiables que dificultan a los usuarios obtener conocimiento que se puede ejecutar.

Para combatir los pantanos de datos, las organizaciones pueden invertir en herramientas de etiquetado y clasificación, como sistemas de gestión de metadatos y catálogos de datos, que facilitan la navegación. 

Las soluciones de gobierno y seguridad de de datos, como los controles de acceso, las herramientas de prevención de pérdida de datos y las soluciones de detección y respuesta de datos, pueden ayudar a garantizar que no se acceda, utilice o altere los datos sin autorización.  

Rendimiento

Los data lakes no tienen herramientas integradas de procesamiento y consulta como muchos almacenes y lakehouses. Además, el rendimiento de las consultas y los análisis puede verse afectado a medida que aumenta el volumen de datos introducidos en un lago de datos, especialmente si los datos no están optimizados para su recuperación.

El uso de las herramientas y configuraciones adecuadas, como los formatos de almacenamiento optimizados y los motores de consulta, puede ayudar a garantizar un alto rendimiento, independientemente del tamaño del data lake.

Soluciones relacionadas
IBM watsonx.data

Ponga sus datos a trabajar, residan donde residan, con el lakehouse de datos híbrido y abierto para IA y análisis.

Descubra watsonx.data
Soluciones de lagos de datos

Resuelva los retos que presentan los datos hoy en día con una arquitectura lakehouse. Conéctese a los datos en minutos, obtenga rápidamente información fiable y reduzca los costes de su almacén de datos.

Explore las soluciones de data lake de IBM
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data