¿Qué es un lago de datos?

¿Qué es un lago de datos?

Un lakehouse es una plataforma de datos moderna que combina el almacenamiento de datos flexible y de bajo costo de un data lake con las capacidades de analytics y gestión de datos de alto rendimiento de un depósito de datos.

Históricamente, las organizaciones solían utilizar data lakes y depósitos de datos en conjunto. Los data lakes actuaban como un sistema general para datos estructurados, semiestructurados y no estructurados, que luego se trasladaban mediante pipelines ETL/ELT a un almacén de datos para casos de uso posteriores como business intelligence (BI) y análisis predictivos.

Sin embargo, coordinar estos sistemas para proporcionar datos confiables puede ser costoso tanto en tiempo como en recursos, especialmente para analytics de datos y cargas de trabajo de IA. El movimiento de datos puede contribuir a que los datos queden desactualizados y a la redundancia, mientras que las capas adicionales de ETL/ELT pueden generar riesgos relacionados con la calidad y la coherencia de los datos. 

Los lakehouses de datos aligeran estos desafíos al brindar capacidades de analytics y gestión de datos tipo depósito directamente a los datos almacenados en data lakes. Esta solución ayuda a los equipos de datos a unificar la gestión de datos, acelerar el procesamiento de datos, mejorar su calidad y dar soporte a cargas de trabajo escalables de inteligencia artificial (IA) y machine learning (ML).

¿Cómo funciona un lakehouse de datos?

Al igual que un data lake, un lakehouse de datos utiliza almacenamiento de objetos en la nube de bajo costo. Este enfoque les permite almacenar datos en casi cualquier formato (estructurado, semiestructurado y no estructurado).

Lo que lo convierte en lakehouse es la capa de gestión de datos tipo depósito construida sobre ese almacenamiento, que agrega estructura de datos y gobernanza para apoyar cargas de trabajo de analytics y BI.

La mayoría de los lakehouses de datos se basan en formatos de tabla abierta (OTF), por lo general:

  • Apache Hudi (originalmente construido en Uber y diseñado para el procesamiento incremental de datos)
  • Apache Iceberg (un formato de alto rendimiento para tablas analíticas masivas)
  • Delta Lake (una opción popular desarrollada por Databricks y de código abierto en 2019)

Estas tecnologías actúan como capas de metadatos que organizan los archivos de datos abiertos (como los almacenados en Apache Parquet) en tablas lógicas similares a bases de datos.

Este enfoque permite a las organizaciones trabajar con datos de lagos sin procesar como si se tratara de datos de depósitos estructurados, que admiten capacidades clave como viaje en el tiempo, control de versiones, evolución de esquemas, manipulación de datos y congruencia transaccional (ACID).

(“ACID” significa atomicidad, congruencia, aislamiento y durabilidad. Estas propiedades contribuyen a garantizar la integridad y la confiabilidad de las transacciones de datos.)

Con estas capas y características adicionales, los lakehouses hacen que los data lakes sean más confiables e intuitivos de usar. Además, permiten a los usuarios ejecutar consultas en lenguaje de consulta estructurado (SQL), cargas de trabajo analíticas y otros casos de uso avanzados directamente en un data lake, lo que optimiza la BI, la IA, el ML y la inteligencia de datos (DI).

Capas de la arquitectura del data lakehouse

La arquitectura de un data lakehouse normalmente consta de cinco capas:

  • Capa de ingesta
  • Capa de almacenamiento
  • Capa de metadatos
  • Capa de API
  • Capa de consumo

Capa de ingesta

Esta primera capa recopila datos de diversas fuentes internas y externas y los prepara para su almacenamiento y análisis. La capa de ingesta puede utilizar conectores para integrarse con fuentes como sistemas de gestión de bases de datos, bases de datos NoSQL, aplicaciones SaaS y fuentes de redes sociales. La ingesta puede ser por lotes o en tiempo real.

Capa de almacenamiento

La capa de almacenamiento almacena conjuntos de datos estructurados, no estructurados y semiestructurados en un sistema de almacenamiento de objetos en la nube de bajo costo. Los servicios comunes incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage

Los datos suelen almacenarse en formatos de almacenamiento en columnas optimizados para grandes cargas de trabajo analíticas, como Apache Parquet u Optimized Row Columnar (ORC). Esta capa proporciona un beneficio importante del lakehouse de datos: su capacidad para acomodar de manera rentable prácticamente todos los tipos de datos.

Capa de metadatos

La capa de metadatos es un catálogo unificado que organiza y proporciona información sobre los datos del lago de datos. Por lo general, funciona con formatos de tabla abierta como Apache Iceberg, Apache Hudi o Delta Lake.

Las capacidades de esta capa permiten transacciones ACID, viajes en el tiempo y aplicación de esquemas, lo que ayuda a mejorar la gobernanza de datos. Los controles de acceso sólidos en esta capa son críticos para las organizaciones que manejan datos confidenciales y valiosos para rastrear el acceso a los datos y las modificaciones para mantener registros de auditoría.1

Capa de API

Las interfaces de programación de aplicaciones (API) proporcionan acceso estandarizado a los datos y metadatos de lakehouse. Específicamente, esta capa brinda a los consumidores y desarrolladores de datos la oportunidad de usar una variedad de motores de analytics y marcos de machine learning (como TensorFlow) para ejecutar analytics avanzados y entrenamiento de modelos directamente en datos de un lakehouse.

Capa de consumo

La capa final de la arquitectura del lakehouse de datos aloja aplicaciones y herramientas que tienen acceso a todos los datos almacenados en el lago. Esto abre el acceso a los datos a los usuarios de una organización, quienes pueden utilizar el lakehouse para realizar tareas como crear paneles de business intelligence, visualizaciones de datos y trabajos de machine learning.

¿Qué es la arquitectura de un lakehouse medallion?

La arquitectura de datos medallion (MDA) es un enfoque de diseño de datos multicapa y centrado en la calidad que garantiza que los datos del lakehouse se limpien y validen y sean confiables progresivamente a medida que pasan de la ingesta al consumo. Puede ayudar a las organizaciones a crear un lakehouse de datos escalable y gobernado adecuado para los informes comerciales cotidianos, así como para cargas de trabajo avanzadas de analytics y machine learning.

Esa escalabilidad es crítica para mantener la calidad a medida que crecen los volúmenes de datos. Según un punto de referencia de enero de 2025, el 87.4 % de las organizaciones descubrió que los marcos de calidad de datos existentes se volvieron operativamente insostenibles más allá de los siete petabytes.2

El marco organiza los datos en tres capas distintas a lo largo de su ciclo de vida: bronce, plata y oro, mejorando la calidad de los datos en cada paso.

  • La capa de bronce es para datos sin procesar. Conserva los datos originales exactamente como estaban cuando se recibieron de los sistemas de origen. Esto garantiza que siempre exista un archivo fuente inmutable, lo que elimina el riesgo de que los datos se pierdan o se sobrescriban durante la transformación.

  • La capa plateada es donde los datos se limpian, estructuran y enriquecen activamente. Unifica los registros conflictivos o duplicados en una única fuente de datos para analytics y la elaboración de informes operativos.

  • La capa dorada contiene datos refinados y listos para el negocio, una fuente de información única y confiable, ideal para la toma de decisiones estratégicas. En esta capa se definen y calculan previamente todos los indicadores críticos de negocio.

La capa dorada también fortalece la preparación para la IA. Proporciona un flujo de datos de alta calidad listos para la IA directamente a los pipelines de ML, lo que puede ayudar a mejorar la precisión de los modelos y reducir el esfuerzo dedicado a la preparación de datos.

Esta progresión de datos estructurados garantiza que cualquier archivo de datos final pueda rastrearse hacia atrás a través de su transformación a su estado original. Además, ofrece costos más predecibles y, a menudo, más bajos, ya que el almacenamiento de datos y los recursos de computación se pueden optimizar según la finalidad de cada capa.

¿Cuáles son las características clave de un lakehouse de datos?

Los lakehouses de datos ofrecen varias características clave:

  • Formatos de archivo abiertos
  • Transacciones ACID
  • Datos unificados
  • Almacenamiento rentable
  • Flexibilidad en la carga de trabajo
  • Gobernanza de datos sólida
  • Escalabilidad
  • Compatibilidad con la transmisión en tiempo real

Formatos de archivo abiertos

Los formatos de almacenamiento abiertos y en columnas (o formatos de datos abiertos), como Apache Parquet u ORC, mejoran el rendimiento de las consultas y reducen los costos de almacenamiento mediante una compresión eficiente, la poda de columnas y la inserción de predicados. Estos formatos son compatibles con motores de analytics populares que permiten a las organizaciones acceder a los mismos datos, al mismo tiempo. Esta funcionalidad les ayuda a evitar el vendor lock-in (dependencia de proveedores) y a lograr la interoperabilidad entre sus diferentes herramientas.

Transacciones ACID

La mayoría de los lakehouses de datos utilizan formatos de tabla abierta como Apache Iceberg, Apache Hudi y Delta Lake para proporcionar transacciones ACID. Estas transacciones, como inserciones, actualizaciones y eliminaciones, garantizan que los datos sigan siendo coherentes y confiables durante y después de las operaciones de datos.

Datos unificados

Un único sistema de almacenamiento de datos crea una plataforma centralizada capaz de satisfacer todas las necesidades de datos de la empresa, lo que reduce los silos de datos y la duplicación entre sistemas y equipos. Esta unificación también simplifica la observabilidad de los datos de principio a fin, ya que se reduce considerablemente el movimiento de datos a través de diversos pipelines de datos y sistemas.

Almacenamiento rentable

Los data lakehouses aprovechan el almacenamiento de objetos en la nube de bajo costo, lo que los hace más rentables para grandes volúmenes de datos y cargas de trabajo que los depósitos de datos de tradicionales. La arquitectura híbrida de un lakehouse de datos también elimina la necesidad de mantener múltiples sistemas de almacenamiento de datos, lo que a menudo reduce los gastos operativos.

Flexibilidad en la carga de trabajo

Los lakehouses de datos pueden abordar diferentes casos de uso a lo largo del ciclo de vida de la gestión de datos. Pueden admitir  flujos de trabajo de business intelligence y visualización basada en datos, o proyectos de ciencia de datos más complejos (como el entrenamiento de modelos de machine learning o análisis en tiempo real), todo con los mismos datos.

Sólida gobernanza de datos y seguridad

La arquitectura de lakehouse de datos mitiga los problemas de gobernanza de los data lakes con catálogos centralizados de metadatos, aplicación de esquemas y herramientas integradas de gestión de calidad de datos. La seguridad de los datos se puede reforzar mediante controles de acceso, monitoreo y auditorías, anonimización de datos, blockchain e incluso computación cuántica.3,4

Escalabilidad

Los lakehouses de datos separan el almacenamiento y la computación, lo que permite a los equipos de datos escalarlos por separado. Esta separación también ofrece la flexibilidad de acceder a los mismos datos utilizando diferentes motores de cálculo o nodos para distintas aplicaciones.

Soporte de transmisión en tiempo real

Los lakehouses de datos modernos están diseñados para las empresas y la tecnología actuales. Muchas fuentes de datos contienen datos de transmisión en tiempo real de fuentes como dispositivos del Internet de las cosas. El sistema lakehouse admite estas fuentes a través de la ingesta de datos en tiempo real y el procesamiento incremental.

¿En qué se diferencia un lakehouse de un depósito de datos o data lake?

Un lakehouse de datos no es simplemente un depósito de datos combinado con un data lake. Se trata de una arquitectura unificada que reúne lo mejor de ambas en una sola plataforma.

Depósitos de datos: gobernanza y rendimiento sólidos, menos flexibilidad

Los depósitos de datos se diseñan para analytics. Ofrecen un excelente rendimiento para aplicaciones de business intelligence e informes mediante el almacenamiento y la transformación de datos empresariales.

Sin embargo, los almacenes de datos carecen de la flexibilidad de los data lakes. Están limitados por su ineficiencia y costos a medida que crecen los volúmenes de datos y las cargas de trabajo. El almacenamiento de datos también requiere esquemas estrictos, lo que significa que los datos deben ajustarse a un modelo predefinido antes de la ingesta en el repositorio de datos (esquema en escritura). Debido a estas limitaciones, no funcionan bien con datos no estructurados o semiestructurados, que son críticos para los casos de uso de IA y ML.

Data lakes: mayor flexibilidad, gobernanza débil y analytics

Los data lakes permiten a las organizaciones almacenar todo tipo de datos (estructurados, no estructurados y semiestructurados) de fuentes diversas en un solo lugar. Utilizan un enfoque de esquema en lectura, por lo que los modelos de datos se aplican cuando se utilizan los datos en lugar de cuando se almacenan. Además, suelen tener un almacenamiento de datos más escalable y asequible (a menudo almacenamiento de objetos en la nube).

Sin embargo, no tienen herramientas de procesamiento de datos integradas y dependen de capacidades externas para realizar analytics. Su tamaño y complejidad también pueden requerir los conocimientos especializados de usuarios con mayor experiencia técnica, como científicos de datos e ingenieros de datos. Y, porque la gobernanza de datos ocurre de manera descendente, los data lakes pueden ser propensos a silos de datos, y posteriormente evolucionar a pantanos de datos (donde los buenos datos son inaccesibles debido a una mala gestión).

Lakehouses de datos: flexibilidad de los data lakes con gestión y rendimiento similares a los de un depósito

Los lakehouses de datos están diseñados para resolver los retos que plantean los depósitos de datos y los data lakes, reuniendo sus beneficios en una sola plataforma. Aprovechan el almacenamiento flexible y de bajo costo que admite una amplia gama de tipos de datos, al tiempo que ofrecen gestión de datos y capacidades de alto rendimiento para admitir cargas de trabajo de BI, analytics e IA/ML en una única arquitectura.

Anson Kokkat, gerente principal de productos de IBM Software, enfatiza la importancia de los lakehouses para los programas de IA modernos:

“Los modelos de IA son tan buenos como la plataforma de datos escalable y controlada que los sustenta. El lakehouse de datos adecuado se convierte en la base que transforma los datos empresariales sin procesar en IA lista para la producción. Cuando se basa en una arquitectura abierta, eso se traduce en flexibilidad de IA: no está limitado a un solo motor y puede integrarse con herramientas de código abierto existentes, como Presto, Apache Spark, OpenSearch y Cassandra”.

Otro beneficio importante: las organizaciones a menudo pueden implementar lakehouses de datos junto con sus data lakes y depósitos de datos existentes sin un desmontaje y reconstrucción completos.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Preguntas frecuentes sobre lakehouses de datos

¿Qué es un lakehouse de datos abiertos?

Hoy en día, muchos proveedores ofrecen lakehouses de datos abiertos. Esta arquitectura admite datos abiertos y formatos abiertos para almacenar grandes cantidades de datos en formatos independientes del proveedor, como Parquet, Avro y Apache ORC. También puede aprovechar Apache Iceberg para compartir grandes volúmenes de datos a través de un formato de tabla abierta.

¿Cuáles son los problemas comunes con los lakehouses?

Los desafíos comunes de los lakehouses de datos incluyen implementaciones complejas (incluidas migraciones desde plataformas de datos existentes); equilibrar la gobernanza y la seguridad de los datos con el acceso unificado a los datos; y garantizar que el rendimiento de las consultas siga siendo óptimo a medida que crecen los volúmenes de datos.

¿Es posible ejecutar IA y ML en una arquitectura de lakehouse de datos?

Sí. Los lakehouses de datos admiten cargas de trabajo de IA y ML al proporcionar acceso unificado a grandes volúmenes de datos diversos con una gobernanza sólida. Utilizan datos abiertos y formatos de tablas abiertas para evitar el vendor lock-in (dependencia de proveedores) y permitir la integración directa entre la capa de almacenamiento y los marcos de ML.

¿Puede un lakehouse de datos reemplazar completamente mi depósito de datos?

Es posible, pero depende de sus prioridades de datos. Los lakehouses son una opción sólida para almacenar big data diversos y admitir cargas de trabajo de IA/ML, mientras que los depósitos siguen siendo útiles para necesidades de datos más estructurados o de alto rendimiento y baja latencia. Muchas organizaciones utilizan ambas plataformas.

¿Cómo evitar que un lakehouse se convierta en un "pantano de datos"?

Evitar un pantano de datos requiere prácticas sólidas de gobernanza, calidad y seguridad de datos. Además, una arquitectura de almacenamiento por niveles (medallion) mantiene los datos organizados, y los formatos de tabla abierta con transacciones ACID ayudan a garantizar la integridad, coherencia y confiabilidad de los datos.

Techsplainers | Podcast | ¿Qué es un lakehouse de datos?

Escuche: "¿Qué es un lakehouse de datos?"

Siga a Techsplainers: Spotify, Apple Podcasts y Casted.

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Representación 3D de una espiral de varios iconos alineados, como una cámara, una perilla de volumen y un portapapeles
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data
Notas de pie de página

1 Data Lakehouse Architecture: The Evolution of Enterprise Data Management, Journal of Computer Science and Technology Studies. 23 de junio de 2025. 

2 Data Lakehouse Implementation: A Journey From Traditional Data Warehouses, World Journal of Advanced Engineering Technology and Sciences. 26 de febrero de 2025.

3 Data Lakehouse: A Survey and Experimental Study, Science Direct. 26 de septiembre de 2024.

4 Minimizing Incident Response Time in Real-World Scenarios Using Quantum Computing, Springer Nature Link. 26 de mayo de 2023.