¿Qué es un lakehouse de datos?

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

¿Qué es un lakehouse de datos?

Un lakehouse de datos es una plataforma de datos que combina el almacenamiento flexible de datos de los data lakes con las capacidades de análisis de alto rendimiento de los almacenes de datos.

Los data lakes y los almacenes de datos suelen utilizarse de forma conjunta. Los lagos de datos actúan como un sistema de recopilación de datos nuevos, y los almacenes de datos aplican una estructura descendente a los datos.

Sin embargo, la coordinación de estos sistemas para proporcionar datos fiables puede ser costosa tanto en tiempo como en recursos. Los tiempos de procesamiento prolongados contribuyen al estancamiento de los datos y las capas adicionales de ETL (extracción, transformación, carga) introducen riesgos para la calidad de los datos.

Los lakehouses de datos compensan los defectos dentro de los almacenes de datos y data lakes con capacidades que forman un mejor sistema de gestión de datos. Combinan las estructuras de datos de los almacenes de datos con el almacenamiento de bajo coste y la flexibilidad de los data lakes.

Los lakehouses de datos permiten a los equipos unificar sus sistemas de datos dispares, acelerando el proceso de datos para análisis más avanzados (como el machine learning o ML), accediendo de manera eficiente a big data y mejorando la calidad de los datos.

La aparición de los lakehouses de datos

Los lakehouses de datos existen para resolver los desafíos de los almacenes de datos y los data lakes y para reunir sus beneficios bajo una arquitectura de datos.

Por ejemplo, los almacenes de datos son más eficientes que los data lakes, tanto para almacenar como para transformar datos empresariales. Sin embargo, el almacenamiento de datos requiere esquemas estrictos (normalmente el esquema en estrella y el esquema de copo de nieve).

Por lo tanto, los almacenes de datos no funcionan bien con datos no estructurados o semiestructurados, que son críticos para los casos de uso de inteligencia artificial (IA) y ML. También tienen una capacidad limitada para escalar.

Los data lakes, por otro lado, permiten a las organizaciones agregar todos los tipos de datos (datos estructurados, datos no estructurados y datos semiestructurados) de diversas fuentes de datos y en una sola ubicación. Permiten un almacenamiento de datos más escalable y asequible, pero no tienen herramientas de proceso de datos integradas.

Los lakehouses de datos fusionan aspectos de los almacenes de datos y los data lakes. Utilizan el almacenamiento de objetos en la nube para almacenar datos en cualquier formato a bajo coste. Y, además de ese almacenamiento en la nube, se encuentra una infraestructura de análisis tipo almacén, que admite consultas de alto rendimiento, análisis casi en tiempo real e iniciativas de inteligencia empresarial (BI).

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

Almacén de datos vs. data lake vs. lakehouse de datos

Los almacenes de datos, los data lakes y los lakehouses de datos son todos repositorios de datos, pero con diferencias clave. A menudo se utilizan juntos para respaldar una arquitectura de datos integrada para una variedad de casos de uso.

Almacén de datos

Un almacén de datos reúne datos sin procesar de múltiples fuentes en un repositorio central y los organiza en una infraestructura de base de datos relacional. Este sistema de gestión de datos principalmente admite aplicaciones de análisis de datos e inteligencia empresarial, como la elaboración de informes empresariales.

El sistema utiliza procesos ETL para extraer, transformar y cargar datos en su destino. Sin embargo, está limitado por su ineficiencia y su coste, especialmente a medida que crece el número de fuentes de datos y la cantidad de los mismos.

Si bien tradicionalmente los almacenes de datos se alojaban en las instalaciones en mainframes, hoy en día muchos almacenes de datos están alojados en la nube y se ofrecen como servicios en la nube.

Data lake

Los data lakes se crearon inicialmente en plataformas de big data como Apache Hadoop. Pero el núcleo de los data lakes modernos es un servicio de almacenamiento de objetos en la nube, que les permite almacenar todo tipo de datos. Entre los servicios más comunes se incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage.

Dado que las empresas generan en gran medida datos no estructurados, esta capacidad de almacenamiento es una distinción importante. Permite más proyectos de ciencia de datos e inteligencia artificial (IA), lo que a su vez genera más conocimientos novedosos y una mejor toma de decisiones en toda la organización.

Sin embargo, el tamaño y la complejidad de los data lakes pueden requerir la experiencia de usuarios más técnicos, como científicos de datos e ingenieros de datos. Y, debido a que el gobierno de datos se produce en fases posteriores de estos sistemas, los data lakes pueden ser propensos a la creación de silos de datos y, posteriormente, evolucionar hacia data swamps (donde los datos válidos son inaccesibles debido a una mala gestión).

Data lakehouse

Los lakehouses de datos pueden resolver los principales retos tanto de los almacenes de datos como de los data lakes para ofrecer una solución de gestión de datos más idónea para las organizaciones. Aprovechan el almacenamiento de objetos en la nube para un almacenamiento rápido y de bajo coste en una amplia gama de tipos de datos, a la vez que ofrecen capacidades de análisis de alto rendimiento. Las organizaciones pueden utilizar lakehouses de datos junto con sus data lakes y almacenes de datos existentes sin necesidad de desmontarlos y reconstruirlos por completo.

Beneficios de un lakehouse de datos

Los data lakehouses ofrecen varios beneficios clave a los usuarios, ya que pueden ayudar a:

Reducir la redundancia de datos
Reducción de costes
Admitir una variedad de cargas de trabajo
Mejorar la gobierno de datos
Mejorar la escalabilidad
Permitir la transmisión en tiempo real.

Reducir la redundancia de datos

Un único sistema de almacenamiento de datos crea una plataforma optimizada para satisfacer todas las demandas de datos empresariales, lo que reduce la duplicación de datos. Los lakehouses de datos también simplifican la observabilidad de los datos de principio a fin al reducir la cantidad de datos que se mueven a través de pipelines de datos en varios sistemas.

Reducción de costes

Los lakehouses de datos aprovechan los menores costes del almacén de datos en la nube, por lo que son más rentables que los almacenes de datos. Además, la arquitectura híbrida de un lakehouse de datos elimina la necesidad de mantener múltiples sistemas de almacenamiento de datos, lo que reduce los costes operativos.

Admitir una variedad de cargas de trabajo

Los lakehouses de datos pueden abordar diferentes casos de uso a lo largo del ciclo de vida de la gestión de datos. También admiten flujos de trabajo de inteligencia empresarial y de visualización basada en datos o de ciencia de datos más complejos.

Mejorar el gobierno de datos

La arquitectura de lakehouse de datos mitiga los problemas de gobierno de los data lakes. Por ejemplo, a medida que se ingieren y cargan los datos, el lakehouse puede garantizar que cumplen los requisitos del esquema definido, lo que reduce los problemas de calidad de los datos en fases posteriores.

Mejorar la escalabilidad

En los almacenes de datos tradicionales, el cálculo y el almacenamiento están acoplados. Los lakehouses de datos separan el almacenamiento y el cálculo, lo que permite a los equipos de datos acceder al mismo almacenamiento de datos mientras utilizan diferentes nodos de cálculo para diferentes aplicaciones. Esta separación da como resultado una mayor escalabilidad y flexibilidad.

Habilitar la transmisión en tiempo real

El lakehouse de datos está diseñado para las empresas y la tecnología actuales. Muchas fuentes de datos contienen datos de streaming en tiempo real desde dispositivos, como los de Internet de las cosas . El sistema lakehouse admite estas fuentes a través de la ingesta de datos en tiempo real.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Ir al episodio

¿Qué es Delta Lake?

Desarrollado por Databricks en 2016, Delta Lake es un formato de almacenamiento de datos de código abierto que combina archivos de datos Apache Parquet con un registro de metadatos robusto. Este formato añade funciones clave de gestión de datos a data lakes, como la aplicación de esquemas, viajes en el tiempo y transacciones ACID. (ACID significa “atomicidad, consistencia, aislamiento y durabilidad”, que son propiedades clave que definen una transacción para garantizar la integridad de los datos).

Estas funciones ayudan a que los data lakes sean más fiables e intuitivos. También permiten a los usuarios ejecutar consultas en lenguaje de consulta estructurado (SQL), cargas de trabajo analíticas y otras actividades en un data lake, lo que optimiza la inteligencia empresarial, la inteligencia de datos (DI), la IA y el ML.

Delta Lake se convirtió en código abierto en 2019. Desde entonces, los lakehouses de datos se crean normalmente construyendo una capa de almacenamiento Delta Lake sobre un data lake y, a continuación, integrándola con un motor de procesamiento de datos como Apache Spark o Hive.

Los lakehouses de datos de código abierto suelen denominarse lakehouses de datos abiertos. Otros formatos de tabla abiertos son Apache Iceberg (un formato de alto rendimiento para tablas de análisis masivas) y Apache Hudi (diseñado para el proceso de datos).

Más información sobre Delta Lake

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobierno. Descubra el potencial de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costes de sus cargas de trabajo y el escalado de IA y analítica, con todos sus datos, en cualquier lugar.

Capas de la arquitectura del lakehouse de datos

La arquitectura de un lakehouse de datos suele constar de cinco capas:

Capa de ingestión
Capa de almacenamiento
Capa de metadatos
Capa de API
Capa de consumo

Capa de ingestión

Esta primera capa recopila datos de diversas fuentes y los transforma en un formato de datos que un lakehouse puede almacenar y analizar. La capa de ingesta puede utilizar protocolos para conectarse con fuentes internas y externas, como sistemas de gestión de bases de datos, bases de datos NoSQL y redes sociales.

Capa de almacenamiento

En esta capa, se almacenan conjuntos de datos estructurados, no estructurados y semiestructurados en formatos de archivo de código abierto, como Parquet u Optimized Row Columnar (ORC). Esta capa proporciona un beneficio importante del lakehouse de datos: su capacidad para aceptar todo tipo de datos a un coste asequible.

Capa de metadatos

La capa de metadatos es un catálogo unificado que proporciona metadatos para cada objeto en el almacenamiento del lago, lo que ayuda a organizar y proporcionar información sobre los datos en el sistema. Esta capa también ofrece transacciones ACID, almacenamiento en caché de archivos e indexación para consultas más rápidas. Los usuarios pueden implementar esquemas predefinidos aquí, lo que permite el gobierno de datos y las capacidades de auditoría.

Capa de API

Un lakehouse de datos utiliza interfaces de programación de aplicaciones (API) para aumentar el procesamiento de tareas y realizar análisis más avanzados. En concreto, esta capa brinda a los consumidores y/o desarrolladores la oportunidad de utilizar una variedad de lenguajes y bibliotecas, como TensorFlow, en un nivel abstracto. Las API están optimizadas para el consumo de activos de datos.

Capa de consumo de datos

La capa final de la arquitectura del lakehouse de datos aloja aplicaciones y herramientas, con acceso a todos los metadatos y datos almacenados en el lago. Esto abre el acceso a los datos a los usuarios de una organización, que pueden utilizar el lakehouse para realizar tareas como paneles de control de inteligencia empresarial, visualización de datos y tareas de machine learning.

Explore los patrones de lakehouse de datos de IBM para la nube híbrida

El lakehouse de datos para la IA generativa

Descubra cómo watsonx.data le permite acceder y unificar datos de fuentes dispares, almacenar embeddings vectorizados para RAG y mucho más.

IBM nombrado líder en integración iPaaS, Forrester Wave Q3 2025

Lea el informe para saber por qué Forrester ha clasificado a IBM como líder con la máxima puntuación en la categoría "Oferta actual". Descubra cómo este liderazgo fortalece IBM webMethods MFT al ofrecer transferencias de archivos seguras y escalables dentro de una estrategia de integración empresarial más amplia.

¿Qué es un lakehouse de datos?

Autores

¿Qué es un lakehouse de datos?

Un lakehouse de datos es una plataforma de datos que combina el almacenamiento flexible de datos de los data lakes con las capacidades de análisis de alto rendimiento de los almacenes de datos.

La aparición de los lakehouses de datos

Las últimas noticias + conocimientos de IA

Almacén de datos vs. data lake vs. lakehouse de datos

Almacén de datos

Data lake

Data lakehouse

Beneficios de un lakehouse de datos

Reducir la redundancia de datos

Reducción de costes

Admitir una variedad de cargas de trabajo

Mejorar el gobierno de datos

Mejorar la escalabilidad

Habilitar la transmisión en tiempo real

¿Es la gestión de datos el secreto de la IA generativa?

¿Qué es Delta Lake?

El lakehouse de datos híbrido y abierto para la IA

Capas de la arquitectura del lakehouse de datos

Capa de ingestión

Capa de almacenamiento

Capa de metadatos

Capa de API

Capa de consumo de datos

Recursos

Las últimas noticias + conocimientos de IA