Al igual que un data lake, un lakehouse de datos utiliza almacenamiento de objetos en la nube de bajo costo. Este enfoque les permite almacenar datos en casi cualquier formato (estructurado, semiestructurado y no estructurado).
Lo que lo convierte en lakehouse es la capa de gestión de datos tipo depósito construida sobre ese almacenamiento, que agrega estructura de datos y gobernanza para apoyar cargas de trabajo de analytics y BI.
La mayoría de los lakehouses de datos se basan en formatos de tabla abierta (OTF), por lo general:
- Apache Hudi (originalmente construido en Uber y diseñado para el procesamiento incremental de datos)
- Apache Iceberg (un formato de alto rendimiento para tablas analíticas masivas)
- Delta Lake (una opción popular desarrollada por Databricks y de código abierto en 2019)
Estas tecnologías actúan como capas de metadatos que organizan los archivos de datos abiertos (como los almacenados en Apache Parquet) en tablas lógicas similares a bases de datos.
Este enfoque permite a las organizaciones trabajar con datos de lagos sin procesar como si se tratara de datos de depósitos estructurados, que admiten capacidades clave como viaje en el tiempo, control de versiones, evolución de esquemas, manipulación de datos y congruencia transaccional (ACID).
(“ACID” significa atomicidad, congruencia, aislamiento y durabilidad. Estas propiedades contribuyen a garantizar la integridad y la confiabilidad de las transacciones de datos.)
Con estas capas y características adicionales, los lakehouses hacen que los data lakes sean más confiables e intuitivos de usar. Además, permiten a los usuarios ejecutar consultas en lenguaje de consulta estructurado (SQL), cargas de trabajo analíticas y otros casos de uso avanzados directamente en un data lake, lo que optimiza la BI, la IA, el ML y la inteligencia de datos (DI).