Los data lakes y los almacenes de datos suelen utilizarse de forma conjunta. Los lagos de datos actúan como un sistema de recopilación de datos nuevos, y los almacenes de datos aplican una estructura descendente a los datos.
Sin embargo, la coordinación de estos sistemas para proporcionar datos fiables puede ser costosa tanto en tiempo como en recursos. Los tiempos de procesamiento prolongados contribuyen al estancamiento de los datos y las capas adicionales de ETL (extracción, transformación, carga) introducen riesgos para la calidad de los datos.
Los lakehouses de datos compensan los defectos dentro de los almacenes de datos y data lakes con capacidades que forman un mejor sistema de gestión de datos. Combinan las estructuras de datos de los almacenes de datos con el almacenamiento de bajo coste y la flexibilidad de los data lakes.
Los lakehouses de datos permiten a los equipos unificar sus sistemas de datos dispares, acelerando el proceso de datos para análisis más avanzados (como el machine learning o ML), accediendo de manera eficiente a big data y mejorando la calidad de los datos.
Los lakehouses de datos existen para resolver los desafíos de los almacenes de datos y los data lakes y para reunir sus beneficios bajo una arquitectura de datos.
Por ejemplo, los almacenes de datos son más eficientes que los data lakes, tanto para almacenar como para transformar datos empresariales. Sin embargo, el almacenamiento de datos requiere esquemas estrictos (normalmente el esquema en estrella y el esquema de copo de nieve).
Por lo tanto, los almacenes de datos no funcionan bien con datos no estructurados o semiestructurados, que son críticos para los casos de uso de inteligencia artificial (IA) y ML. También tienen una capacidad limitada para escalar.
Los data lakes, por otro lado, permiten a las organizaciones agregar todos los tipos de datos (datos estructurados, datos no estructurados y datos semiestructurados) de diversas fuentes de datos y en una sola ubicación. Permiten un almacenamiento de datos más escalable y asequible, pero no tienen herramientas de proceso de datos integradas.
Los lakehouses de datos fusionan aspectos de los almacenes de datos y los data lakes. Utilizan el almacenamiento de objetos en la nube para almacenar datos en cualquier formato a bajo coste. Y, además de ese almacenamiento en la nube, se encuentra una infraestructura de análisis tipo almacén, que admite consultas de alto rendimiento, análisis casi en tiempo real e iniciativas de inteligencia empresarial (BI).
Los almacenes de datos, los data lakes y los lakehouses de datos son todos repositorios de datos, pero con diferencias clave. A menudo se utilizan juntos para respaldar una arquitectura de datos integrada para una variedad de casos de uso.
Un almacén de datos reúne datos sin procesar de múltiples fuentes en un repositorio central y los organiza en una infraestructura de base de datos relacional. Este sistema de gestión de datos principalmente admite aplicaciones de análisis de datos e inteligencia empresarial, como la elaboración de informes empresariales.
El sistema utiliza procesos ETL para extraer, transformar y cargar datos en su destino. Sin embargo, está limitado por su ineficiencia y su coste, especialmente a medida que crece el número de fuentes de datos y la cantidad de los mismos.
Si bien tradicionalmente los almacenes de datos se alojaban on-premises en mainframes, hoy en día muchos almacenes de datos están alojados en la nube y se ofrecen como servicios en la nube.
Los data lakes se crearon inicialmente en plataformas de big data como Apache Hadoop. Pero el núcleo de los data lakes modernos es un servicio de almacenamiento de objetos en la nube, que les permite almacenar todo tipo de datos. Entre los servicios más comunes se incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage.
Dado que las empresas generan en gran medida datos no estructurados, esta capacidad de almacenamiento es una distinción importante. Permite más proyectos de ciencia de datos e inteligencia artificial (IA), lo que a su vez genera más conocimientos novedosos y una mejor toma de decisiones en toda la organización.
Sin embargo, el tamaño y la complejidad de los data lakes pueden requerir la experiencia de usuarios más técnicos, como científicos de datos e ingenieros de datos. Y, debido a que el gobierno de datos se produce en fases posteriores de estos sistemas, los data lakes pueden ser propensos a la creación de silos de datos y, posteriormente, evolucionar hacia data swamps (donde los datos válidos son inaccesibles debido a una mala gestión).
Los lakehouses de datos pueden resolver los principales retos tanto de los almacenes de datos como de los data lakes para ofrecer una solución de gestión de datos más idónea para las organizaciones. Aprovechan el almacenamiento de objetos en la nube para un almacenamiento rápido y de bajo coste en una amplia gama de tipos de datos, a la vez que ofrecen capacidades de análisis de alto rendimiento. Las organizaciones pueden utilizar lakehouses de datos junto con sus data lakes y almacenes de datos existentes sin necesidad de desmontarlos y reconstruirlos por completo.
Los data lakehouses ofrecen varios beneficios clave a los usuarios, ya que pueden ayudar a:
Un único sistema de almacenamiento de datos crea una plataforma optimizada para satisfacer todas las demandas de datos empresariales, lo que reduce la duplicación de datos. Los lakehouses de datos también simplifican la observabilidad de los datos de principio a fin al reducir la cantidad de datos que se mueven a través de pipelines de datos en varios sistemas.
Los lakehouses de datos aprovechan los menores costes del almacén de datos en la nube, por lo que son más rentables que los almacenes de datos. Además, la arquitectura híbrida de un lakehouse de datos elimina la necesidad de mantener múltiples sistemas de almacenamiento de datos, lo que reduce los costes operativos.
Los lakehouses de datos pueden abordar diferentes casos de uso a lo largo del ciclo de vida de la gestión de datos. También admiten flujos de trabajo de inteligencia empresarial y de visualización basada en datos o de ciencia de datos más complejos.
La arquitectura de lakehouse de datos mitiga los problemas de gobierno de los data lakes. Por ejemplo, a medida que se ingieren y cargan los datos, el lakehouse puede garantizar que cumplen los requisitos del esquema definido, lo que reduce los problemas de calidad de los datos en fases posteriores.
En los almacenes de datos tradicionales, el cálculo y el almacenamiento están acoplados. Los lakehouses de datos separan el almacenamiento y el cálculo, lo que permite a los equipos de datos acceder al mismo almacenamiento de datos mientras utilizan diferentes nodos de cálculo para diferentes aplicaciones. Esta separación da como resultado una mayor escalabilidad y flexibilidad.
El lakehouse de datos está diseñado para las empresas y la tecnología actuales. Muchas fuentes de datos contienen datos de streaming en tiempo real desde dispositivos, como los de Internet de las cosas . El sistema lakehouse admite estas fuentes a través de la ingesta de datos en tiempo real.
Desarrollado por Databricks en 2016, Delta Lake es un formato de almacenamiento de datos de código abierto que combina archivos de datos Apache Parquet con un registro de metadatos robusto. Este formato añade funciones clave de gestión de datos a data lakes, como la aplicación de esquemas, viajes en el tiempo y transacciones ACID. (ACID significa “atomicidad, consistencia, aislamiento y durabilidad”, que son propiedades clave que definen una transacción para garantizar la integridad de los datos).
Estas funciones ayudan a que los data lakes sean más fiables e intuitivos. También permiten a los usuarios ejecutar consultas en lenguaje de consulta estructurado (SQL), cargas de trabajo analíticas y otras actividades en un data lake, lo que optimiza la inteligencia empresarial, la inteligencia de datos (DI), la IA y el ML.
Delta Lake se convirtió en código abierto en 2019. Desde entonces, los lakehouses de datos se crean normalmente construyendo una capa de almacenamiento Delta Lake sobre un data lake y, a continuación, integrándola con un motor de procesamiento de datos como Apache Spark o Hive.
Los lakehouses de datos de código abierto suelen denominarse lakehouses de datos abiertos. Otros formatos de tabla abiertos son Apache Iceberg (un formato de alto rendimiento para tablas de análisis masivas) y Apache Hudi (diseñado para el proceso de datos).
La arquitectura de un lakehouse de datos suele constar de cinco capas:
Esta primera capa recopila datos de diversas fuentes y los transforma en un formato de datos que un lakehouse puede almacenar y analizar. La capa de ingesta puede utilizar protocolos para conectarse con fuentes internas y externas, como sistemas de gestión de bases de datos, bases de datos NoSQL y redes sociales.
En esta capa, se almacenan conjuntos de datos estructurados, no estructurados y semiestructurados en formatos de archivo de código abierto, como Parquet u Optimized Row Columnar (ORC). Esta capa proporciona un beneficio importante del lakehouse de datos: su capacidad para aceptar todo tipo de datos a un coste asequible.
La capa de metadatos es un catálogo unificado que proporciona metadatos para cada objeto en el almacenamiento del lago, lo que ayuda a organizar y proporcionar información sobre los datos en el sistema. Esta capa también ofrece transacciones ACID, almacenamiento en caché de archivos e indexación para consultas más rápidas. Los usuarios pueden implementar esquemas predefinidos aquí, lo que permite el gobierno de datos y las capacidades de auditoría.
Un lakehouse de datos utiliza interfaces de programación de aplicaciones (API) para aumentar el procesamiento de tareas y realizar análisis más avanzados. En concreto, esta capa brinda a los consumidores y/o desarrolladores la oportunidad de utilizar una variedad de lenguajes y bibliotecas, como TensorFlow, en un nivel abstracto. Las API están optimizadas para el consumo de activos de datos.
La capa final de la arquitectura del lakehouse de datos aloja aplicaciones y herramientas, con acceso a todos los metadatos y datos almacenados en el lago. Esto abre el acceso a los datos a los usuarios de una organización, que pueden utilizar el lakehouse para realizar tareas como paneles de control de inteligencia empresarial, visualización de datos y tareas de machine learning.
Ponga sus datos a trabajar, residan donde residan, con el lakehouse de datos híbrido y abierto para IA y análisis.
Resuelva los retos que presentan los datos hoy en día con una arquitectura lakehouse. Conéctese a los datos en minutos, obtenga rápidamente información fiable y reduzca los costes de su almacén de datos.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.