Arquitectura y beneficios del data lakehouse

Descripción general

Un lakehouse de datos es una plataforma de datos que fusiona los mejores aspectos de los almacenes de datos y lagos de datos en una única solución de gestión de datos.

Data Lakehouse de IBM y la arquitectura de gobernanza para entornos de nube híbrida están anclados en su plataforma watsonx.data. Esta plataforma permite a las empresas escalar el analytics y la IA, proporcionando un robusto almacén de datos basado en una arquitectura de lakehouse. La arquitectura fusiona los atributos de rendimiento y usabilidad de un almacén de datos con la flexibilidad y escalabilidad de un data lake, ofreciendo una solución equilibrada para las tareas de gestión y analytics de datos.

Despliegue

La plataforma watsonx.data se ofrece tanto como oferta SaaS como solución local para los clientes de una zona geográfica sin una oferta de SaaS, o que necesitan que la plataforma Lakehouse permanezca on-premises debido a restricciones reglamentarias u otras, IBM ofrece flexibilidad a través de las siguientes opciones de despliegue para permitir capacidades de lakehouse de datos en cualquier lugar:

Aprovisione watsonx.data SaaS en IBM Cloud o AWS.
Despliegue de watsonx.data como solución independiente sobre OpenShift on-prem o otros hiperescaladores con OpenShift gestionado.
Despliegue de watsonx.data, parte del clúster de IBM CloudPak for Data (CP4D).

Gráfico del flujo de trabajo Despliegue de watsonx.data, parte del clúster de IBM CloudPak for Data (CP4D)

Una arquitectura de lakehouse de datos que permite utilizar múltiples motores de consulta adecuados al tiempo que proporciona acceso simultáneo a los mismos datos en todos los motores

Fuentes de datos: esto incluye datos estructurados de bases de datos y aplicaciones, así como datos no estructurados de archivos, redes sociales, dispositivos IoT, etc., así como almacenes de datos empresariales y otros almacenes de datos no estructurados, tanto de la aplicación on-prem del cliente como de SaaS.
Aplicaciones cliente: los clientes pueden tener aplicaciones on-premises o SaaS con sus propios almacenes de datos (estructurados y no estructurados) cuyos datos pueden no estar en el data lake, y los clientes pueden desear llevar esos datos al lakehouse para facilitar la consulta.
Lakehouse de datos: watsonx.data es la arquitectura de almacén de datos de nueva generación que equilibra las capacidades de los lagos de datos y los almacenes de datos. Es fundamental para el enfoque de lakehouse de datos de IBM, que facilita el escalado de las cargas de trabajo de IA y machine learning (ML) al mismo tiempo que garantiza una gobernanza de datos eficiente.
Plataforma de IA generativa: el lakehouse de datos puede conectarse opcionalmente a una plataforma de IA gen para aumentar las consultas con LLM. Los usuarios pueden introducir una instrucción, que se envía a un LLM ajustado para generar consultas de recuperación que pueden ejecutar los motores compatibles con el lakehouse de datos.

Patrones de Lakehouse

Patrón de Lakehouse 1: Múltiples motores de consulta adecuados para su propósito

Emplee la computación adaptada al propósito para optimizar los costos aprovechando el motor correcto para la carga de trabajo correcta, mientras comparte simultáneamente datos y metadatos entre todos los motores, metastore compartido (es decir, Catálogo de datos) y el mismo entorno.

Gráfico del flujo de trabajo de múltiples motores de consulta aptos para su propósito

Una arquitectura de data lakehouse que permite el uso de múltiples motores de consulta para optimizar el costo y el rendimiento.

Lakehouse Pattern 2: panel único para todos sus datos

Data Lakehouse permite un enfoque moderno a las arquitecturas de datos actuales, donde las empresas han construido a lo largo de los años varios silos de almacenes de datos para satisfacer diferentes necesidades, desde almacenes de datos empresariales estructurados y de alto rendimiento hasta lagos de datos de gran volumen, no estructurados o semiestructurados, que la mayoría de las veces se convierten en pantanos de datos (duplicación, calidad de los datos, falta de gobierno). Un lakehouse de datos con watsonx.data permitirá una única capa de acceso a una variedad de almacenes de datos a través de múltiples motores de consulta, formatos de datos abiertos y gobierno, sin necesidad de movimiento de datos.

Un único panel para todos sus datos sin necesidad de mover datos.

Una arquitectura de lakehouse de datos para proporcionar una única capa de acceso (panel único) para todos los almacenes de datos de una empresa, incluyendo el almacenamiento de objetos, los datos relacionales y los data lakes.

Patrón de Lakehouse 3: Optimizar las cargas de trabajo del almacén de datos para optimizar los costos

Reduzca los costos de almacenamiento al tiempo que mantiene las capacidades de consulta temporal aprovechando el almacenamiento y la informática baratos de Lakehouse, y permitiendo que varios motores de consulta consuman el mismo conjunto de datos. Los motores de consulta como Spark permiten realizar consultas vaciadas/materializadas de datos en su estado actual (p. ej. no todo el historial de cambios de datos), lo que reduce el tamaño de la consulta de datos y el costo computacional de la consulta. Además, las capacidades de preprocesamiento y transformaciones selectivas de Lakehouse permiten distribuir de forma óptima las cargas de trabajo del almacén de datos, reduciendo así los costos.

Optimice las cargas de trabajo de Data Warehouse para optimizar los costos, reducir los costos de almacenamiento y, al mismo tiempo, mantener las capacidades de consulta temporales mediante al aprovechar

Una arquitectura de data lakehouse para minimizar los costos del almacén de datos y optimizar el rendimiento de las consultas del almacén.

Patrón de Lakehouse 4: despliegue de múltiples nubes híbridas

Conéctese y acceda a los datos de forma remota a través de la nube híbrida con la capacidad de almacenar en caché fuentes remotas.

Una arquitectura de lakehouse de datos para integrar los datos on-premise y en la nube de varios proveedores.

Patrón 5 de Lakehouse: integración de los datos del mainframe con el ecosistema analítico

Sincronice e incorpore los datos de Db2 for z/OS para los análisis de lakehouse y realice análisis en tiempo real en mainframe a través de los datos de VSAM y Db2. La virtualización de datos siempre consultará los datos directamente desde el mainframe con consideraciones de carga adicionales, mientras que CDC capturará la información en formato iceberg en función de la frecuencia definida por la administración (no añade carga a su mainframe pero tampoco proporciona datos en tiempo real).

Sincronice e incorpore datos de Db2 for z/OS para los analytics de Lakehouse y realice análisis en tiempo real en Mainframe a través de datos VSAM y Db2.

Una arquitectura de lakehouse de datos que utiliza una puerta de enlace de datos y virtualización de datos para integrar datos de mainframe con datos de origen no mainframe.

Otros casos de uso de Lakehouse

Nivel de almacenamiento para nuevos activos de datos Las aplicaciones modernas suelen depender de nuevos conjuntos de datos y técnicas avanzadas de procesamiento de datos para proporcionar servicios más eficientes, escalables y basados en datos. Data Lakehouse puede proporcionar el nivel de almacenamiento de datos, la integración, el rendimiento, la escalabilidad y la rentabilidad necesarios.
Respuesta e instrucción de datos en lenguaje natural El lakehouse de datos (watsonx.data) junto con capacidades de IA generativa y modelos de lenguaje grandes (LLM) (watsonx.ai) permiten que un analista que no conoce la estructura técnica de la información, no domina SQL, utilice instrucciones en lenguaje natural para realizar un análisis cruzado en los diferentes almacenes de datos y obtener respuestas del LLM.

Decisiones de arquitectura

Selección del motor de consulta

La selección de qué motor de consulta utilizar generalmente depende del tipo de datos que se consultarán.

El motor de consulta Presto es el más adecuado para su uso con tablas/cubos Hive y Parquet.
El motor de consulta Spark es el más adecuado para su uso cuando la programación SCALA se utiliza dentro de un entorno Hadoop/Cloudera existente.
El motor de consulta DB2 es el más adecuado para su uso con almacenes de datos DB2.
El motor de consulta de Netezza es el más adecuado para consultar el almacén de datos de Netezza

Características de Data Lakehouse

Gestión unificada de datos: garantizar que Data Lakehouse sirva como una única fuente de verdad es crucial para la coherencia y confiabilidad en analytics y la toma de decisiones.
Integración de datos: la integración de datos de diversas fuentes y en varios formatos debe ser fluida, con soporte para la ingesta de datos en tiempo real y por lotes.
Rendimiento de consultas: Rendimiento de consultas optimizado para respaldar las necesidades de analytics y reporting en línea con los SLA/SLO empresariales.
Gobernanza de datos: las implementaciones exitosas de lakehouse de datos requieren un sólido marco de infraestructura de datos para garantizar la calidad de los datos, la administración de metadatos y el rastreo de linaje.
Seguridad: Garantice el cifrado de datos, el control de acceso y los registros de auditoría para cumplir los requisitos organizacionales y normativos.
Flexibilidad de despliegue: La compatibilidad con despliegues on premises, híbridos y multi-cloud proporciona flexibilidad y ayuda a optimizar los costos y el rendimiento.
Sensibilidad de los datos: Garantice la facilidad de movimiento de los datos entre distintos entornos al tiempo que mantiene su coherencia e integridad.
Supervisión y gestión: implemente herramientas de supervisión, registro y gestión para obtener visibilidad del movimiento de datos, los tiempos y las tasas de finalización de los trabajos y el ajuste del rendimiento.