Un espacio principal recoloreado que utiliza como base el espacio principal watsonx para atención al cliente.
Visión general

Un lakehouse de datos es una plataforma de datos que combina los mejores aspectos de los almacenes de datos y los data lakes en una solución de gestión de datos.

La lakehouse de datos y la arquitectura de gobierno de IBM para entornos de nube híbrida están anclados en su plataforma watsonx.data. Este lakehouse de datos híbrido y abierto permite a las empresas ampliar los análisis y la IA, proporcionando un almacén de datos robusto basado en una arquitectura de almacén de datos abierta. La arquitectura combina los atributos de rendimiento y usabilidad de un almacén de datos con la flexibilidad y escalabilidad de un data lake, ofreciendo una solución equilibrada para las tareas de gestión de datos y análisis.

Implementación

La plataforma watsonx.data se ofrece tanto como oferta SaaS como solución local para los clientes de una zona geográfica sin una oferta de SaaS, o que necesitan que la plataforma Lakehouse permanezca on-premises debido a restricciones reglamentarias u otras, IBM ofrece flexibilidad a través de las siguientes opciones de implementación para permitir capacidades de lakehouse de datos en cualquier lugar:

  1. Aprovisione watsonx.data SaaS en IBM Cloud o AWS.
  2. Implemente watsonx.data como solución independiente sobre OpenShift on-prem u otros hiperescaladores con OpenShift gestionado.
  3. Implemente watsonx.data como parte del clúster IBM CloudPak for Data (CP4D).
Implemente watsonx.data como parte del clúster IBM CloudPak for Data (CP4D).
Una arquitectura de lakehouse de datos que permite utilizar varios motores de consulta adaptados a la vez que proporciona acceso simultáneo a los mismos datos en todos los motores
  • Fuentes de datos: esto incluye datos estructurados de bases de datos y aplicaciones, así como datos no estructurados de archivos, redes sociales, dispositivos IoT, etc., así como almacenes de datos empresariales y otros almacenes de datos no estructurados, tanto de la aplicación local del cliente como de SaaS.

  • Aplicaciones cliente: los clientes pueden tener aplicaciones on-premises o SaaS con sus propios almacenes de datos (estructurados y no estructurados) cuyos datos pueden no estar en el data lake, y los clientes pueden desear llevar esos datos al lakehouse para facilitar la consulta.

  • lakehouse de datos: watsonx.data es la arquitectura de almacén de datos de nueva generación que equilibra las capacidades de los data lakes y los almacenes de datos. Es fundamental para el enfoque de Data Lakehouse de IBM, que facilita el escalado de las cargas de trabajo de IA y machine learning (ML) al mismo tiempo que garantiza un gobierno del dato eficiente.
     

  • Plataforma de IA gen: el lakehouse de datos puede conectarse opcionalmente a una plataforma de IA gen para aumentar las consultas con LLM. Los usuarios pueden introducir una instrucción, que se envía a un LLM ajustado para generar consultas de recuperación que pueden ejecutar los motores compatibles con el lakehouse de datos.

Patrones de Lakehouse

Patrón 1 de Lakehouse: múltiples motores de consulta adecuados para el propósito

Utilice la informática adecuada para optimizar los costes aprovechando el motor adecuado para la carga de trabajo adecuada, al mismo tiempo que se comparten datos y metadatos entre todos los motores, metastore compartido (es decir, catálogo de datos) y el mismo entorno.

Múltiples motores de consulta adaptados. Utilice la computación adaptada para optimizar los costes aprovechando el motor adecuado para cada carga de trabajo.
Una arquitectura lakehouse de datos que permite el uso de varios motores de consulta para optimizar el coste y el rendimiento.

Patrón 2 de Lakehouse: panel único para todos sus datos

Data Lakehouse permite un enfoque moderno a las arquitecturas de datos actuales, donde las empresas han construido a lo largo de los años varios silos de almacenes de datos para satisfacer diferentes necesidades, desde almacenes de datos empresariales estructurados y de alto rendimiento hasta lagos de datos de gran volumen, no estructurados o semiestructurados, que la mayoría de las veces se convierten en pantanos de datos (duplicación, calidad de los datos, falta de gobierno). Un lakehouse de datos con watsonx.data permitirá una única capa de acceso a una variedad de almacenes de datos a través de múltiples motores de consulta, formatos de datos abiertos y gobierno, sin necesidad de movimiento de datos.

Panel único para todos sus datos sin necesidad de moverlos. Una arquitectura de lakehouse de datos para proporcionar una única capa de acceso (panel único) para todos los almacenes de datos de una empresa, incluyendo el almacenamiento de objetos, los datos relacionales y los data lakes.

Patrón 3 de Lakehouse: optimice las cargas de trabajo del almacén de datos para optimizar los costes

Reduzca los costes de almacenamiento al mismo tiempo que mantiene las capacidades de consulta temporal al aprovechar el almacenamiento y la informática baratos de Lakehouse y permitir que varios motores de consulta consuman el mismo conjunto de datos. Los motores de consulta como Spark permiten realizar consultas aspiradas/materializadas de datos en su estado actual (por ejemplo, no todo el historial de cambios de datos), lo que reduce el tamaño de las consultas de datos y el coste de cálculo de las consultas. Además, las capacidades de preprocesamiento y transformaciones selectivas de Lakehouse permiten una distribución óptima de las cargas de trabajo del almacén de datos, lo que reduce los costes.

Optimice las cargas de trabajo del almacén de datos para ahorrar costes, reducir los costes de almacenamiento y mantener al mismo tiempo las capacidades de consulta temporal mediante el uso de
Una arquitectura de lakehouse de datos para minimizar los costes del almacén de datos y optimizar el rendimiento de las consultas del almacén.

Patrón 4 de Lakehouse: implementación de múltiples nubes híbridas

Conéctese y acceda a los datos de forma remota a través de la nube híbrida con la capacidad de almacenar en caché fuentes remotas.

Conéctese y acceda a los datos de forma remota a través de la nube híbrida con la capacidad de almacenar en caché fuentes remotas.
Una arquitectura de lakehouse de datos para integrar los datos on-premise y en la nube de varios proveedores.

Patrón 5 de Lakehouse: integración de los datos del mainframe con el ecosistema analítico

Sincronice e incorpore los datos de Db2 for z/OS para los análisis de Lakehouse y realice análisis en tiempo real en Mainframe a través de los datos de VSAM y Db2. La virtualización de datos siempre consultará los datos directamente desde el mainframe con consideraciones de carga adicionales, mientras que CDC capturará la información en formato iceberg en función de la frecuencia definida por la administración (no añade carga a su mainframe pero tampoco proporciona datos en tiempo real).

Sincronice e incorpore datos de Db2 para z/OS para los análisis de Lakehouse y efectúe análisis en tiempo real en Mainframe a través de datos VSAM y Db2.
Una arquitectura de lakehouse de datos que utiliza una puerta de enlace de datos y virtualización de datos para integrar datos de mainframe con datos de origen no mainframe.
Otros casos de uso de Lakehouse
  • Nivel de almacenamiento para nuevos activos de datos Las aplicaciones modernas suelen depender de nuevos conjuntos de datos y técnicas avanzadas de proceso de datos para proporcionar servicios más eficientes, escalables y basados en datos. Data Lakehouse puede proporcionar el nivel de almacenamiento de datos, la integración, el rendimiento, la escalabilidad y la rentabilidad necesarios.

  • Respuesta e instrucción de datos en lenguaje natural Lakehouse de datos (watsonx.data) junto con capacidades de IA generativa y modelos de lenguaje de gran tamaño (LLM) (watsonx.ai) permiten que un analista que no conoce la estructura técnica de la información, no domina SQL, utilice instrucciones en lenguaje natural para realizar un análisis cruzado en los diferentes almacenes de datos y obtener respuestas del LLM.
Decisiones de arquitectura

Selección del motor de consulta

La selección del motor de consultas que se va a usar suele estar determinada por el tipo de datos que se van a consultar.

  1. El motor de consulta de Presto es más adecuado para su uso con tablas/depósitos de Hive y Parquet.
  2. El motor de consultas Spark es el más adecuado para su uso cuando la codificación SCALA se utiliza dentro de un entorno Hadoop/Cloudera existente.
  3. El motor de consulta DB2 es el más adecuado para su uso con almacenes de datos DB2.
  4. El motor de consultas de Netezza es el más adecuado para consultar el almacenamiento de datos de Netezza
Características de Data Lakehouse
  1. Gestión de datos: garantizar que Data Lakehouse sirva como única fuente fiable es crucial para la coherencia y la fiabilidad en el análisis de datos y la toma de decisiones.
  2. Integración de datos: la integración de datos de diversas fuentes y en varios formatos debe ser fluida, con soporte para la ingesta de datos en tiempo real y por lotes.
  3. Rendimiento de consultas: rendimiento de consultas optimizado para satisfacer las necesidades de análisis e informes de acuerdo con los SL/SLO empresariales.
  4. Gobierno del dato: las implementaciones exitosas de lakehouse de datos requieren un marco sólido para garantizar la calidad de los datos, la gestión de metadatos y el rastreo de linaje.
  5. Seguridad: garantice el cifrado de datos, el control de acceso y los registros de auditoría para cumplir con los requisitos organizativos y normativos.
  6. Flexibilidad de implementación: la compatibilidad con implementaciones on-premises, híbridas y de mutinube proporciona flexibilidad y ayuda a optimizar los costes y el rendimiento.
  7. Sensibilidad de los datos: garantice un movimiento sencillo de los datos entre distintos entornos, manteniendo al mismo tiempo la coherencia y la integridad de los datos.
  8. Monitorización y gestión: implemente herramientas de monitorización, registro y gestión para obtener visibilidad del movimiento de datos, los tiempos y tasas de finalización de los trabajos y el ajuste del rendimiento.
Próximos pasos

Hable con nuestros expertos sobre la implementación de un patrón de implementación de nube híbrida.

Más opciones para profundizar Centro de arquitectura de nube híbrida de IBM Herramientas y plantillas de diagramas IBM Well-Architected Framework
Colaboradores

Bryan KyleManav GuptaMihai Criveti, Wissam DibChris Kirby

Actualizado: 11 de diciembre de 2023