Un lakehouse de datos es una plataforma de datos que combina los mejores aspectos de los almacenes de datos y los data lakes en una solución de gestión de datos.
La lakehouse de datos y la arquitectura de gobierno de IBM para entornos de nube híbrida están anclados en su plataforma watsonx.data. Este lakehouse de datos híbrido y abierto permite a las empresas ampliar los análisis y la IA, proporcionando un almacén de datos robusto basado en una arquitectura de almacén de datos abierta. La arquitectura combina los atributos de rendimiento y usabilidad de un almacén de datos con la flexibilidad y escalabilidad de un data lake, ofreciendo una solución equilibrada para las tareas de gestión de datos y análisis.
La plataforma watsonx.data se ofrece tanto como oferta SaaS como solución local para los clientes de una zona geográfica sin una oferta de SaaS, o que necesitan que la plataforma Lakehouse permanezca on-premises debido a restricciones reglamentarias u otras, IBM ofrece flexibilidad a través de las siguientes opciones de implementación para permitir capacidades de lakehouse de datos en cualquier lugar:
lakehouse de datos: watsonx.data es la arquitectura de almacén de datos de nueva generación que equilibra las capacidades de los data lakes y los almacenes de datos. Es fundamental para el enfoque de Data Lakehouse de IBM, que facilita el escalado de las cargas de trabajo de IA y machine learning (ML) al mismo tiempo que garantiza un gobierno del dato eficiente.
Plataforma de IA gen: el lakehouse de datos puede conectarse opcionalmente a una plataforma de IA gen para aumentar las consultas con LLM. Los usuarios pueden introducir una instrucción, que se envía a un LLM ajustado para generar consultas de recuperación que pueden ejecutar los motores compatibles con el lakehouse de datos.
Patrón 1 de Lakehouse: múltiples motores de consulta adecuados para el propósito
Utilice la informática adecuada para optimizar los costes aprovechando el motor adecuado para la carga de trabajo adecuada, al mismo tiempo que se comparten datos y metadatos entre todos los motores, metastore compartido (es decir, catálogo de datos) y el mismo entorno.
Patrón 2 de Lakehouse: panel único para todos sus datos
Data Lakehouse permite un enfoque moderno a las arquitecturas de datos actuales, donde las empresas han construido a lo largo de los años varios silos de almacenes de datos para satisfacer diferentes necesidades, desde almacenes de datos empresariales estructurados y de alto rendimiento hasta lagos de datos de gran volumen, no estructurados o semiestructurados, que la mayoría de las veces se convierten en pantanos de datos (duplicación, calidad de los datos, falta de gobierno). Un lakehouse de datos con watsonx.data permitirá una única capa de acceso a una variedad de almacenes de datos a través de múltiples motores de consulta, formatos de datos abiertos y gobierno, sin necesidad de movimiento de datos.
Patrón 3 de Lakehouse: optimice las cargas de trabajo del almacén de datos para optimizar los costes
Reduzca los costes de almacenamiento al mismo tiempo que mantiene las capacidades de consulta temporal al aprovechar el almacenamiento y la informática baratos de Lakehouse y permitir que varios motores de consulta consuman el mismo conjunto de datos. Los motores de consulta como Spark permiten realizar consultas aspiradas/materializadas de datos en su estado actual (por ejemplo, no todo el historial de cambios de datos), lo que reduce el tamaño de las consultas de datos y el coste de cálculo de las consultas. Además, las capacidades de preprocesamiento y transformaciones selectivas de Lakehouse permiten una distribución óptima de las cargas de trabajo del almacén de datos, lo que reduce los costes.
Patrón 4 de Lakehouse: implementación de múltiples nubes híbridas
Conéctese y acceda a los datos de forma remota a través de la nube híbrida con la capacidad de almacenar en caché fuentes remotas.
Patrón 5 de Lakehouse: integración de los datos del mainframe con el ecosistema analítico
Sincronice e incorpore los datos de Db2 for z/OS para los análisis de Lakehouse y realice análisis en tiempo real en Mainframe a través de los datos de VSAM y Db2. La virtualización de datos siempre consultará los datos directamente desde el mainframe con consideraciones de carga adicionales, mientras que CDC capturará la información en formato iceberg en función de la frecuencia definida por la administración (no añade carga a su mainframe pero tampoco proporciona datos en tiempo real).
La selección del motor de consultas que se va a usar suele estar determinada por el tipo de datos que se van a consultar.