Inicio
Architectures
Híbrido
Lago de datos
Un lakehouse de datos es una plataforma de datos que fusiona los mejores aspectos de los almacenes de datos y lagos de datos en una única solución de gestión de datos.
La lakehouse de datos y la arquitectura de gobernanza de IBM para entornos de nube híbrida están anclados en su plataforma watsonx.data. Este lakehouse de datos híbrido y abierto permite a las empresas ampliar los analytics y la IA, proporcionando un almacén de datos robusto basado en una arquitectura de almacén de datos abierta. La arquitectura combina los atributos de rendimiento y usabilidad de un almacén de datos con la flexibilidad y escalabilidad de un data lake, ofreciendo una solución equilibrada para las tareas de gestión de datos y análisis.
La plataforma watsonx.data se ofrece tanto como oferta SaaS como solución local para los clientes de una zona geográfica sin una oferta de SaaS, o que necesitan que la plataforma Lakehouse permanezca on-premises debido a restricciones reglamentarias u otras, IBM ofrece flexibilidad a través de las siguientes opciones de despliegue para permitir capacidades de lakehouse de datos en cualquier lugar:
Lakehouse de datos: watsonx.data es la arquitectura de almacén de datos de nueva generación que equilibra las capacidades de los lagos de datos y los almacenes de datos. Es fundamental para el enfoque de lakehouse de datos de IBM, que facilita el escalado de las cargas de trabajo de IA y machine learning (ML) al mismo tiempo que garantiza una gobernanza de datos eficiente.
Plataforma de IA generativa: el lakehouse de datos puede conectarse opcionalmente a una plataforma de IA gen para aumentar las consultas con LLM. Los usuarios pueden introducir una instrucción, que se envía a un LLM ajustado para generar consultas de recuperación que pueden ejecutar los motores compatibles con el lakehouse de datos.
Patrón de Lakehouse 1: Múltiples motores de consulta adecuados para su propósito
Emplee la computación adaptada al propósito para optimizar los costos aprovechando el motor correcto para la carga de trabajo correcta, mientras comparte simultáneamente datos y metadatos entre todos los motores, metastore compartido (es decir, Catálogo de datos) y el mismo entorno.
Lakehouse Pattern 2: panel único para todos sus datos
Data Lakehouse permite un enfoque moderno a las arquitecturas de datos actuales, donde las empresas han construido a lo largo de los años varios silos de almacenes de datos para satisfacer diferentes necesidades, desde almacenes de datos empresariales estructurados y de alto rendimiento hasta lagos de datos de gran volumen, no estructurados o semiestructurados, que la mayoría de las veces se convierten en pantanos de datos (duplicación, calidad de los datos, falta de gobierno). Un lakehouse de datos con watsonx.data permitirá una única capa de acceso a una variedad de almacenes de datos a través de múltiples motores de consulta, formatos de datos abiertos y gobierno, sin necesidad de movimiento de datos.
Patrón de Lakehouse 3: Optimizar las cargas de trabajo del almacén de datos para optimizar los costos
Reduzca los costos de almacenamiento al tiempo que mantiene las capacidades de consulta temporal aprovechando el almacenamiento y la informática baratos de Lakehouse, y permitiendo que varios motores de consulta consuman el mismo conjunto de datos. Los motores de consulta como Spark permiten realizar consultas vaciadas/materializadas de datos en su estado actual (p. ej. no todo el historial de cambios de datos), lo que reduce el tamaño de la consulta de datos y el costo computacional de la consulta. Además, las capacidades de preprocesamiento y transformaciones selectivas de Lakehouse permiten distribuir de forma óptima las cargas de trabajo del almacén de datos, reduciendo así los costos.
Patrón de Lakehouse 4: despliegue de múltiples nubes híbridas
Conéctese y acceda a los datos de forma remota a través de la nube híbrida con la capacidad de almacenar en caché fuentes remotas.
Patrón 5 de Lakehouse: integración de los datos del mainframe con el ecosistema analítico
Sincronice e incorpore los datos de Db2 for z/OS para los análisis de lakehouse y realice análisis en tiempo real en mainframe a través de los datos de VSAM y Db2. La virtualización de datos siempre consultará los datos directamente desde el mainframe con consideraciones de carga adicionales, mientras que CDC capturará la información en formato iceberg en función de la frecuencia definida por la administración (no añade carga a su mainframe pero tampoco proporciona datos en tiempo real).
La selección de qué motor de consulta utilizar generalmente depende del tipo de datos que se consultarán.
La arquitectura de IA generativa de IBM es la arquitectura de IA generativa completa de IBM en IBM IT Architect Assistant (IIAA), una herramienta de desarrollo y gestión de arquitecturas. Al utilizar IIAA, los arquitectos pueden elaborar y personalizar la arquitectura para crear sus propias soluciones de IA generativa.
Este repositorio contiene un pipeline de Tekton para desplegar IBM watsonx.data en un clúster de Red Hat Openshift
Este repositorio contiene activos para ejecutar un laboratorio y un taller para la habilitación de watsonx.data.