Inicio

Architectures

Híbrido

Lago de datos

Lago de datos
Prueba sin costo de watsonx.data SaaS Despliegue watsonx.data Standalone en OpenShift
Un espacio principal recoloreado que utiliza como base el espacio principal watsonx para atención al cliente.
Descripción general

Un lakehouse de datos es una plataforma de datos que fusiona los mejores aspectos de los almacenes de datos y lagos de datos en una única solución de gestión de datos.

La lakehouse de datos y la arquitectura de gobernanza de IBM para entornos de nube híbrida están anclados en su plataforma watsonx.data. Este lakehouse de datos híbrido y abierto permite a las empresas ampliar los analytics y la IA, proporcionando un almacén de datos robusto basado en una arquitectura de almacén de datos abierta. La arquitectura combina los atributos de rendimiento y usabilidad de un almacén de datos con la flexibilidad y escalabilidad de un data lake, ofreciendo una solución equilibrada para las tareas de gestión de datos y análisis.

Despliegue

La plataforma watsonx.data se ofrece tanto como oferta SaaS como solución local para los clientes de una zona geográfica sin una oferta de SaaS, o que necesitan que la plataforma Lakehouse permanezca on-premises debido a restricciones reglamentarias u otras, IBM ofrece flexibilidad a través de las siguientes opciones de despliegue para permitir capacidades de lakehouse de datos en cualquier lugar:

  1. Aprovisione watsonx.data SaaS en IBM Cloud o AWS.
  2. Despliegue de watsonx.data como solución independiente sobre OpenShift on-prem o otros hiperescaladores con OpenShift gestionado.
  3. Despliegue de watsonx.data, parte del clúster de IBM CloudPak for Data (CP4D).
  • Fuentes de datos:  esto incluye datos estructurados de bases de datos y aplicaciones, así como datos no estructurados de archivos, redes sociales, dispositivos IoT, etc., así como almacenes de datos empresariales y otros almacenes de datos no estructurados, tanto de la aplicación on-prem del cliente como de SaaS.

  • Aplicaciones cliente: los clientes pueden tener aplicaciones on-premises o SaaS con sus propios almacenes de datos (estructurados y no estructurados) cuyos datos pueden no estar en el data lake, y los clientes pueden desear llevar esos datos al lakehouse para facilitar la consulta.

  • Lakehouse de datos: watsonx.data es la arquitectura de almacén de datos de nueva generación que equilibra las capacidades de los lagos de datos y los almacenes de datos. Es fundamental para el enfoque de lakehouse de datos de IBM, que facilita el escalado de las cargas de trabajo de IA y machine learning (ML) al mismo tiempo que garantiza una gobernanza de datos eficiente.
     

  • Plataforma de IA generativa: el lakehouse de datos puede conectarse opcionalmente a una plataforma de IA gen para aumentar las consultas con LLM. Los usuarios pueden introducir una instrucción, que se envía a un LLM ajustado para generar consultas de recuperación que pueden ejecutar los motores compatibles con el lakehouse de datos.

Patrones de Lakehouse

Patrón de Lakehouse 1: Múltiples motores de consulta adecuados para su propósito

Emplee la computación adaptada al propósito para optimizar los costos aprovechando el motor correcto para la carga de trabajo correcta, mientras comparte simultáneamente datos y metadatos entre todos los motores, metastore compartido (es decir, Catálogo de datos) y el mismo entorno.

Lakehouse Pattern 2: panel único para todos sus datos

Data Lakehouse permite un enfoque moderno a las arquitecturas de datos actuales, donde las empresas han construido a lo largo de los años varios silos de almacenes de datos para satisfacer diferentes necesidades, desde almacenes de datos empresariales estructurados y de alto rendimiento hasta lagos de datos de gran volumen, no estructurados o semiestructurados, que la mayoría de las veces se convierten en pantanos de datos (duplicación, calidad de los datos, falta de gobierno). Un lakehouse de datos con watsonx.data permitirá una única capa de acceso a una variedad de almacenes de datos a través de múltiples motores de consulta, formatos de datos abiertos y gobierno, sin necesidad de movimiento de datos.

Patrón de Lakehouse 3: Optimizar las cargas de trabajo del almacén de datos para optimizar los costos

Reduzca los costos de almacenamiento al tiempo que mantiene las capacidades de consulta temporal aprovechando el almacenamiento y la informática baratos de Lakehouse, y permitiendo que varios motores de consulta consuman el mismo conjunto de datos. Los motores de consulta como Spark permiten realizar consultas vaciadas/materializadas de datos en su estado actual (p. ej. no todo el historial de cambios de datos), lo que reduce el tamaño de la consulta de datos y el costo computacional de la consulta. Además, las capacidades de preprocesamiento y transformaciones selectivas de Lakehouse permiten distribuir de forma óptima las cargas de trabajo del almacén de datos, reduciendo así los costos.

Patrón de Lakehouse 4: despliegue de múltiples nubes híbridas

Conéctese y acceda a los datos de forma remota a través de la nube híbrida con la capacidad de almacenar en caché fuentes remotas.

Patrón 5 de Lakehouse: integración de los datos del mainframe con el ecosistema analítico

Sincronice e incorpore los datos de Db2 for z/OS para los análisis de lakehouse y realice análisis en tiempo real en mainframe a través de los datos de VSAM y Db2. La virtualización de datos siempre consultará los datos directamente desde el mainframe con consideraciones de carga adicionales, mientras que CDC capturará la información en formato iceberg en función de la frecuencia definida por la administración (no añade carga a su mainframe pero tampoco proporciona datos en tiempo real).

Otros casos de uso de Lakehouse
  • Nivel de almacenamiento para nuevos activos de datos Las aplicaciones modernas suelen depender de nuevos conjuntos de datos y técnicas avanzadas de procesamiento de datos para proporcionar servicios más eficientes, escalables y basados en datos. Data Lakehouse puede proporcionar el nivel de almacenamiento de datos, la integración, el rendimiento, la escalabilidad y la rentabilidad necesarios.

  • Respuesta e instrucción de datos en lenguaje natural El lakehouse de datos (watsonx.data) junto con capacidades de IA generativa y modelos de lenguaje grandes (LLM) (watsonx.ai) permiten que un analista que no conoce la estructura técnica de la información, no domina SQL, utilice instrucciones en lenguaje natural para realizar un análisis cruzado en los diferentes almacenes de datos y obtener respuestas del LLM.
Decisiones de arquitectura

Selección del motor de consulta

La selección de qué motor de consulta utilizar generalmente depende del tipo de datos que se consultarán.

  1. El motor de consulta Presto es el más adecuado para su uso con tablas/cubos Hive y Parquet.
  2. El motor de consulta Spark es el más adecuado para su uso cuando la programación SCALA se utiliza dentro de un entorno Hadoop/Cloudera existente.
  3. El motor de consulta DB2 es el más adecuado para su uso con almacenes de datos DB2.
  4. El motor de consulta de Netezza es el más adecuado para consultar el almacén de datos de Netezza
Características de Data Lakehouse
  1. Gestión unificada de datos: garantizar que Data Lakehouse sirva como una única fuente de verdad es crucial para la coherencia y confiabilidad en analytics y la toma de decisiones.
  2. Integración de datos: la integración de datos de diversas fuentes y en varios formatos debe ser fluida, con soporte para la ingesta de datos en tiempo real y por lotes.
  3. Rendimiento de consultas: Rendimiento de consultas optimizado para respaldar las necesidades de analytics y reporting en línea con los SLA/SLO empresariales.
  4. Gobernanza de datos: las implementaciones exitosas de lakehouse de datos requieren un sólido marco de infraestructura de datos para garantizar la calidad de los datos, la administración de metadatos y el rastreo de linaje.
  5. Seguridad: Garantice el cifrado de datos, el control de acceso y los registros de auditoría para cumplir los requisitos organizacionales y normativos.
  6. Flexibilidad de despliegue: La compatibilidad con despliegues on premises, híbridos y multi-cloud proporciona flexibilidad y ayuda a optimizar los costos y el rendimiento.
  7. Sensibilidad de los datos: Garantice la facilidad de movimiento de los datos entre distintos entornos al tiempo que mantiene su coherencia e integridad.
  8. Supervisión y gestión: implemente herramientas de supervisión, registro y gestión para obtener visibilidad del movimiento de datos, los tiempos y las tasas de finalización de los trabajos y el ajuste del rendimiento.
Recursos Arquitectura de IA generativa de IBM

La arquitectura de IA generativa de IBM es la arquitectura de IA generativa completa de IBM en IBM IT Architect Assistant (IIAA), una herramienta de desarrollo y gestión de arquitecturas. Al utilizar IIAA, los arquitectos pueden elaborar y personalizar la arquitectura para crear sus propias soluciones de IA generativa.

Tekton Pipeline for watsonx.data

Este repositorio contiene un pipeline de Tekton para desplegar IBM watsonx.data en un clúster de Red Hat Openshift

Activos de laboratorio práctico de watsonx.data

Este repositorio contiene activos para ejecutar un laboratorio y un taller para la habilitación de watsonx.data.

Próximos pasos

Hable con nuestros expertos sobre la implementación de un patrón de despliegue de nube híbrida.

Más formas de explorar Hybrid Cloud Architecture Center Herramientas y plantillas de diagramas IBM Well-Architected Framework
Colaboradores

Bryan KyleManav GuptaMihai Criveti, Wissam DibChris Kirby

Actualizado: 11 de diciembre de 2023