Um leadspace recolorido usando o leadspace do Watson para atenção ao cliente como base.
Visão geral

Um data lakehouse é uma plataforma de dados que mescla os melhores aspectos de data warehouses e data lakes em uma única solução de gerenciamento de dados.

O data lakehouse e a arquitetura de governança da IBM para ambientes de nuvem híbrida estão ancorados em sua plataforma watsonx.data. Esse data lakehouse híbrido e aberto permite que as empresas escalem a análise de dados e a IA, fornecendo um armazenamento de dados robusto construído em uma arquitetura de data lakehouse aberta. A arquitetura funde as características de desempenho e usabilidade de um data warehouse com a flexibilidade e escalabilidade de um data lake, oferecendo uma solução equilibrada para tarefas de gerenciamento e análise de dados.

Implementação

A plataforma watsonx.data é oferecida como oferta de SaaS e solução no local. Para clientes em uma região sem uma oferta de SaaS, ou que exija que a plataforma Lakehouse permaneça no local devido a restrições regulatórias ou de outros tipos, a IBM oferece flexibilidade por meio das seguintes opções de implementação para habilitar recursos de data lakehouse em qualquer lugar:

  1. Provisione o SaaS watsonx.data no IBM Cloud ou AWS.
  2. Implemente o watsonx.data como solução independente sobre o OpenShift no local ou outros hiperescaladores com o OpenShift gerenciado.
  3. Implemente o watsonx.data como parte do cluster do IBM CloudPak for Data (CP4D).
Implemente o watsonx.data como parte do cluster do IBM CloudPak for Data (CP4D).
Uma arquitetura de data lakehouse que permite o uso de vários mecanismos de consulta adequados à finalidade, ao mesmo tempo em que fornece acesso simultâneo aos mesmos dados em todos os mecanismos
  • Fontes de dados  - Inclui dados estruturados de bancos de dados e aplicações, bem como dados não estruturados de arquivos, redes sociais, dispositivos de IoT etc., bem como data warehouses empresariais e outros armazenamentos de dados não estruturados, tanto da aplicação no local do cliente quanto de SaaS.

  • Aplicações de clientes - Os clientes podem ter aplicações no local ou SaaS com seus próprios armazenamentos de dados (estruturados e não estruturados), cujos dados podem não estar no data lake, e os clientes podem querer trazer esses dados para o lakehouse para facilitar as consultas.

  • Data lakehouse - O watsonx.data é a arquitetura de armazenamento de dados de última geração que equilibra os recursos de data lake e data warehouses. Isso é fundamental para a abordagem de data lakehouse da IBM, facilitando o escalonamento de cargas de trabalho de IA e aprendizado de máquina (ML) e, ao mesmo tempo, garantindo uma governança de dados eficiente.
     

  • Plataforma de IA generativa - O data lakehouse pode ser conectado a uma plataforma de IA generativa para aumentar as consultas com LLMs. Os usuários podem inserir um prompt, que é enviado a um LLM que recebeu ajuste fino para gerar consultas de recuperação que podem ser executadas pelos mecanismos compatíveis com o data lakehouse.

Padrões de lakehouses

Padrão de lakeouse 1: vários mecanismos de consulta adequados à finalidade

Use computação adequada à finalidade para otimizar custos, ao aproveitar o mecanismo certo para a carga de trabalho certa e, ao mesmo tempo, compartilhe simultaneamente dados e metadados entre todos os mecanismos, metastores compartilhados (ou seja, catálogo de dados) e mesmo ambiente.

Vários mecanismos de consulta adequados à finalidade. Use a computação adequada à finalidade para otimizar os custos, ao aproveitar o mecanismo certo para a carga de trabalho certa,
Uma arquitetura de data lakehouse que permite o uso de vários mecanismos de consulta para otimizar o custo e o desempenho.

Padrão de lakehouse 2: painel único para todos os seus dados

O data lakehouse permite uma abordagem moderna das arquiteturas de dados atuais, em que as empresas criaram, ao longo dos anos, vários silos de armazenamento de dados para atender a diferentes necessidades, desde data warehouses empresariais (EDW) estruturados e de alto desempenho até data lakes de alto volume, não estruturados/semiestruturados, que, na maioria das vezes, se transformam em pântanos de dados (duplicação, qualidade de dados, falta de governança). Um data lakehouse com o watsonx.data permitirá uma camada única de acesso a uma variedade de armazenamentos de dados por meio de vários mecanismos de consulta, formatos de dados abertos e governança, sem a necessidade de migração de dados.

Painel único para todos os seus dados sem a necessidade de movimentação de dados. Uma arquitetura de data lakehouse para fornecer uma única camada de acesso (painel único) para todos os armazenamentos de dados de uma empresa, incluindo object storage, dados relacionais e data lakes.

Padrão de lakehouse 3: otimize as cargas de trabalho do data warehouse para otimizar o custo

Reduza o custo de armazenamento e, ao mesmo tempo, mantenha os recursos de consulta temporal, aproveitando o armazenamento e a computação baratos do lakehouse e permitindo que vários mecanismos de consulta consumam o mesmo conjunto de dados. Mecanismos de consulta como o Spark permitem realizar consultas de dados Vacuumed/Materialized em seu estado atual (por exemplo, nem todos os dados têm alterações no histórico), o que reduz o tamanho das consultas de dados e o custo de computação das consultas. Além disso, os recursos de pré-processamento e transformações seletivas do lakehouse permitem a distribuição ideal das cargas de trabalho do data warehouse, reduzindo, assim, os custos.

Otimize as cargas de trabalho do data warehouse para otimizar o custo, reduzir o custo de armazenamento e, ao mesmo tempo, manter os recursos de consulta temporal, aproveitando
Uma arquitetura de data lakehouse para minimizar os custos do data warehouse e otimizar o desempenho das consultas do warehouse.

Padrão de lakehouse 4: implementação híbrida multinuvem

Conecte-se e acesse dados remotamente em nuvem híbrida com a capacidade de armazenar fontes remotas em cache.

Conecte-se e acesse dados remotamente em nuvem híbrida com a capacidade de armazenar fontes remotas em cache.
Uma arquitetura de data lakehouse para integrar dados no local e na nuvem entre vários provedores.

Padrão de lakehouse 5: integração de dados do mainframe com o ecossistema analítico

Sincronize e incorpore os dados do Db2 for z/OS para a análise de dados do Lakehouse e execute análise em tempo real no mainframe com dados do VSAM e do Db2. A virtualização de dados sempre consultará os dados diretamente do mainframe com considerações adicionais de carga, enquanto o CDC capturará informações no formato iceberg com base na frequência definida pela administração (sem adicionar carga ao mainframe, mas também sem fornecer dados em tempo real).

Sincronize e incorpore os dados do Db2 for z/OS para a análise de dados do Lakehouse e execute análise em tempo real no mainframe com dados do VSAM e do Db2
Uma arquitetura de data lakehouse que usa um gateway de dados e virtualização de dados para integrar dados do mainframe com dados não provenientes do mainframe.
Outros casos de uso de lakehouses
  • Camada de armazenamento para novos ativos de dados As aplicações modernas geralmente dependem de novos conjuntos de dados e de técnicas avançadas de processamento de dados para oferecer serviços mais eficientes, escaláveis e baseados em dados. O data lakehouse pode fornecer a camada de dados/armazenamento, integração, desempenho, escalabilidade e eficiência de custos necessárias.

  • Prompt e resposta de dados de linguagem natural Data lakehouse (watsonx.data) em conjunto com recursos de IA generativa e grandes modelos de linguagem (LLM) (watsonx.ai) permitem que um analista que não conheça a estrutura técnica das informações e não domine SQL, use prompts de linguagem natural para realizar uma análise cruzada entre os diferentes armazenamentos de dados e obtenha respostas do LLM.
Decisões de arquitetura

Seleção do mecanismo de consulta

A seleção do mecanismo de consulta a ser usado geralmente depende do tipo de dados a serem consultados.

  1. O mecanismo de consulta do Presto é mais adequado para uso com tabelas/buckets Hive e Parquet.
  2. O mecanismo de consulta do Spark é mais adequado para uso quando a programação SCALA é usada em um ambiente Hadoop/Cloudera existente.
  3. O mecanismo de consulta do Db2 é mais adequado para uso com armazenamentos de dados Db2.
  4. O mecanismo de consulta do Netezza é mais adequado para o armazenamento de dados do Netezza
Características de data lakehouses
  1. Gerenciamento de dados: garantir que o data lakehouse sirva como fonte única da verdade é crucial para consistência e confiabilidade em análise de dados e na tomada de decisões.
  2. Integração de dados: a integração de dados de diversas fontes e em vários formatos deve ocorrer sem dificuldades, com compatibilidade com ingestão de dados em lote e em tempo real.
  3. Desempenho das consultas: desempenho de consultas otimizado para compatibilidade com as necessidades de análise de dados e geração de relatórios alinhadas com os SLAs/SLOs empresariais.
  4. Governança de dados: implementações bem-sucedidas de data lakehouses exigem um framework de governança de dados robusto para garantir a qualidade de dados, o gerenciamento de metadados e o rastreamento de linhagem.
  5. Segurança: garanta a criptografia de dados, o controle de acesso e as trilhas de auditoria para atender aos requisitos organizacionais e regulatórios.
  6. Flexibilidade da implementação: a compatibilidade com implementações no local, híbridas e multinuvem oferece flexibilidade e ajuda na otimização de custos e desempenho.
  7. Sensibilidade dos dados: garanta a fácil migração de dados entre diferentes ambientes e, ao mesmo tempo, mantenha a consistência e a integridade dos dados.
  8. Monitoramento e gerenciamento: implemente ferramentas de monitoramento, registro e gerenciamento para ter visibilidade da migração de dados, tempos e taxas de conclusão dos trabalhos e ajuste de desempenho.
Próximas etapas

Fale com nossos especialistas sobre como implementar um padrão de implementação de nuvem híbrida.

Outras maneiras de explorar Centro de arquitetura de nuvem híbrida Modelos e ferramentas de diagramas IBM Well-Architected Framework
Colaboradores

Bryan KyleManav GuptaMihai Criveti, Wissam DibChris Kirby

Atualizado em: 11 de dezembro de 2023