Um data lakehouse é uma plataforma de dados que mescla os melhores aspectos de data warehouses e data lakes em uma única solução de gerenciamento de dados.
O data lakehouse e a arquitetura de governança da IBM para ambientes de nuvem híbrida estão ancorados em sua plataforma watsonx.data. Esse data lakehouse híbrido e aberto permite que as empresas escalem a análise de dados e a IA, fornecendo um armazenamento de dados robusto construído em uma arquitetura de data lakehouse aberta. A arquitetura funde as características de desempenho e usabilidade de um data warehouse com a flexibilidade e escalabilidade de um data lake, oferecendo uma solução equilibrada para tarefas de gerenciamento e análise de dados.
A plataforma watsonx.data é oferecida como oferta de SaaS e solução no local. Para clientes em uma região sem uma oferta de SaaS, ou que exija que a plataforma Lakehouse permaneça no local devido a restrições regulatórias ou de outros tipos, a IBM oferece flexibilidade por meio das seguintes opções de implementação para habilitar recursos de data lakehouse em qualquer lugar:
Data lakehouse - O watsonx.data é a arquitetura de armazenamento de dados de última geração que equilibra os recursos de data lake e data warehouses. Isso é fundamental para a abordagem de data lakehouse da IBM, facilitando o escalonamento de cargas de trabalho de IA e aprendizado de máquina (ML) e, ao mesmo tempo, garantindo uma governança de dados eficiente.
Plataforma de IA generativa - O data lakehouse pode ser conectado a uma plataforma de IA generativa para aumentar as consultas com LLMs. Os usuários podem inserir um prompt, que é enviado a um LLM que recebeu ajuste fino para gerar consultas de recuperação que podem ser executadas pelos mecanismos compatíveis com o data lakehouse.
Padrão de lakeouse 1: vários mecanismos de consulta adequados à finalidade
Use computação adequada à finalidade para otimizar custos, ao aproveitar o mecanismo certo para a carga de trabalho certa e, ao mesmo tempo, compartilhe simultaneamente dados e metadados entre todos os mecanismos, metastores compartilhados (ou seja, catálogo de dados) e mesmo ambiente.
Padrão de lakehouse 2: painel único para todos os seus dados
O data lakehouse permite uma abordagem moderna das arquiteturas de dados atuais, em que as empresas criaram, ao longo dos anos, vários silos de armazenamento de dados para atender a diferentes necessidades, desde data warehouses empresariais (EDW) estruturados e de alto desempenho até data lakes de alto volume, não estruturados/semiestruturados, que, na maioria das vezes, se transformam em pântanos de dados (duplicação, qualidade de dados, falta de governança). Um data lakehouse com o watsonx.data permitirá uma camada única de acesso a uma variedade de armazenamentos de dados por meio de vários mecanismos de consulta, formatos de dados abertos e governança, sem a necessidade de migração de dados.
Padrão de lakehouse 3: otimize as cargas de trabalho do data warehouse para otimizar o custo
Reduza o custo de armazenamento e, ao mesmo tempo, mantenha os recursos de consulta temporal, aproveitando o armazenamento e a computação baratos do lakehouse e permitindo que vários mecanismos de consulta consumam o mesmo conjunto de dados. Mecanismos de consulta como o Spark permitem realizar consultas de dados Vacuumed/Materialized em seu estado atual (por exemplo, nem todos os dados têm alterações no histórico), o que reduz o tamanho das consultas de dados e o custo de computação das consultas. Além disso, os recursos de pré-processamento e transformações seletivas do lakehouse permitem a distribuição ideal das cargas de trabalho do data warehouse, reduzindo, assim, os custos.
Padrão de lakehouse 4: implementação híbrida multinuvem
Conecte-se e acesse dados remotamente em nuvem híbrida com a capacidade de armazenar fontes remotas em cache.
Padrão de lakehouse 5: integração de dados do mainframe com o ecossistema analítico
Sincronize e incorpore os dados do Db2 for z/OS para a análise de dados do Lakehouse e execute análise em tempo real no mainframe com dados do VSAM e do Db2. A virtualização de dados sempre consultará os dados diretamente do mainframe com considerações adicionais de carga, enquanto o CDC capturará informações no formato iceberg com base na frequência definida pela administração (sem adicionar carga ao mainframe, mas também sem fornecer dados em tempo real).
A seleção do mecanismo de consulta a ser usado geralmente depende do tipo de dados a serem consultados.