O que é data warehouse?

By Jim Holdsworth , Matthew Kosinski , Alexandra Jonker

O que é um data warehouse?

Um data warehouse agrega dados de várias fontes em um armazenamento de dados central otimizado para consulta e análise. Ele normalmente usa processos de extrair, transformar e carregar (ETL) ou extrair, carregar e transformar (ELT) para limpar, preparar e organizar dados para business intelligence (BI) e outros casos de uso de análise de dados.

Os sistemas de data warehousing podem integrar grandes quantidades de dados de uma ampla variedade de sistemas de origem, incluindo bancos de dados operacionais, sistemas transacionais e plataformas de gerenciamento de relacionamento com o cliente (CRM). Ferramentas de análise de dados de autoatendimento capacitam usuários corporativos a explorar e analisar esses dados para obter insights valiosos.

O conceito de data warehouse surgiu na década de 1980 para integrar dados díspares em um formato consistente para análise. Com o aumento do número de novas fontes de dados, como a World Wide Web, as redes sociais e a Internet das coisas (IoT), a demanda por maior capacidade de armazenamento e análise mais rápida cresceu.

Os data warehouses são configurados e otimizados para análise quase em tempo real, o que significa que normalmente não são ideais para armazenar grandes quantidades de big data bruto não estruturado. À medida que a quantidade de dados em um warehouse cresce, o custo e a complexidade do armazenamento também aumentam. Problemas com latência e desempenho também podem surgir.

Em resposta, outras alternativas mais flexíveis evoluíram, inclusive data warehouses e data lakehouses nativos da nuvem. Para obter mais informações, consulte “data warehouse versus data lakehouse”.

Como funciona o armazenamento de dados?

Os data warehouses geralmente usam uma arquitetura de três camadas projetada para transformar dados para análise de dados:

Camada inferior
Nível intermediário
Nível superior

Camada inferior

Os dados fluem de vários sistemas de origem para um servidor de data warehouse, onde são armazenados. Tradicionalmente, os dados migram por meio de um processo de integração de dados de extração, transformação e carregamento (ETL), que usa automação para limpar e organizar os dados antes de carregá-los no armazém.

Como os data warehouses armazenam principalmente dados estruturados, a transformação de dados ocorre antes do carregamento dos dados. Em vez disso, alguns armazéns modernos usam processos de extração, carregamento e transformação (ELT), que carregam os dados no armazém antes de transformá-los. Esse método é comumente usado em data lakes, que podem armazenar dados não estruturados e semiestruturados sem exigirem formatos padronizados.

Camada intermediária

Essa camada contém o analytics engine, frequentemente alimentado por um sistema de processamento analítico online (OLAP). Embora os bancos de dados relacionais tradicionais (incluindo muitos data warehouses) possam armazenar dados multidimensionais (por exemplo, números de vendas podem ter várias dimensões, como localização, horário e produto), eles não são otimizados para consultas multidimensionais.

Os sistemas OLAP são projetados para consultas complexas de alta velocidade e análises multidimensionais em grandes volumes de dados. Eles usam "cubos" (estruturas de dados multidimensionais baseadas em matrizes) para permitir uma análise mais rápida e flexível em várias dimensões. Os casos de uso comuns são mineração de dados, análise financeira, orçamento e planejamento de previsões.

Diagrama mostrando a estrutura de um cubo OLAP

Um cubo OLAP com dimensões para produtos, regiões de vendas e trimestres

OLAP versus OLTP: sistemas de processamento de transações online (OLTP) capturam e atualizam grandes volumes de transações em tempo real de muitos usuários. Ao contrário, os sistemas OLAP analisam dados que já foram capturados.

Há três tipos de OLAP que podem ser utilizados em um data warehouse:

Processamento analítico online multidimensional (MOLAP): trabalha diretamente com um cubo OLAP multidimensional e normalmente é o tipo mais rápido e prático de análise de dados multidimensionais.
Processamento analítico online relacional (ROLAP): executa a análise de dados multidimensional que opera diretamente nos dados em tabelas relacionais, sem primeiro reorganizá-los em um cubo.
Processamento analítico online híbrido (HOLAP): Funções para criar a divisão ideal de trabalho entre bancos de dados relacionais e multidimensionais em uma única arquitetura OLAP.

Camada superior

A camada final de um data warehouse apresenta uma interface de usuário front-end para relatórios, dashboards e análise de dados ad hoc de dados de negócios. Essas ferramentas de business intelligence de autoatendimento possibilitam que os usuários gerem relatórios com base em dados históricos, visualizem tendências e identifiquem gargalos no fluxo de trabalho sem conhecimento técnico de engenharia de dados.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Modelos de implementação de data warehouse: no local, na nuvem e híbrido

Os data warehouses evoluíram significativamente, passando de sistemas exclusivamente locais para modelos flexíveis de data warehouse em nuvem e híbridos.

Armazéns de dados tradicionais

Historicamente, os data warehouses eram hospedados em locais usando hardware comum. Esses sistemas foram organizados em arquiteturas de processamento paralelo maciço (MPP) ou multiprocessamento simétrico (SMP). Eles também foram entregues como aparelhos autônomos. Essas implementações exigem um investimento considerável. No entanto, podem ser uma escolha forte para organizações em setores com padrões rigorosos de conformidade, segurança de dados ou privacidade de dados.

Data warehouse na nuvem

Atualmente, muitos data warehouses são criados para ser executados na nuvem. Oferecem os benefícios da computação em nuvem como o armazenamento de dados em escala de petabytes, computação e armazenamento altamente escalável e benefício de preços de pagamento conforme o uso. Os data warehouses baseados na nuvem geralmente são oferecidos como uma oferta de software como serviço (SaaS) totalmente gerenciada, eliminando a necessidade de investimento inicial em hardware ou software.

Essa entrega de serviço também reduz os recursos necessários para o gerenciamento de infraestrutura, permitindo que as organizações se concentrem em análise de dados e insights. Os data warehouses baseados na nuvem cresceram em popularidade à medida que as organizações buscam agilidade para escalar e reduzir o espaço ocupado pelo data center no local e os custos da infraestrutura legada.

Cinco equívocos sobre data warehouses na nuvem

Abordagens híbridas

Algumas organizações podem adotar um modelo híbrido que combine o melhor dos data warehouses locais e na nuvem. Essa abordagem possibilita que utilizem a escalabilidade e a flexibilidade da nuvem e, ao mesmo tempo, mantenham o controle sobre cargas de trabalho confidenciais que devem permanecer no local.

Quais são os três esquemas em um data warehouse?

Em um data warehouse, os esquemas definem como os dados são organizados. Há três estruturas de esquema comuns: o esquema em estrela, o esquema em floco de neve e o esquema em galáxia (também chamado de esquema de constelação de fatos).

Esses esquemas são todos modelos de dados dimensionais projetados para otimizar as velocidades de recuperação de dados em sistemas OLAP. Os modelos dimensionais podem aumentar a redundância, facilitando a localização de informações para geração de relatórios e recuperação, além de melhorarem o desempenho das consultas.

Esses esquemas contêm tabelas de fatos e tabelas de dimensões, definidas da seguinte forma:

Tabelas de fatos: armazene dados quantitativos como produtos vendidos ou valores de receita
Tabelas de dimensão: armazene informações contextuais e descritivas de fatos, como datas de venda e categoria do produto

Esquema em estrela

Os esquemas em estrela consistem em uma única tabela de fatos central cercada por tabelas de dimensões. Em um diagrama, a tabela de fatos pode parecer estar no meio de um padrão de estrela. O esquema estrela é considerado o tipo de esquema mais simples e comum, oferecendo aos usuários velocidades de consulta mais rápidas.

Gráfico representando um esquema de estrela

Exemplo de um esquema em estrela

Esquema em floco de neve

Um esquema em floco de neve coloca uma tabela de fatos central no núcleo, com várias tabelas de dimensões normalizadas irradiando para fora, e essas dimensões se estendem ainda mais para outras tabelas de dimensões por meio de relacionamentos muitos-para-um. Esse padrão mais complexo e ramificado pode se assemelhar a um floco de neve. Os esquemas de floco de neve têm baixos níveis de redundância de dados, mas esse benefício vem à custa de um desempenho de consulta mais lento.

Exemplo de um esquema floco de neve

Esquema do comerciais

Assim como uma galáxia contém muitas estrelas, um esquema em galáxia contém vários esquemas de estrelas. Esses esquemas compartilham tabelas de dimensões que são normalizadas para reduzir a redundância. O esquema em galáxia é mais adequado para data warehouses altamente complexos, mas os usuários podem experimentar um desempenho inferior.

Exemplo de um esquema de galáxia

Componentes da arquitetura de data warehouse

Uma arquitetura típica de data warehouse tem vários componentes que trabalham juntos para armazenar, gerenciar, processar e apresentar dados para análise.

Ferramentas ETL/ELT
Camada de API
Camada de dados (ou banco de dados central)
Metadados
Área de testes
Ferramentas de acesso

Ferramentas ETL/ELT

Ferramentas ETL extraem dados de sistemas de origem, os transformam em uma área de preparação e os carregam no data warehouse. No ELT, os dados são transformados após serem carregados no warehouse. Uma ferramenta de estrutura de processamento de dados, como o Apache Spark, pode ajudar a gerenciar a transformação de dados.

ELT versus ETL: qual é a diferença?

Camada de API

Uma camada de conectividade para interfaces de programação de aplicativos (APIs) pode ajudar o armazém a extrair dados e se integrar a sistemas operacionais. As APIs também podem disponibilizar o acesso a ferramentas de visualização e análise avançada.

Camada de dados (ou banco de dados central)

A camada de dados (ou banco de dados central) é o coração do data warehouse. Aqui, o sistema integra e armazena dados de várias fontes, como aplicação de negócios, listas de e-mail, sites ou outros bancos de dados. Pipelines de dados de ETL ou ELT suportam essa camada, e um sistema de gerenciamento de banco de dados relacional (RDBMS) ou plataforma de data warehouse em nuvem a impulsiona. Os recursos internos de governança de dados e segurança podem particionar dados para que os usuários acessem aquilo de que precisam.

Metadados são dados sobre dados, descrevendo os dados que são armazenados em um sistema para torná-los pesquisáveis e utilizáveis para análises. Inclui metadados técnicos (como estrutura de tabela e tipo de dados) e metadados descritivos (como autor, data de criação ou tamanho do arquivo). Os metadados são fundamentais para a eficácia das governança de dados e do gerenciamento de dados.

Área de testes

Alguns data warehouses oferecem uma área de testes, que é um ambiente de teste isolado contendo uma cópia dos dados de produção e das ferramentas de análise relevantes. Analistas de dados e cientistas de dados podem testar novas técnicas analíticas na área de testes sem afetar as operações de warehouse em tempo real.

Ferramentas de acesso

As ferramentas de acesso se conectam a um data warehouse e fornecem uma interface acessível. Usuários corporativos e analistas de dados podem usar dashboards, aplicativos e ferramentas de visualização de dados para interagir com os dados e extrair insights. Exemplos dessas ferramentas incluem o Tableau, Looker e Qlik.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Acessar o episódio

Tipos de data warehouses

Há três tipos principais de data warehouse:

Armazém de dados corporativos (EDW)
Armazenamento de dados operacionais (ODS)
data mart

Data warehouse corporativo (EDW)

Um data warehouse empresarial (EDW) é um data warehouse que atende a toda a empresa. Ele atua como um repositório centralizado de informações de dados históricos para todas as equipes e áreas de assuntos. Um ambiente de data warehousing empresarial também pode incluir um armazenamento de dados operacionais (ODS) e data marts específicos de departamentos.

Armazenamento de dados operacionais (ODS)

Um armazenamento de dados operacionais (ODS) contém o instantâneo mais recente dos dados operacionais. Um ODS é atualizado com frequência, possibilitando o acesso rápido a dados quase em tempo real. As organizações costumam usar um ODS para tomada de decisão operacional do dia a dia e análise em tempo real. Também pode ser uma fonte de dados para um EDW ou outros sistemas de dados.

data mart

Um data mart é um subconjunto de um data warehouse existente (ou outras fontes de dados) e contém dados personalizados para uma linha de negócios ou departamento específico, em vez de toda a empresa. Por exemplo, uma empresa pode ter um data mart alinhado com o departamento de marketing. Esses usuários podem acessar insights mais focados para segmentação de clientes e desempenho de campanhas sem navegar no conjunto de dados corporativos mais amplo.

Data warehouses versus outros tipos de armazenamento de dados

Os termos data warehouse, banco de dados, data lake e data lakehouse às vezes são usados de forma intercambiável, mas há diferenças importantes.

Data warehouses versus data lakes versus data lakehouses

Data warehouse versus banco de dados

Um banco de dados é como um armário de arquivamento construído principalmente para captura automatizada de dados e processamento rápido de transações. Normalmente, serve como o armazenamento de dados focado para uma aplicação específica. Os data warehouses armazenam dados de qualquer número de aplicações em uma organização e são otimizados para análise preditiva de dados e outras análises avançadas.

Data warehouse versus data lake

Um data lake é uma solução de armazenamento de baixo custo para grandes quantidades de dados brutos e utiliza uma abordagem de esquema na leitura em vez de um esquema predefinido. Os data lakes podem armazenar dados estruturados, dados não estruturados e dados semiestruturados, como documentos, vídeos, registros de IoT e postagens em redes sociais.

Eles podem ser construídos em plataformas de big data, como o Apache Hadoop, ou em serviços de cloud object storage, como o Amazon Simple Storage Service (Amazon S3). Normalmente não limpam, validam nem normalizam os dados para análise de dados, como um warehouse faz.

Data lakehouse versus data warehouse

Um data lakehouse combina os pontos fortes de data warehouses e data lakes, oferecendo a flexibilidade de baixo custo de um lake junto com o alto desempenho de um warehouse. Ao combinar as principais características de lakes e warehouses em uma única plataforma de dados, os lakehouses podem acelerar o processamento de grandes volumes de dados estruturados, não estruturados e em tempo real.

Também são compatíveis com cargas de trabalho de aprendizado de máquina, ciência de dados e inteligência artificial (IA) com mais eficiência. Os data lakehouses também podem adicionar funcionalidades como metadados compartilhados e mecanismos de linguagem de consulta estruturada (SQL) distribuídos.

Benefícios do data warehouse

O data warehouse disponibiliza insights e informações para os usuários em toda a organização, oferecendo muitos benefícios, tais como:

Qualidade de dados aprimorada
Suporte para IA e aprendizado de máquina
Suporte aprimorado à decisão

Qualidade de dados aprimorada

Por meio de processos de ELT ou ETL, os data warehouses preparam os dados recebidos antes de serem armazenados no data warehouse. Essa preparação inclui métodos de qualidade de dados, como limpeza, padronização e deduplicação de dados. Políticas e práticas robustas de governança de dados também podem ajudar a garantir a precisão e a integridade de dados para todos os usuários.

Ao integrar dados de alta qualidade em um único armazenamento, as organizações criam uma fonte única da verdade abrangente e confiável, o que ajuda a eliminar silos de dados. Esse repositório central possibilita que os usuários corporativos acessem com confiança os dados pertinentes da organização e os utilizem para a tomada de decisão de negócios. Um data warehouse de nível empresarial pode incluir ainda a compatibilidade com formatos de código aberto, como Apache Iceberg, Parquet e CSV, permitindo, assim, um acesso e compartilhamento de dados ainda maior em toda a empresa.

Suporte para IA e aprendizado de máquina

Data warehouses modernos podem ser compatíveis com vários fluxos de trabalho de IA e aprendizado de máquina, entregando dados limpos e confiáveis. Cientistas de dados podem utilizar dados de warehouses limpos e validados para criar modelos de IA generativa proprietários ou realizar ajuste fino em modelos existentes para melhor atender às suas necessidades de negócios exclusivas.

Um data warehouse preparado para IA deve ser capaz de coletar, limpar, organizar e estruturar dados, além de facilitar o fluxo de dados para plataformas de IA e aprendizado de máquina. No entanto, nem todos os data warehouses modernos são otimizados para cargas de trabalho de IA. Os data lakehouses estão se tornando cada vez mais as plataformas de dados preferidas para a infraestrutura de IA.

Suporte aprimorado a decisões

Um data warehouse centraliza e limpa os dados de diferentes fontes para criar uma fonte única da verdade, oferecendo às organizações uma visão abrangente e confiável dos dados corporativos. As ferramentas de BI de autoatendimento possibilitam que os usuários de toda a empresa acessem e executem consultas analíticas sobre esses dados agregados.

Dessa forma, os data warehouses possibilitam que usuários corporativos de qualquer nível de habilidade técnica descubram e relatem temas, tendências e agregações. Líderes empresariais podem usar esses insights para tomar decisões e previsões mais bem informadas com base em evidências concretas em praticamente todas as áreas da organização, desde processos de negócios até gestão financeira e gestão de estoque.

Casos de uso de data warehouse específicos do setor

Os data warehouses também podem atender a usos específicos do setor, como:

Governo

Os recursos analíticos de um data warehouse podem ajudar os governos a entender melhor fenômenos complexos, como crimes, tendências demográficas e padrões de tráfego.

Setor de saúde

A capacidade de centralizar e analisar dados díspares (como códigos de faturamento e diagnóstico, dados demográficos de pacientes, medicamentos e resultados de exames) pode proporcionar aos prestadores de serviços de saúde um insight mais profundo. Esses insights os ajudam a entender os resultados dos pacientes, melhorar a eficiência operacional e muito mais.

Viagens e hospedagem

As organizações podem usar dados históricos relacionados às escolhas de viagens e acomodações para direcionar com mais precisão a publicidade e as promoções para seus clientes.

Manufatura (IIoT - Industrial IoT)

Grandes empresas de manufatura que geram grandes volumes de dados podem usar soluções de data warehouse para criar data marts personalizados às necessidades de cada departamento.

Perguntas frequentes sobre data warehouses

Preciso de um data warehouse?

Um data warehouse pode ser uma escolha inteligente se sua organização agregar grandes quantidades de dados de múltiplos sistemas operacionais, como aplicações de negócios (BI), sites e outros bancos de dados. É especialmente útil quando você planeja realizar análises históricas complexas com ferramentas ou dashboards de BI.

Como posso otimizar os custos do data warehouse?

Para otimizar custos, procure arquiteturas que separem os recursos de dados e de computação, permitindo que você os escale separadamente. Você também pode usar cloud object storage econômico e gerenciamento de cargas de trabalho impulsionado por IA para distribuição automatizada de recursos. Os formatos de dados abertos facilitam o compartilhamento de dados entre data warehouses e lakehouses , reduzindo custos e complexidade de armazenamento.

Como faço para lidar com problemas de qualidade de dados em um data warehouse?

Processos robustos de ETL/ ELT para limpeza e padronização de dados, políticas sólidas de governança de dados e observabilidade de dados para detectar problemas assim que surgirem podem ajudar a resolver problemas de qualidade de dados . Uma abordagem de "shift left" também pode ajudar a detectar e resolver problemas de qualidade de dados mais próximos da causa raiz, não posteriormente.

Qual a diferença entre um data warehouse e um banco de dados?

Um banco de dados é construído principalmente para o processamento rápido de transações e normalmente serve como armazenamento de dados para uma aplicação específica. Um data warehouse agrega grandes volumes de dados de várias fontes, limpando-os e preparando-os para business intelligence, consultas analíticas e outras análises de dados avançadas.

Quem deve ser o proprietário do data warehouse?

Os engenheiros de dados criam e mantêm a infraestrutura, enquanto um diretor de dados define a estratégia de dados e supervisiona as funções de gerenciamento de dados. Equipes de business intelligence gerenciam camadas semânticas e dashboards, e equipes de governança de dados multifuncionais ajudam a garantir a qualidade e a segurança de dados.

Autores

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

IBM watsonx.data - O único data lakehouse aberto e híbrido

Melhore a precisão da IA com dados estruturados e não estruturados preparados para IA.

O que é um data warehouse?

O que é um data warehouse?

Como funciona o armazenamento de dados?

Camada inferior

Camada intermediária

Camada superior

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Agradecemos sua inscrição!

Modelos de implementação de data warehouse: no local, na nuvem e híbrido

Armazéns de dados tradicionais

Data warehouse na nuvem

Abordagens híbridas

Quais são os três esquemas em um data warehouse?

Esquema em estrela

Esquema em floco de neve

Esquema do comerciais

Componentes da arquitetura de data warehouse

Ferramentas ETL/ELT

Camada de API

Camada de dados (ou banco de dados central)

Área de testes

Ferramentas de acesso

O gerenciamento de dados é o segredo para a IA generativa?

Tipos de data warehouses

Data warehouse corporativo (EDW)

Armazenamento de dados operacionais (ODS)

data mart

Data warehouses versus outros tipos de armazenamento de dados

Data warehouse versus banco de dados

Data warehouse versus data lake

Data lakehouse versus data warehouse

Benefícios do data warehouse

Qualidade de dados aprimorada

Suporte para IA e aprendizado de máquina

Suporte aprimorado a decisões

Casos de uso de data warehouse específicos do setor

Perguntas frequentes sobre data warehouses

Preciso de um data warehouse?

Como posso otimizar os custos do data warehouse?

Como faço para lidar com problemas de qualidade de dados em um data warehouse?

Qual a diferença entre um data warehouse e um banco de dados?

Quem deve ser o proprietário do data warehouse?

Recursos