O que é data warehouse?

vista aerea de um sistema de warehouse comum fazendo alusao a data warehouse

Autores

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

O que é data warehouse?

Data warehouse é um repositório central e consistente que recebe dados de múltiplas fontes e auxilia no armazenamento, preparação e gerenciamento de dados usados para análises, mineração, inteligência artificial (IA) e aprendizado de máquina.

Um data warehouse normalmente usa processos de extração, transformação e carregamento (ETL) ou extração, carregamento e transformação (ELT) para limpar, preparar e organizar dados para inteligência de negócios (BI) e outros casos de uso de análise de dados.

Os sistemas de armazenamento de dados podem realizar ingestão de grandes quantidades de dados de uma ampla variedade de sistemas de origem, incluindo bancos de dados operacionais, sistemas transacionais e plataformas de gerenciamento de relacionamento com o cliente (CRM) . Ferramentas de análise de autoatendimento capacitam usuários corporativos a Explore e analisar esses dados para obter insights.

O conceito de data warehouse surgiu na década de 1980 para integrar dados díspares em um formato consistente para análise. Com o aumento do número de novas fontes de dados, como a World Wide Web, as mídias sociais e a Internet das Coisas (IoT), cresceu a demanda por maior capacidade de armazenamento e análise mais rápida.

Os data warehouses são configurados e otimizados para análise em tempo real, o que significa que normalmente não são ideais para armazenar grandes quantidades de big data brutos e não estruturados. À medida que a quantidade de dados em um armazém cresce, o custo e a complexidade do armazenamento também aumentam. Problemas com latência e desempenho também podem surgir.

Em resposta, outras alternativas mais flexíveis evoluíram, inclusive data warehouses nativos da nuvem e data lakehouses. (Consulte “Data lakehouse vs. data warehouse” para ver mais informações.)

Como funciona um data warehouse?

Os data warehouses geralmente usam uma arquitetura de três camadas projetada para transformar dados para análise:

  • Camada inferior
  • Nível intermediário
  • Nível superior

Camada inferior

Os dados fluem de vários sistemas de origem para um servidor de data warehouse, onde são armazenados. Tradicionalmente, os dados migram por meio de um processo de integração de dados de extração, transformação e carregamento (ETL), que usa automação para limpar e organizar os dados antes de carregá-los no armazém.

Como os data warehouses armazenam principalmente dados estruturados, a transformação de dados ocorre antes do carregamento dos dados. Em vez disso, alguns armazéns modernos usam processos de extração, carregamento e transformação (ELT), que carregam os dados no armazém antes de transformá-los. Esse método é comumente usado em data lakes, que podem armazenar dados não estruturados e semiestruturados sem exigirem formatos padronizados.

Camada intermediária

Essa camada contém o analytics engine, geralmente alimentado por um sistema de processamento analítico online (OLAP) . Embora os bancos de dados relacionais tradicionais — incluindo muitos data warehouse — possam armazenar dados multidimensionais (por exemplo, números de vendas podem ter várias dimensões, como localização, hora e produto), não são otimizados para consultas multidimensionais.

Os sistemas OLAP são projetados para consultas complexas de alta velocidade e análises multidimensionais em grandes volumes de dados. Eles usam "cubos" (estruturas de dados multidimensionais baseadas em matrizes) para permitir uma análise mais rápida e flexível em várias dimensões. Os casos de uso comuns são mineração de dados, análise financeira, orçamento e planejamento de previsões.

Diagrama mostrando a estrutura de um cubo OLAP Um cubo OLAP com dimensões para produtos, regiões de vendas e trimestres

OLAP x OLTP: os sistemas de processamento de transações online (OLTP) capturam e atualizam grandes volumes de transações em tempo real de muitos usuários. Por outro lado, os sistemas OLAP analisam dados que já foram capturados.

Há três tipos de OLAP que podem ser utilizados em um data warehouse:

  • Processamento analítico online multidimensional (MOLAP): trabalha diretamente com um cubo OLAP multidimensional e normalmente é o tipo mais rápido e prático de análise de dados multidimensionais.

  • Processamento analítico online relacional (ROLAP): executa a análise de dados multidimensional que opera diretamente nos dados em tabelas relacionais, sem primeiro reorganizá-los em um cubo.

  • Processamento analítico online híbrido (HOLAP): Funções para criar a divisão ideal de trabalho entre bancos de dados relacionais e multidimensionais em uma única arquitetura OLAP.

Camada superior

A camada final de um data warehouse apresenta uma interface de usuário front-end para relatórios, dashboards e análise de dados ad hoc de dados de negócios. Essas ferramentas de business intelligence de autoatendimento possibilitam que os usuários gerem relatórios com base em dados históricos, visualizem tendências e identifiquem gargalos no fluxo de trabalho sem conhecimento técnico de engenharia de dados.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Agradecemos sua inscrição!

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Modelos de implementação de data warehouse: no local, na nuvem e híbrido

Os data warehouses evoluíram significativamente, passando de sistemas exclusivamente locais para modelos flexíveis de data warehouse em nuvem e híbridos.

Armazéns de dados tradicionais

Historicamente, os data warehouses eram hospedados em locais usando hardware comum. Esses sistemas foram organizados em arquiteturas de processamento paralelo massivo (MPP) ou multiprocessamento simétrico SMP). Eles também foram entregues como aparelhos autônomos. Essas implementações exigem um investimento considerável. No entanto, podem ser uma escolha forte para organizações em setores com padrões rígidos de conformidade, segurança de dados ou privacidade de dados.

Data warehouse na nuvem

Atualmente, muitos data warehouses são criados para rodar na nuvem. Oferecem os benefícios da computação em nuvem como o armazenamento de dados em escala de petabytes, computação e armazenamento altamente escalável e benefício de preços de pagamento conforme o uso. Os data warehouses baseados em nuvem geralmente são oferecidos como uma oferta de software como serviço (SaaS) totalmente gerenciada, eliminando a necessidade de investimento inicial em hardware ou software. Essa prestação de serviços também reduz os recursos necessários para o gerenciamento da infraestrutura, para que as organizações possam se concentrar em análises e insights.

Os data warehouses baseados em nuvem cresceram em popularidade à medida que as organizações buscam agilidade para escalar e reduzir o espaço ocupado pelo data center local e os gastos com infraestrutura legada.

Abordagens híbridas

Algumas organizações podem adotar um modelo híbrido que combine o melhor dos data warehouses locais e na nuvem. Essa abordagem possibilita que utilizem a escalabilidade e a flexibilidade da nuvem e, ao mesmo tempo, mantenham o controle sobre cargas de trabalho confidenciais que devem permanecer no local.

Quais são os três esquemas em um data warehouse?

Em um data warehouse, os esquemas definem como os dados são organizados. Há três estruturas de esquema comuns: o esquema estrela, o esquema floco de neve e o esquema galáctico (também chamado de esquema de constelação de fatos).

Esses esquemas são todos modelos de dados dimensionais projetados para otimizar as velocidades de recuperação de dados em sistemas OLAP. Os modelos dimensionais podem aumentar a redundância, facilitando a localização de informações para relatórios e recuperação, além de melhorarem o desempenho da consulta.

Esses esquemas contêm tabelas de fatos e tabelas de dimensões, definidas abaixo:

  • Tabelas de fatos: armazene dados quantitativos como produtos vendidos ou valores de receita

  • Tabelas de dimensão: armazene informações contextuais e descritivas de fatos, como datas de venda e categoria do produto

Esquema em estrela

Os esquemas em estrela consistem em uma única tabela de fatos central cercada por tabelas de dimensões. Em um diagrama, a tabela de fatos pode parecer estar no meio de um padrão de estrela. O esquema estrela é considerado o tipo de esquema mais simples e comum, oferecendo aos usuários velocidades de consulta mais rápidas.

Gráfico representando um esquema de estrela Exemplo de um esquema em estrela

Esquema em floco de neve

Um esquema de floco de neve tem uma tabela de fatos central conectada a muitas tabelas de dimensões normalizadas, que podem se conectar a outras tabelas de dimensões por meio de relacionamentos muitos para um. Esse padrão mais complexo e ramificado pode se assemelhar a um floco de neve. Os esquemas do Snowflake têm baixos níveis de redundância de dados, mas isso tem o custo de um desempenho de consulta mais lento.

Exemplo de um esquema floco de neve Exemplo de um esquema floco de neve

Esquema do comerciais

Assim como nossa galáxia contém muitas estrelas, um esquema de galáxia contém muitos esquemas estrela que compartilham tabelas de dimensão normalizadas para evitar redundância. O esquema de data warehouse é mais adequado para data warehouses altamente complexos, mas os usuários podem experimentar um desempenho inferior.

Exemplo de um esquema de galáxia Exemplo de um esquema de galáxia

Componentes da arquitetura de data warehouse

Uma arquitetura típica de data warehouse tem vários componentes que trabalham juntos para armazenar, gerenciar, processar e apresentar dados para análise.

  • Ferramentas ETL/ELT
  • Camada de API
  • Camada de dados (ou banco de dados central)
  • Metadados
  • Área de testes
  • Ferramentas de acesso

Ferramentas ETL/ELT

Ferramentas ETL extraem dados de sistemas de origem, os transformam em uma área de preparação e os carregam no data warehouse. No ELT, os dados são transformados após serem carregados no warehouse. Uma ferramenta de estrutura de processamento de dados, como o Apache Spark, pode ajudar a gerenciar a transformação de dados.

Camada de API

Uma camada de conectividade para interfaces de programação de aplicativos (APIs) pode ajudar o armazém a extrair dados e se integrar a sistemas operacionais. As APIs também podem disponibilizar o acesso a ferramentas de visualização e análise avançada.

Camada de dados (ou banco de dados central)

A camada de dados (ou banco de dados central) é o coração do data warehouse. Aqui, o sistema integra e armazena dados de várias fontes, como aplicação de negócios, listas de e-mail, sites ou outros bancos de dados. Essa camada é suportada por pipelines de dados ETL ou ELT e usa um sistema de gerenciamento de banco de dados relacional (RDBMS) ou plataforma de data warehouse em nuvem. Os recursos internos de gestão de dados e segurança de dados podem particionar dados para que os usuários acessem apenas o que precisam.

Metadados são dados sobre dados, descrevendo os dados que são armazenados em um sistema para torná-los pesquisáveis e utilizáveis para análises. Inclui metadados técnicos (como estrutura de tabela e tipo de dados) e metadados descritivos (como autor, data de criação ou tamanho do arquivo). Os metadados são fundamentais para a eficácia das governança de dados e do gerenciamento de dados.

Área de testes

Alguns data warehouses oferecem uma área de testes, que é um ambiente de teste isolado contendo uma cópia dos dados de produção e das ferramentas de análise relevantes. Analistas e cientistas de dados podem experimentar novas técnicas analíticas na área de testes sem afetar as operações do data warehouse para outros usuários.

Ferramentas de acesso

As ferramentas de acesso se conectam a um data warehouse para apresentar uma interface amigável aos usuários corporativos. Usuários de negócios e analistas de dados podem usar painéis, aplicativos e ferramentas de visualização de dados para interagir com os dados e extrair insights. Exemplos dessas ferramentas são Tableau, Looker e Qlik.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Tipos de data warehouses

Há três tipos principais de data warehouse:

  • Armazém de dados corporativos (EDW)
  • Armazenamento de dados operacionais (ODS)
  • data mart

Data warehouse corporativo (EDW)

Um data warehouse empresarial (EDW) é um data warehouse que atende toda a empresa. Ele atua como um repositório centralizado de informações de dados históricos para todas as equipes e áreas temáticas. Um ambiente de armazenamento de dados corporativo também pode incluir um armazenamento de dados operacionais (ODS) e data marts específicos do departamento.

Armazenamento de dados operacionais (ODS)

Um armazenamento de dados operacionais (ODS) contém o instantâneo mais recente dos dados operacionais. Um ODS é atualizado com frequência, possibilitando o acesso rápido a dados quase em tempo real. As organizações costumam usar um ODS para tomada de decisões operacionais do dia a dia e análise em tempo real. Também pode ser uma fonte de dados para um EDW ou outros sistemas de dados.

data mart

Um data mart é um subconjunto de um data warehouse existente (ou outras fontes de dados) e contém dados personalizados para uma linha de negócios ou departamento específico, em vez de toda a empresa. Por exemplo, uma empresa pode ter um data mart alinhado com o departamento de marketing. Esses usuários podem acessar insights mais focados para segmentação de clientes e desempenho de campanha sem navegar no conjunto de dados corporativos mais amplo.

Data warehouses vs. outros tipos de armazenamento de dados

Os termos data warehouse, banco de dados, data lake e data lakehouse às vezes são usados de forma intercambiável, mas há diferenças importantes.

Data warehouse vs. banco de dados

Um banco de dados é como um armário de arquivamento construído principalmente para captura automatizada de dados e processamento rápido de transações. Normalmente, serve como o armazenamento de dados focado para uma aplicação específica. Os data warehouses armazenam dados de qualquer número de aplicações em uma organização e são otimizados para análise preditiva de dados e outras análises avançadas.

Data warehouse vs. data lake

 Data lake é uma solução de armazenamento de baixo custo para grandes quantidades de dados brutos e utiliza uma abordagem de esquema na leitura em vez de um esquema predefinido. Os data lakes geralmente contêm dados não estruturados e semiestruturados, como documentos, vídeos, registros da Internet das coisas (IOT) e postagens em redes sociais.

Eles podem ser construídos em plataformas de big data, como o Apache Hadoop, ou em serviços de armazenamento de objetos em nuvem, como o Amazon Simple Storage Service (Amazon S3). Normalmente não limpam, validam nem normalizam os dados para análise, como um warehouse faz.

Data lakehouse vs. data warehouse

Um data lakehouse mescla aspectos de data warehouses e data lakes — a saber, a flexibilidade de baixo custo de um data lake e o alto desempenho de um data warehouse. Combinando os principais recursos de lakes e warehouses em uma única solução de dados, os lakehouses podem ajudar a acelerar o processamento de dados de grandes quantidades de fluxos de dados estruturados, não estruturados e em tempo real para dar suporte a cargas de trabalho de aprendizado de máquina, ciência de dados e inteligência artificial (IA).

Os data lakehouses também podem adicionar funcionalidades como metadados compartilhados e mecanismos de linguagem de consulta estruturada (SQL) distribuídos.

Benefícios do data warehouse

O data warehouse disponibiliza insights e informações para os usuários em toda a organização, oferecendo muitos benefícios, tais como:

  • Qualidade de dados aprimorada
  • Suporte para IA e aprendizado de máquina
  • Suporte aprimorado à decisão

Qualidade de dados aprimorada

Por meio de processos de ELT ou ETL, os data warehouses preparam os dados recebidos antes de serem armazenados no data warehouse. Essa preparação inclui métodos de qualidade de dados, como limpeza, padronização e deduplicação de dados. Políticas e práticas robustas de governança de dados também podem ajudar a garantir a precisão e a integridade dos dados para todos os usuários.

Ao integrar dados de alta qualidade em um único armazenar, as organizações criam uma fonte única da verdade abrangente e confiável, o que ajuda a eliminar silos de dados. Esse repositório central possibilita que os usuários corporativos acessem com confiança todos os dados pertinentes da organização e os utilizem para a tomada de decisões comerciais. Um data warehouse empresarial de primeira linha pode incluir ainda o suporte a formatos de fonte aberta, como Apache Iceberg, Parquet e CSV, permitindo assim um compartilhamento ainda maior de dados em toda a empresa.

Suporte para IA e aprendizado de máquina

Data warehouses modernos podem oferecer suporte a vários fluxos de trabalho de IA e aprendizado de máquina, entregando dados limpos e confiáveis. Podem utilizar dados de armazém limpos e validados para criar modelos de IA proprietários ou realizar ajuste fino em modelos existentes para melhor atender às suas necessidades comerciais exclusivas.

Um data warehouse pronto para IA deve ser capaz de coletar, limpar, organizar e estruturar dados, além de facilitar o fluxo de dados para plataformas de IA e aprendizado de máquina. No entanto, nem todos os data warehouses modernos são otimizados para cargas de trabalho de IA. Os data lakehouses estão se tornando cada vez mais as plataformas de dados preferidas para a infraestrutura de IA.

Suporte aprimorado a decisões

Um data warehouse centraliza e limpa os dados de diferentes fontes para criar uma fonte única da verdade, oferecendo às organizações uma visão abrangente e confiável dos dados corporativos. As ferramentas de BI de autoatendimento possibilitam que os usuários de toda a empresa acessem e executem consultas analíticas sobre esses dados agregados.

Dessa forma, os data warehouses possibilitam que usuários corporativos de qualquer nível de habilidade técnica descubram e relatem temas, tendências e agregações. Líderes empresariais podem usar esses insights para tomar decisões e previsões mais bem informadas com base em evidências concretas em praticamente todas as áreas da organização, desde processos de negócios até gestão financeira e gestão de estoque.

Casos de uso de data warehouse específicos do setor

Os data warehouses também podem atender a usos específicos do setor, como:

Governo

Os recursos analíticos de um data warehouse podem ajudar os governos a entender melhor fenômenos complexos, como crimes, tendências demográficas e padrões de tráfego.

Setor de saúde

Saúde: a capacidade de centralizar e analisar dados diversos, como códigos de faturamento e diagnóstico, dados demográficos de pacientes, medicamentos e resultados de exames, pode ajudar hospitais a obterem insights sobre resultados clínicos, eficiências operacionais e muito mais.

Viagens e hospedagem

As organizações podem usar dados históricos relacionados às escolhas de viagens e acomodações para direcionar com mais precisão a publicidade e as promoções para seus clientes.

Manufatura (IIoT - Industrial IoT)

Grandes empresas de manufatura que geram grandes volumes de dados podem usar soluções de data warehouse para criar data marts personalizados às necessidades de cada departamento.

Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data