O que é um data warehouse?
Um data warehouse reúne dados de várias origens diferentes em um único repositório de dados para análise de dados sofisticada e auxílio nas decisões
Assine a newsletter da IBM
plano de fundo azul e preto
O que é um data warehouse?

Um data warehouse ou data warehouse corporativo (EDW) é um sistema que agrega dados de origens diferentes em um armazenamento de dados único, central e consistente para suportar análise de dados, mineração de dados, inteligência artificial (IA) e aprendizado de máquina. Um sistema de data warehouse permite que uma organização execute análise de dados potentes em grandes volumes (petabytes e petabytes) de dados históricos de maneiras que um banco de dados padrão não consegue.

Os sistemas de data warehousing têm sido parte de soluções de inteligência de negócios (BI) por mais de três décadas, mas evoluíram recentemente com o surgimento de novos tipos de dados e métodos de hospedagem de dados. Tradicionalmente, um data warehouse era hospedado localmente, muitas vezes em um computador mainframe, e sua funcionalidade era concentrada em extrair dados de outras origens, limpar e preparar os dados, e carregar e manter os dados em um banco de dados relacional. Mais recentemente, um data warehouse pode ser hospedado em um dispositivo dedicado ou na cloud; a maioria dos data warehouses tem recursos integrados de análise de dados, visualização de dados e ferramentas de apresentação.

Saiba mais sobre as soluções de data warehousing da IBM.

 

Conheça o watsonx.data

Ajuste a escala de cargas de trabalho de IA, para todos os seus dados, em qualquer lugar

Arquitetura de data warehouse

De um modo geral, os data warehouses têm uma arquitetura de três camadas, que consiste em:

  • Camada inferior: a camada inferior consiste em um servidor de data warehouse, geralmente um sistema de banco de dados relacional, que coleta, limpa e transforma dados de várias origens de dados por meio de um processo conhecido como ETL (Extrair, Transformar e Carregar) ou um processo conhecido como ELT (Extrair, Carregar e Transformar).
  • Camada intermediária: a camada intermediária consiste em um servidor OLAP (ou seja, processamento analítico on-line) que permite velocidades rápidas de consulta. Três tipos de modelos OLAP podem ser usados nesta camada, conhecidos como ROLAP, MOLAP e HOLAP. O tipo de modelo OLAP utilizado dependente do tipo de sistema de banco de dados existente.
  • Camada superior: a camada superior é representada por algum tipo de interface com o usuário de front-end ou ferramenta de relatório, que permite que os usuários finais realizem análise de dados ad hoc em seus dados de negócios.
Entendendo OLAP e OLTP em data warehouses

OLAP (que significa processamento de análise on-line) é um software para realizar análises multidimensionais em alta velocidade em grandes volumes de dados de armazenamento de dados unificados e centralizados, como um data warehouse. OLTP, ou processamento de transações on-line, permite a execução em tempo real de grandes volumes de transações de banco de dados por um grande número de pessoas, normalmente pela Internet. A principal diferença entre OLAP e OLTP está no nome: OLAP é analítico por natureza e OLTP é transacional. 

As ferramentas OLAP são projetadas para análise multidimensional de dados em um data warehouse, que contém dados tanto transacionais quanto históricos. Usos comuns de OLAP incluem mineração de dados e outras aplicações de inteligência de negócios, cálculos analíticos complexos e cenários preditivos, bem como funções de relatório de negócios, como análise financeira, orçamento e planejamento baseado em previsão.

O OLTP foi projetado para suportar aplicações orientadas a transações, processando transações recentes da forma mais rápida e precisa possível. Os usos comuns do OLTP incluem caixas eletrônicos, software de comércio eletrônico, processamento de pagamento com cartão de crédito, reservas on-line, sistemas de reservas e ferramentas de manutenção de registros.

Para um detalhamento sobre as diferenças entre essas abordagens, consulte "OLAP vs. OLTP: qual é a diferença?"

Esquemas em data warehouses

Esquemas são formas pelas quais os dados são organizados dentro de um banco de dados ou data warehouse. Existem dois tipos principais de estruturas de esquema, o esquema em estrela e o esquema em floco de neve, que irão impactar o design do seu modelo de dados.

Esquema em estrela: este esquema consiste em uma tabela de fatos que pode ser agregada a uma número de tabelas de dimensão não normalizadas. É considerado o tipo de esquema mais simples e comum, em que seus usuários se beneficiam de suas maiores velocidades de consulta.

Esquema em floco de neve: embora não seja tão amplamente adotado, o esquema em floco de neve é outra estrutura da organização em data warehouses. Neste caso, a tabela de fatos é conectada a um número de tabelas de dimensão normalizadas, sendo que essas possuem tabelas filho. Os usuários de um esquema em floco de neve se beneficiam de seus baixos níveis de redundância de dados, porém em detrimento do desempenho da consulta. 

Data warehouse vs. banco de dados, data lake e data mart

Data warehouse, banco de dados, data lake e data mart são todos termos que tendem a ser usados de forma intercambiável. Embora os termos sejam semelhantes, há diferenças importantes:

Data warehouse vs. data lake
 

Um data warehouse reúne dados brutos a partir de várias origens em um repositório central e estruturado usando esquemas predefinidos projetados para análise de dados. Um data lake é um data warehouse sem os esquemas predefinidos. Como resultado, ele permite mais tipos de análise de dados do que um data warehouse. Os data lakes são comumente criados em plataformas de big data, como o Apache Hadoop.

Assista ao vídeo a seguir para obter mais informações sobre data lakes:

Data warehouse vs. data mart
 

Um data mart é um subconjunto de um data warehouse que contém dados específicos de uma determinada linha de negócios ou departamento. Por conter um subconjunto menor de dados, os data marts permitem que um departamento ou linha de negócios descubra insights especializados mais rapidamente do que possível ao trabalhar com o conjunto mais amplo de dados do data warehouse.

Data warehouse vs. banco de dados
 

Um banco de dados é desenvolvido principalmente para consultas rápidas e processamento de transações, não para análise de dados. Um banco de dados normalmente atua como o armazenamento de dados que se concentra em um aplicativo específico, considerando que um data warehouse armazena dados de qualquer número (ou até mesmo todos) de aplicativos em sua organização.

Um banco de dados se concentra na atualização de dados em tempo real, enquanto um data warehouse tem um escopo mais amplo, capturando dados atuais e históricos para uma análise preditiva, aprendizado de máquina e outros tipos avançados de análise.

Tipos de data warehouses

Data warehouse em cloud
 

Um data warehouse em cloud é um data warehouse desenvolvido especificamente para ser executado na cloud, oferecido aos clientes como um serviço gerenciado. O uso de data warehouses baseados na cloud se tornou mais popular ao longo dos últimos cinco a sete anos, à medida que mais empresas utilizam serviços em nuvem e buscam reduzir a pegada de seu data center local.

Com um data warehouse na cloud, a infraestrutura física do data warehouse é gerenciada pela provadora da cloud, o que significa que o cliente não precisa fazer um investimento inicial em hardware ou software, além de não precisar gerenciar ou manter a solução de data warehouse.

Software de data warehouse (no local/licença)
 

As empresas podem adquirir uma licença de data warehouse e, em seguida, implementar um data warehouse em sua própria infraestrutura no local. Embora isso seja normalmente mais caro do que um serviço de data warehouse na cloud, pode ser uma opção melhor para entidades governamentais, instituições financeiras ou outras organizações que desejam ter mais controle sobre seus dados ou precisam atender a padrões ou regulamentações estritas de segurança e privacidade de dados.

Appliance de data warehouse
 

Um appliance de data warehouse é um pacote configurável pré-integrado de hardware e software, como CPUs, armazenamento, sistema operacional e software de data warehouse, ao qual uma empresa pode conectar sua rede e começar a usar no estado que se encontra. Um appliance de data warehouse reside em algum lugar entre a cloud e as implementações no local em termos de custo inicial, velocidade de implementação, facilidade de escalabilidade e controle de gerenciamento.

Benefícios de um data warehouse

Um data warehouse fornece uma base para:

  • Melhor qualidade de dados: um data warehouse centraliza dados de uma variedade de origens de dados, como sistemas transacionais, bancos de dados operacionais e arquivos simples. Em seguida, ele os limpa, elimina duplicatas e os padroniza para criar uma única origem confiável.
  • Insights de negócios mais rápidos: dados de várias origens limitam a capacidade dos tomadores de decisão de definirem estratégias de negócios com confiança. Data warehouses  permitem a integração de dados, permitindo que usuários corporativos utilizem todos os dados de uma empresa em cada decisão de negócios.
  • Tomada de decisão mais inteligente: um data warehouse suporta funções de BI em grande escala, como mineração de dados (descobrindo padrões ocultos e relacionamentos em dados), inteligência artificial e aprendizado de máquina, ferramentas que profissionais de dados e líderes corporativos podem utilizar para obter evidência concreta para tomar decisões mais inteligentes em praticamente todas as áreas na organização, desde processos de negócios até gerenciamento financeiro e de inventário.
  • Obter e aumentar a vantagem competitiva: todos os itens acima se combinam para ajudar uma organização a encontrar mais oportunidades em dados, mais rapidamente do que é possível utilizando vários armazenamentos de dados.
Soluções relacionadas
Soluções de data warehouse

As soluções de data warehouse da IBM oferecem desempenho e flexibilidade para suportar dados estruturados e não estruturados para cargas de trabalho de análise, incluindo aprendizado de máquina.

Conheças as soluções de data warehouse
Db2 Warehouse on Cloud

Conheça os recursos de um data warehouse na cloud, totalmente gerenciado e flexível, desenvolvido para análise de dados de alto desempenho e IA.

Conheça o Db2 Warehouse on Cloud
IBM® Cloud Cloud Pak for Data System

O IBM® Cloud Pak for Data System é uma plataforma de cloud híbrida tudo-em-um que oferece um ambiente on-premises pré-configurado, controlado e altamente seguro.

Conheça o IBM® Cloud Pak for Data System
Recursos Encontrando o data warehouse corporativo ideal para atender ao desafio de dados e de IA

A IA pode apresentar um número de desafios que os data warehouses corporativos e data marts podem ajudar a superar. Descubra como avaliar o valor total que essa solução pode fornecer.

Como escolher o data warehouse ideal para IA

Para escolher um data warehouse corporativo, as empresas devem considerar o impacto da IA, os diferenciais principais de armazenamento, e a variedade de modelos de implementação. Este e-book ajuda a fazer exatamente isso.

O diferencial dos dados

Um guia para desenvolver uma organização acionada por dados e promover a vantagem corporativa.

Dê o próximo passo

A IBM oferece soluções de appliance de data warehouse integradas, tanto na cloud como on-premises, todas desenvolvidas com base em análise de dados e fundamentos de inteligência artificial otimizados para insight preditivo e tomada de decisões orientada por dados. Todas as três são parte da família de produtos IBM Db2, que oferece um mecanismo SQL comum para simplificar consultas e recursos de aprendizado de máquina que aprimoram o desempenho do gerenciamento de dados.

Conheças as soluções de data warehouse ainda hoje