Minha IBM Efetue login Inscreva-se

Atualizado: 11 de outubro de 2024 
Colaboradores
: Jim Holdsworth e Matthew Kosinski

O que é um data warehouse?

O que é um data warehouse?

Um data warehouse é um sistema que agrega dados de diversas fontes em um único e consistente armazenamento de dados. Os data warehouses ajudam a preparar dados para iniciativas de análise de dados, business intelligence (BI), mineração de dados, aprendizado de máquina (ML) e inteligência artificial (IA).

 

Um sistema de data warehouse de nível empresarial possibilita que uma organização execute análises poderosas em grandes quantidades de dados (petabytes e mais) de maneiras que um banco de dados comum não pode. Os dados podem ser estruturados, semiestruturados ou não estruturados. Os dados podem alimentar um warehouse a partir de vários bancos de dados, incluindo sistemas de gerenciamento de relacionamento com o cliente (CRM), inventário, ponto de venda (POS) e cadeia de suprimentos.

Os sistemas de armazenamento de dados, também conhecidos como sistemas de data warehouse corporativo (EDW), apoiam os esforços de business intelligence há mais de três décadas. Suas funções se concentram em extrair dados de outras fontes, limpar e preparar os dados e carregar e manter os dados, muitas vezes em um banco de dados relacional.

Tradicionalmente, um data warehouse era hospedado no local, geralmente em um mainframe. Hoje, muitos data warehouses são hospedados na nuvem e entregues como serviços de nuvem. 

Evolução do data warehouse

Evolução do data warehouse

Os data warehouses surgiram na década de 1980 para otimizar a análise de dados, disponibilizando dados transacionais integrados em um formato consistente. À medida que o poder dos aplicativos de negócios cresceu e novas fontes de dados explodiram, incluindo a World Wide Web, as redes sociais e a Internet das Coisas (IoT), a necessidade de maior armazenamento e análises mais rápidas cresceu.

À medida que o data warehouse evoluiu para suportar maiores volumes e dados mais granulares, mais equipes dentro das organizações solicitaram acesso direto aos dados para funções de análise de autoatendimento.  

Muitas organizações perceberam que seus data warehouses legados não conseguiriam gerenciar essas novas e enormes cargas de trabalho. E como muitos data warehouses armazenam apenas dados estruturados, a riqueza da análise pode ser limitada. Em resposta, outras alternativas mais flexíveis evoluíram, inclusive data warehouses nativos da nuvem e data lakehouses. (Consulte “Data lakehouse vs. data warehouse” para obter mais informações.) 

Arquitetura de data warehouse

Arquitetura de data warehouse

Para processar dados de forma rápida e eficiente, os data warehouses geralmente utilizam uma arquitetura de três camadas.

Camada inferior


Essa camada é onde os dados fluem de fontes de dados díspares para um servidor de data warehouse, onde são armazenados. Os dados são frequentemente migrados por meio de um processo conhecido como extrair, transformar, carregar (ETL) ou, às vezes, um processo conhecido como extrair, carregar, transformar (ELT). Esses processos são executados de diversas maneiras, mas ambos utilizam automação para migrar dados para um warehouse e prepará-los para uso em análise de dados.

Nível intermediário


Essa camada é tradicionalmente construída em torno de um Analytics Engine, geralmente um sistema de processamento analítico online (OLAP) projetado para informar análises rápidas e velocidades de consulta. Três tipos de modelos OLAP podem ser usados nesta camada:

  • Processamento analítico online relacional (ROLAP), que possibilita a análise de dados multidimensionais de bancos de dados relacionais.

  • Processamento analítico online multidimensional (MOLAP), que utiliza mecanismos de armazenamento multidimensionais baseados em array para criar visualizações multidimensionais de dados.

  • Processamento analítico online híbrido (HOLAP), que mescla os recursos ROLAP e MOLAP.

O tipo de modelo OLAP utilizado depende do tipo de sistema de banco de dados que está sendo utilizado.

Nível superior


Essa camada inclui uma interface de usuário front-end ou uma ferramenta de relatórios que possibilita aos usuários realizar análises de dados ad hoc em seus dados de negócios. A business intelligence de autoatendimento tem múltiplas aplicações, como a geração de relatórios com base em dados históricos, a identificação de novas oportunidades ou a identificação de gargalos de processos.

Conheça OLTP e OLAP

Conheça OLTP e OLAP

A maioria dos data warehouses utiliza sistemas OLAP para dar suporte à análise de dados. O software OLAP realiza análises multidimensionais em alta velocidade em grandes volumes de dados de um armazenamento de dados unificado e centralizado, como um data warehouse.

Um corpo de dados de negócios geralmente apresenta várias dimensões. Por exemplo, os números de vendas podem conter várias dimensões relacionadas à localização (região, país e armazenar), tempo (ano, mês, semana e dia) ou produto (marca, tipo).

Em um banco de dados relacional tradicional, os dados são organizados em tabelas de linhas e colunas que só podem representar duas dessas dimensões por vez, uma dimensão na linha e uma dimensão na coluna. Isso pode tornar a análise complicada.

No entanto, os sistemas OLAP permitem que os usuários analisem dados em várias dimensões de uma só vez, possibilitando um processamento mais rápido e uma análise mais inteligente. Os usos comuns do OLAP incluem mineração de dados e aplicações de business intelligence, cálculos analíticos complexos, cenários preditivos, além de orçamento e previsões.

OLAP é diferente de processamento transacional online ou OLTP. Os sistemas OLTP acompanham um grande número de transações, por um grande número de usuários, em tempo real. A principal diferença entre OLTP e OLAP é que os sistemas OLTP são projetados principalmente para capturar dados, enquanto os sistemas OLAP analisam dados que já foram capturados.

Os sistemas OLTP geralmente utilizam bancos de dados relacionais para registrar transações como:

  • Transações bancárias e em caixas eletrônicos
  • Comércio eletrônico e compras em lojas
  • Reservas de hotéis e companhias aéreas

Embora os data warehouses geralmente não envolvam sistemas OLTP, os dados registrados em bancos de dados por sistemas OLTP são normalmente alimentados no warehouse, onde um sistema OLAP possibilita a análise.

OLAP x OLTP: Qual é a diferença?
Esquemas em data warehouses

Esquemas em data warehouses

Os esquemas de banco de dados definem como os dados são organizados dentro de um banco de dados ou data warehouse. Há dois tipos principais de estruturas de esquema utilizadas em data warehouses: o esquema estrela e o esquema de floco de neve.

O esquema em estrela e em floco de neve são modelos de dados dimensionais projetados para otimizar a velocidade de recuperação de dados. Os modelos dimensionais aumentam a redundância para facilitar a localização de informações para relatórios e recuperação. Essa modelagem é normalmente utilizada em sistemas OLAP.

Esquema de estrela

 

Esse esquema consiste em uma tabela de fatos (que contém itens mensuráveis, como produtos vendidos e valores monetários de vendas) unidas a tabelas de dimensão (ou seja, informações de referência que mostram como os fatos podem ser agrupados e organizados, como datas de venda e setor vendido para ).

Em um diagrama, a tabela de fatos pode parecer estar no meio de um padrão de estrela. O esquema em estrela é considerado o tipo de esquema mais simples e comum e seus usuários se beneficiam de suas velocidades mais rápidas durante as consultas.

Esquema floco de neve

 

Embora não seja tão amplamente adotado, o esquema floco de neve é outra estrutura organizacional utilizada em data warehouses. Neste caso, a tabela de fatos está conectada a várias tabelas de dimensão normalizadas contendo dados descritivos sobre os fatos na tabela de fatos central. Essas tabelas de dimensões também têm tabelas filhas.

Esse padrão mais complexo e ramificado pode se assemelhar a um floco de neve. Os usuários de um esquema floco de neve se beneficiam de seus baixos níveis de redundância de dados, mas isso tem o custo de diminuir o desempenho da consulta. 

Componentes da arquitetura de data warehouse

Componentes da arquitetura de data warehouse

A maioria dos data warehouses é construída em torno de um sistema de banco de dados relacional, seja localmente ou na nuvem, onde os dados são armazenados e processados. Um data warehouse típico tem componentes tais como:

  • Camada de dados (ou banco de dados central)
  • Ferramentas de acesso
  • Ferramentas de extração, transformação, carregamento (ETL)
  • Metadados
  • Ambiente de simulação
  • Camada de API

Camada de dados (ou banco de dados central)

A camada de dados, ou banco de dados central, é o coração do data warehouse e é suportada por todos os outros componentes. Os dados podem ser input de aplicações de negócios, listas de e-mail, sites ou quaisquer outros bancos de dados relacionais. Os dados são fisicamente armazenados em um servidor ou conjunto de servidores.

A camada de dados pode particionar segmentos de dados para os usuários acessarem somente os dados de que precisam. Por exemplo, a equipe de vendas normalmente não teria acesso aos dados da equipe de RH e vice-versa.

Normalmente, os data warehouses têm recursos de governança de dados e segurança de dados incorporados, de modo que as organizações não precisam fazer muito trabalho de engenharia de dados personalizados para incluir esses recursos. As organizações talvez precisem atualizar os princípios de governança de dados e as medidas de segurança ao longo do tempo, à medida que novos dados de diferentes fontes são adicionados ao warehouse.

Ferramentas de acesso

As ferramentas de acesso se conectam a um data warehouse para apresentar uma interface amigável aos usuários corporativos. Isso pode incluir dashboards, relatórios e ferramentas de visualização de dados que permitem que analistas de dados e usuários corporativos interajam com os dados e extraiam insights. Exemplos dessas ferramentas são Tableau, Looker e Qlik.

Ferramentas de extração, transformação, carregamento (ETL)

As ferramentas de ETL ajudam a migrar dados de uma fonte de dados para o data warehouse. Os dados são primeiro "extraídos" de sua fonte, migrados para uma área de preparação onde são limpos e preparados (ou "transformados") e, em seguida, "carregados" em um armazém.

As ferramentas de ETL convertem dados em um formato uniforme para serem analisados e consultados com eficiência quando estiverem dentro do warehouse. Por exemplo, os dados podem ser extraídos de vários bancos de dados de clientes e depois transformados em um formato comum para todos os registros de clientes terem os mesmos campos.

Uma ferramenta de estrutura de processamento de dados, como o Apache Spark, pode ajudar a gerenciar a transformação de dados.

Como um data warehouse armazena principalmente dados estruturados, os dados geralmente são transformados antes de serem migrados para o depósito. Embora alguns armazéns possam utilizar um processo de extração, carregamento e transformação (ELT), que carrega dados no depósito antes de transformá-los, esse processo é mais comumente utilizado em data lake, que não exige formatos de dados padronizados. (Consulte "Data lake vs. data warehouse" para obter mais informações.)

Metadados

Metadados são dados sobre dados. Basicamente, descreve os dados armazenados em um sistema para torná-los pesquisáveis. Os metadados contêm características como autores, datas ou locais dos artigos, datas de criação e tamanhos de arquivo. Os metadados e seu sistema de gerenciamento ajudam a organizar os dados e torná-los utilizáveis para análise.

Ambiente de simulação

Alguns data warehouses oferecem uma área de testes isolada dos dados em tempo real. Podem ser utilizados como um ambiente de teste, contendo uma cópia dos dados de produção e ferramentas de análise e visualização relevantes. Analistas e cientistas de dados podem experimentar novas técnicas analíticas na área de testes sem afetar as operações do data warehouse para outros usuários.

Camada de API

Uma camada de conectividade para interfaces de programação de aplicativos (APIs) pode ajudar o warehouse a extrair dados de fontes organizacionais e dar acesso a ferramentas de visualização e análise.

Data warehouses vs. outros tipos de armazenamento de dados

Data warehouses vs. outros tipos de armazenamento de dados

Os termos data warehouse, banco de dados, data lake, data mart e data lakehouse às vezes são utilizados de forma intercambiável. Embora esses sistemas sejam semelhantes, há diferenças importantes.

Banco de dados vs. data warehouse

Um banco de dados é como um gabinete de arquivamento criado principalmente para consultas rápidas e processamento de transações, mas não para análises. Um banco de dados normalmente serve como armazenamento de dados focado em um aplicativo específico, enquanto um data warehouse armazena dados de qualquer número de aplicativos em uma organização.

Um banco de dados concentra-se na captura de dados em tempo real, enquanto um data warehouse tem um escopo mais amplo, capturando dados históricos, mas às vezes dados atuais, para análise preditiva de dados, aprendizado de máquina e outras análises avançadas.

Data lake vs. data warehouse

Um data lake é uma solução de armazenamento para grandes quantidades de dados brutos sem esquema predefinido. Os data lakes geralmente contêm dados não estruturados e semiestruturados, como documentos, vídeos, registros da Internet das coisas (IOT) e postagens em redes sociais. Eles são comumente construídos em plataformas de big data como o Apache Hadoop.

Os data lakes são principalmente projetados para oferecer armazenamento de baixo custo para grandes quantidades de dados. Para manter os custos de armazenamento baixos, eles normalmente não transformam dados ou otimizam para análise de dados, como um warehouse faz.

Data mart vs. data warehouse

Um data mart é um tipo de data warehouse que contém dados específicos de uma linha de negócios ou departamento particular, em vez de uma empresa inteira.

Como os data marts contêm um subconjunto menor de dados, eles permitem que um departamento ou linha de negócios descubra mais insights focados com maior rapidez do que é possível quando se trabalha com o conjunto de dados mais amplo do data warehouse.

Por exemplo, uma equipe de marketing pode utilizar um data mart para definir dados demográficos de destino ideais, enquanto uma equipe de produto pode utilizar um para analisar padrões de estoque.

Data lakehouse vs. data warehouse

Um data lakehouse é uma plataforma de dados que mescla aspectos de data warehouses e data lakes, ou seja, a flexibilidade de um lago e o alto desempenho de um depósito, em uma única solução de gerenciamento de dados. Os data lakehouses também podem adicionar recursos como metadados compartilhados, mecanismos de linguagem de consulta estruturada distribuída (SQL) e controles integrados de governança e segurança.

O advento das tecnologias de código aberto e o desejo de reduzir a duplicação de dados e os pipelines ETL complexos levaram ao desenvolvimento do data lakehouse. Combinando as características principais de lakes e warehouses em uma única solução de dados, os lakehouses podem ajudar a acelerar o processamento de dados e a oferecer suporte a aprendizado de máquina, ciência de dados e cargas de trabalho de IA.

Tipos de data warehouses

Tipos de data warehouses

Data warehouse na nuvem

Um data warehouse baseado em nuvem é criado para ser executado na nuvem. Ele frequentemente oferecido às organizações como serviço de armazenamento de dados gerenciado, no qual a infraestrutura do data warehouse é gerenciada pela empresa de nuvem. A organização não precisa fazer um investimento inicial em hardware ou software, nem precisa gerenciar seu próprio sistema. Os serviços de nuvem geralmente também oferecem preços flexíveis.

Os data warehouses baseados na nuvem têm se tornado mais populares à medida que mais organizações utilizam serviços de computação em nuvem e buscam reduzir suas pegadas de data center no local.

Armazém de dados local ou licenciado

Uma empresa pode comprar uma licença de data warehouse e, em seguida, implantar o armazém de dados como sua própria infraestrutura local. Embora isso geralmente seja mais caro do que um serviço de data warehouse na nuvem, pode ser uma boa opção para entidades do governo, instituições financeiras ou outras organizações que desejam maior controle sobre seus dados ou precisam cumprir padrões rigorosos de segurança ou privacidade de dados.

Appliance de data warehouse 

Um appliance de data warehouse é um pacote previamente integrado de hardware e software, geralmente contém unidades centrais de processamento (CPUs), armazenamento, sistema operacional e software de data warehouse que uma empresa pode conectar à sua rede e começar a utilizar como está.

Em termos de custo inicial, velocidade de implementação, facilidade de escalabilidade e controle de gerenciamento de dados, um appliance de data warehouse normalmente fica entre a nuvem e as implementações locais.

Casos de uso para data warehouses

Casos de uso para data warehouses

Um data warehouse pode disponibilizar insights e informações para equipes de toda a organização com autoatendimento rápido, possibilitando múltiplos casos de uso.

  • IA e aprendizado de máquina
  • Business intelligence
  • Integração de dados
  • Usos específicos do setor

IA e aprendizado de máquina

Os data warehouses podem oferecer suporte a vários aplicativos de IA e aprendizado de máquina. Os cientistas de dados podem analisar dados históricos para desenvolver algoritmos preditivos. Podem ensinar aplicativos de aprendizado de máquina a detectar padrões, como atividades suspeitas de contas que podem indicar fraude. Podem utilizar dados de armazém limpos e validados para criar modelos de IA proprietários ou realizar ajuste fino em modelos existentes para melhor atender às suas necessidades comerciais exclusivas.

Business intelligence

Um data warehouse de nível corporativo pode possibilitar que milhares de usuários acessem e executem ferramentas de análise simultaneamente. Como os dados são armazenados separados dos bancos de dados operacionais e em formato mais eficiente, os usuários podem executar suas próprias consultas de business intelligence de autoatendimento sem reduzir a velocidade de outros sistemas importantes.

Integração de dados

Os data warehouses podem ajudar a consolidar dados isolados por meio de pipelines de ETL que automatizam a limpeza e a integração. Isso ajuda a acelerar as consultas e o processamento, além de permitir que mais usuários acessem os dados.

Um data warehouse empresarial de primeira linha pode incluir ainda o suporte a formatos de fonte aberta, como Apache Iceberg, Parquet e CSV, permitindo assim um compartilhamento ainda maior de dados em toda a empresa.

Usos específicos do setor

Os data warehouses também podem atender a usos específicos do setor, como:

  • Governo: os recursos analíticos de um data warehouse podem ajudar os governos a entender melhor fenômenos complexos, como crime, tendências demográficas e padrões de tráfego.

  • Saúde: a capacidade de centralizar e analisar dados díspares, como códigos de faturamento e diagnóstico, demografia de pacientes, medicamentos e resultados de testes, pode ajudar os hospitais a ter insights sobre os resultados dos pacientes, a eficiência operacional e outras informações.

  • Hotelaria e transporte: as organizações podem utilizar dados de históricos sobre opções de viagens e acomodações para direcionar com mais precisão a publicidade e promoções para seus clientes.

  • Manufatura: grandes empresas de manufatura geram grandes volumes de dados. As organização podem utilizar data warehouses para criar data marts personalizados para as necessidades de cada departamento, facilitando o acesso dos usuários aos dados relevantes para suas funções.
Benefícios de um data warehouse

Benefícios de um data warehouse

Um data warehouse combina fluxos de dados a partir de armazenamentos de dados díspares, o que facilita a análise desses dados pelas organização. Consequentemente, as organizações podem descobrir insights valiosos, aumentar o desempenho, melhorar as operações e finalmente ter vantagem competitiva.

Mais especificamente, os benefícios de um data warehouse podem ser:

  • Melhor qualidade de dados
  • Insights mais profundos
  • Melhores decisões de negócios

Melhor qualidade de dados

Um data warehouse pode centralizar dados de várias fontes de dados, como sistemas transacionais, bancos de dados operacionais e arquivos planos. Em seguida, limpa esses dados operacionais, elimina duplicatas e os padroniza para criar uma fonte única da verdade que dá à organização uma visão abrangente e confiável dos dados corporativos.

Insights mais profundos

Quando os dados estão bloqueados em fontes díspares, isso pode limitar a capacidade dos tomadores de decisão de obter insights e definir estratégia de negócios com confiança. Um data warehouse com um repositório central possibilita que os usuários corporativos extraiam todos os dados pertinentes de uma organização para a tomada de decisões de negócios.

Gerando relatórios sobre dados históricos, um data warehouse pode ajudar a determinar quais sistemas e processos estão funcionando e o que precisa de melhorias.

Melhores decisões de negócios

Os data warehouses permitem descobrir e relatar temas, tendências e agregações. Profissionais de dados e líderes de negócios podem utilizar esses insights para tomarem decisões mais bem embasadas em evidências sólidas em praticamente todas as áreas da organização, desde processos de negócios até gerenciamento financeiro e gerenciamento de estoques.

Desafios com a arquitetura de data warehouse

Desafios com a arquitetura de data warehouse

Implementando soluções de data warehouse, as organizações podem ter que enfrentar certos desafios para alcançar um alto desempenho. Isso pode incluir:

  • Grandes volumes de dados
  • Qualidade e gerenciamento de dados
  • Infraestruturas de nuvem complexas
  • Compatibilidade com AI Ladder
  • Falta de flexibilidade de armazenamento

Grandes volumes de dados

Como agora os data warehouses com terabytes e petabytes são comuns, as operações de alto desempenho exigem carregamento excelente, armazenamento eficiente e mecanismos de banco de dados poderosos que atendam às demandas por hipereficiência.

Qualidade e gerenciamento de dados

Um data warehouse pode ser solicitado a gerenciar enormes volumes de dados estruturados e não estruturados de muitas fontes. Todos esses dados devem ser limpos e validados para poderem ser utilizados. Políticas e práticas robustas de governança de dados podem ajudar a garantir uma fonte única da verdade para todos os usuários.

Infraestruturas de nuvem complexas

Com os dados corporativos armazenados em ambientes díspares, seja por regulamentação ou por necessidade comercial, os data warehouses atuais geralmente exigem armazenamento híbrido e multinuvem, com fluxo, ingestão e análise de dados em diversos sistemas. As organizações podem precisar de membros da equipe de TI altamente experientes para ajudarem a implementar e manter esses sistemas complexos.

 

Compatibilidade com AI Ladder

À medida que a IA e o aprendizado de máquina tornam-se componentes mais críticos da estratégia de negócios, as organizações precisam de data warehouses capazes de suportar essas cargas de trabalho.

O ideal é que um data warehouse deve ser capaz de coletar, limpar, organizar e analisar dados para estar pronto para IA, bem como facilitar o fluxo de dados para aplicações de IA e aprendizado de máquina. Entretanto, nem todos os data warehouses foram construídos para IA, o que pode dificultar o uso de dados organizacionais para cargas de trabalho de IA.

Falta de flexibilidade de armazenamento

Os data warehouses são configurados e otimizados para análise de dados, o que significa que normalmente não são ideais para armazenar grandes quantidades de dados. À medida que a quantidade de dados em um armazém cresce, o custo e a complexidade do armazenamento também aumentam. Também podem surgir problemas de latência.

O data lakehouse pode ser uma opção para algumas organizações, dependendo de suas arquiteturas de dados exclusivas, pois pode disponibilizar recursos de armazenamento e análise de dados mais baratos e flexíveis.

Soluções relacionadas

Soluções relacionadas

Soluções de data warehouse

As soluções de data warehouse da IBM oferecem desempenho e flexibilidade para suportar dados estruturados e não estruturados para cargas de trabalho de análise de dados, incluindo aprendizado de máquina.

Explore as soluções de data warehouse
IBM Db2 Warehouse

Data warehousing em nuvem desenvolvido para impulsionar sua análise de dados operacional, BI e insights orientados por IA.

Explore o Db2 Warehouse
IBM watsonx.data

Coloque seus dados para trabalhar, onde quer que estejam, com o data lakehouse aberto e híbrido para IA e análise de dados.

Explore o watsonx.data
Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data Agende uma demonstração em tempo real