Um data warehouse normalmente usa processos de extração, transformação e carregamento (ETL) ou extração, carregamento e transformação (ELT) para limpar, preparar e organizar dados para inteligência de negócios (BI) e outros casos de uso de análise de dados.
Os sistemas de armazenamento de dados podem realizar ingestão de grandes quantidades de dados de uma ampla variedade de sistemas de origem, incluindo bancos de dados operacionais, sistemas transacionais e plataformas de gerenciamento de relacionamento com o cliente (CRM) . Ferramentas de análise de autoatendimento capacitam usuários corporativos a Explore e analisar esses dados para obter insights.
O conceito de data warehouse surgiu na década de 1980 para integrar dados díspares em um formato consistente para análise. Com o aumento do número de novas fontes de dados, como a World Wide Web, as mídias sociais e a Internet das Coisas (IoT), cresceu a demanda por maior capacidade de armazenamento e análise mais rápida.
Os data warehouses são configurados e otimizados para análise em tempo real, o que significa que normalmente não são ideais para armazenar grandes quantidades de big data brutos e não estruturados. À medida que a quantidade de dados em um armazém cresce, o custo e a complexidade do armazenamento também aumentam. Problemas com latência e desempenho também podem surgir.
Em resposta, outras alternativas mais flexíveis evoluíram, inclusive data warehouses nativos da nuvem e data lakehouses. (Consulte “Data lakehouse vs. data warehouse” para ver mais informações.)
Os data warehouses geralmente usam uma arquitetura de três camadas projetada para transformar dados para análise:
Os dados fluem de vários sistemas de origem para um servidor de data warehouse, onde são armazenados. Tradicionalmente, os dados migram por meio de um processo de integração de dados de extração, transformação e carregamento (ETL), que usa automação para limpar e organizar os dados antes de carregá-los no armazém.
Como os data warehouses armazenam principalmente dados estruturados, a transformação de dados ocorre antes do carregamento dos dados. Em vez disso, alguns armazéns modernos usam processos de extração, carregamento e transformação (ELT), que carregam os dados no armazém antes de transformá-los. Esse método é comumente usado em data lakes, que podem armazenar dados não estruturados e semiestruturados sem exigirem formatos padronizados.
Essa camada contém o analytics engine, geralmente alimentado por um sistema de processamento analítico online (OLAP) . Embora os bancos de dados relacionais tradicionais — incluindo muitos data warehouse — possam armazenar dados multidimensionais (por exemplo, números de vendas podem ter várias dimensões, como localização, hora e produto), não são otimizados para consultas multidimensionais.
Os sistemas OLAP são projetados para consultas complexas de alta velocidade e análises multidimensionais em grandes volumes de dados. Eles usam "cubos" (estruturas de dados multidimensionais baseadas em matrizes) para permitir uma análise mais rápida e flexível em várias dimensões. Os casos de uso comuns são mineração de dados, análise financeira, orçamento e planejamento de previsões.
OLAP x OLTP: os sistemas de processamento de transações online (OLTP) capturam e atualizam grandes volumes de transações em tempo real de muitos usuários. Por outro lado, os sistemas OLAP analisam dados que já foram capturados.
Há três tipos de OLAP que podem ser utilizados em um data warehouse:
A camada final de um data warehouse apresenta uma interface de usuário front-end para relatórios, dashboards e análise de dados ad hoc de dados de negócios. Essas ferramentas de business intelligence de autoatendimento possibilitam que os usuários gerem relatórios com base em dados históricos, visualizem tendências e identifiquem gargalos no fluxo de trabalho sem conhecimento técnico de engenharia de dados.
Boletim informativo do setor
Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
Os data warehouses evoluíram significativamente, passando de sistemas exclusivamente locais para modelos flexíveis de data warehouse em nuvem e híbridos.
Historicamente, os data warehouses eram hospedados em locais usando hardware comum. Esses sistemas foram organizados em arquiteturas de processamento paralelo massivo (MPP) ou multiprocessamento simétrico SMP). Eles também foram entregues como aparelhos autônomos. Essas implementações exigem um investimento considerável. No entanto, podem ser uma escolha forte para organizações em setores com padrões rígidos de conformidade, segurança de dados ou privacidade de dados.
Atualmente, muitos data warehouses são criados para rodar na nuvem. Oferecem os benefícios da computação em nuvem como o armazenamento de dados em escala de petabytes, computação e armazenamento altamente escalável e benefício de preços de pagamento conforme o uso. Os data warehouses baseados em nuvem geralmente são oferecidos como uma oferta de software como serviço (SaaS) totalmente gerenciada, eliminando a necessidade de investimento inicial em hardware ou software. Essa prestação de serviços também reduz os recursos necessários para o gerenciamento da infraestrutura, para que as organizações possam se concentrar em análises e insights.
Os data warehouses baseados em nuvem cresceram em popularidade à medida que as organizações buscam agilidade para escalar e reduzir o espaço ocupado pelo data center local e os gastos com infraestrutura legada.
Algumas organizações podem adotar um modelo híbrido que combine o melhor dos data warehouses locais e na nuvem. Essa abordagem possibilita que utilizem a escalabilidade e a flexibilidade da nuvem e, ao mesmo tempo, mantenham o controle sobre cargas de trabalho confidenciais que devem permanecer no local.
Em um data warehouse, os esquemas definem como os dados são organizados. Há três estruturas de esquema comuns: o esquema estrela, o esquema floco de neve e o esquema galáctico (também chamado de esquema de constelação de fatos).
Esses esquemas são todos modelos de dados dimensionais projetados para otimizar as velocidades de recuperação de dados em sistemas OLAP. Os modelos dimensionais podem aumentar a redundância, facilitando a localização de informações para relatórios e recuperação, além de melhorarem o desempenho da consulta.
Esses esquemas contêm tabelas de fatos e tabelas de dimensões, definidas abaixo:
Os esquemas em estrela consistem em uma única tabela de fatos central cercada por tabelas de dimensões. Em um diagrama, a tabela de fatos pode parecer estar no meio de um padrão de estrela. O esquema estrela é considerado o tipo de esquema mais simples e comum, oferecendo aos usuários velocidades de consulta mais rápidas.
Um esquema de floco de neve tem uma tabela de fatos central conectada a muitas tabelas de dimensões normalizadas, que podem se conectar a outras tabelas de dimensões por meio de relacionamentos muitos para um. Esse padrão mais complexo e ramificado pode se assemelhar a um floco de neve. Os esquemas do Snowflake têm baixos níveis de redundância de dados, mas isso tem o custo de um desempenho de consulta mais lento.
Assim como nossa galáxia contém muitas estrelas, um esquema de galáxia contém muitos esquemas estrela que compartilham tabelas de dimensão normalizadas para evitar redundância. O esquema de data warehouse é mais adequado para data warehouses altamente complexos, mas os usuários podem experimentar um desempenho inferior.
Uma arquitetura típica de data warehouse tem vários componentes que trabalham juntos para armazenar, gerenciar, processar e apresentar dados para análise.
Ferramentas ETL extraem dados de sistemas de origem, os transformam em uma área de preparação e os carregam no data warehouse. No ELT, os dados são transformados após serem carregados no warehouse. Uma ferramenta de estrutura de processamento de dados, como o Apache Spark, pode ajudar a gerenciar a transformação de dados.
Uma camada de conectividade para interfaces de programação de aplicativos (APIs) pode ajudar o armazém a extrair dados e se integrar a sistemas operacionais. As APIs também podem disponibilizar o acesso a ferramentas de visualização e análise avançada.
A camada de dados (ou banco de dados central) é o coração do data warehouse. Aqui, o sistema integra e armazena dados de várias fontes, como aplicação de negócios, listas de e-mail, sites ou outros bancos de dados. Essa camada é suportada por pipelines de dados ETL ou ELT e usa um sistema de gerenciamento de banco de dados relacional (RDBMS) ou plataforma de data warehouse em nuvem. Os recursos internos de gestão de dados e segurança de dados podem particionar dados para que os usuários acessem apenas o que precisam.
Metadados são dados sobre dados, descrevendo os dados que são armazenados em um sistema para torná-los pesquisáveis e utilizáveis para análises. Inclui metadados técnicos (como estrutura de tabela e tipo de dados) e metadados descritivos (como autor, data de criação ou tamanho do arquivo). Os metadados são fundamentais para a eficácia das governança de dados e do gerenciamento de dados.
Alguns data warehouses oferecem uma área de testes, que é um ambiente de teste isolado contendo uma cópia dos dados de produção e das ferramentas de análise relevantes. Analistas e cientistas de dados podem experimentar novas técnicas analíticas na área de testes sem afetar as operações do data warehouse para outros usuários.
As ferramentas de acesso se conectam a um data warehouse para apresentar uma interface amigável aos usuários corporativos. Usuários de negócios e analistas de dados podem usar painéis, aplicativos e ferramentas de visualização de dados para interagir com os dados e extrair insights. Exemplos dessas ferramentas são Tableau, Looker e Qlik.
Há três tipos principais de data warehouse:
Um data warehouse empresarial (EDW) é um data warehouse que atende toda a empresa. Ele atua como um repositório centralizado de informações de dados históricos para todas as equipes e áreas temáticas. Um ambiente de armazenamento de dados corporativo também pode incluir um armazenamento de dados operacionais (ODS) e data marts específicos do departamento.
Um armazenamento de dados operacionais (ODS) contém o instantâneo mais recente dos dados operacionais. Um ODS é atualizado com frequência, possibilitando o acesso rápido a dados quase em tempo real. As organizações costumam usar um ODS para tomada de decisões operacionais do dia a dia e análise em tempo real. Também pode ser uma fonte de dados para um EDW ou outros sistemas de dados.
Um data mart é um subconjunto de um data warehouse existente (ou outras fontes de dados) e contém dados personalizados para uma linha de negócios ou departamento específico, em vez de toda a empresa. Por exemplo, uma empresa pode ter um data mart alinhado com o departamento de marketing. Esses usuários podem acessar insights mais focados para segmentação de clientes e desempenho de campanha sem navegar no conjunto de dados corporativos mais amplo.
Os termos data warehouse, banco de dados, data lake e data lakehouse às vezes são usados de forma intercambiável, mas há diferenças importantes.
Um banco de dados é como um armário de arquivamento construído principalmente para captura automatizada de dados e processamento rápido de transações. Normalmente, serve como o armazenamento de dados focado para uma aplicação específica. Os data warehouses armazenam dados de qualquer número de aplicações em uma organização e são otimizados para análise preditiva de dados e outras análises avançadas.
Data lake é uma solução de armazenamento de baixo custo para grandes quantidades de dados brutos e utiliza uma abordagem de esquema na leitura em vez de um esquema predefinido. Os data lakes geralmente contêm dados não estruturados e semiestruturados, como documentos, vídeos, registros da Internet das coisas (IOT) e postagens em redes sociais.
Eles podem ser construídos em plataformas de big data, como o Apache Hadoop, ou em serviços de armazenamento de objetos em nuvem, como o Amazon Simple Storage Service (Amazon S3). Normalmente não limpam, validam nem normalizam os dados para análise, como um warehouse faz.
Um data lakehouse mescla aspectos de data warehouses e data lakes — a saber, a flexibilidade de baixo custo de um data lake e o alto desempenho de um data warehouse. Combinando os principais recursos de lakes e warehouses em uma única solução de dados, os lakehouses podem ajudar a acelerar o processamento de dados de grandes quantidades de fluxos de dados estruturados, não estruturados e em tempo real para dar suporte a cargas de trabalho de aprendizado de máquina, ciência de dados e inteligência artificial (IA).
Os data lakehouses também podem adicionar funcionalidades como metadados compartilhados e mecanismos de linguagem de consulta estruturada (SQL) distribuídos.
O data warehouse disponibiliza insights e informações para os usuários em toda a organização, oferecendo muitos benefícios, tais como:
Por meio de processos de ELT ou ETL, os data warehouses preparam os dados recebidos antes de serem armazenados no data warehouse. Essa preparação inclui métodos de qualidade de dados, como limpeza, padronização e deduplicação de dados. Políticas e práticas robustas de governança de dados também podem ajudar a garantir a precisão e a integridade dos dados para todos os usuários.
Ao integrar dados de alta qualidade em um único armazenar, as organizações criam uma fonte única da verdade abrangente e confiável, o que ajuda a eliminar silos de dados. Esse repositório central possibilita que os usuários corporativos acessem com confiança todos os dados pertinentes da organização e os utilizem para a tomada de decisões comerciais. Um data warehouse empresarial de primeira linha pode incluir ainda o suporte a formatos de fonte aberta, como Apache Iceberg, Parquet e CSV, permitindo assim um compartilhamento ainda maior de dados em toda a empresa.
Data warehouses modernos podem oferecer suporte a vários fluxos de trabalho de IA e aprendizado de máquina, entregando dados limpos e confiáveis. Podem utilizar dados de armazém limpos e validados para criar modelos de IA proprietários ou realizar ajuste fino em modelos existentes para melhor atender às suas necessidades comerciais exclusivas.
Um data warehouse pronto para IA deve ser capaz de coletar, limpar, organizar e estruturar dados, além de facilitar o fluxo de dados para plataformas de IA e aprendizado de máquina. No entanto, nem todos os data warehouses modernos são otimizados para cargas de trabalho de IA. Os data lakehouses estão se tornando cada vez mais as plataformas de dados preferidas para a infraestrutura de IA.
Um data warehouse centraliza e limpa os dados de diferentes fontes para criar uma fonte única da verdade, oferecendo às organizações uma visão abrangente e confiável dos dados corporativos. As ferramentas de BI de autoatendimento possibilitam que os usuários de toda a empresa acessem e executem consultas analíticas sobre esses dados agregados.
Dessa forma, os data warehouses possibilitam que usuários corporativos de qualquer nível de habilidade técnica descubram e relatem temas, tendências e agregações. Líderes empresariais podem usar esses insights para tomar decisões e previsões mais bem informadas com base em evidências concretas em praticamente todas as áreas da organização, desde processos de negócios até gestão financeira e gestão de estoque.
Os data warehouses também podem atender a usos específicos do setor, como:
Os recursos analíticos de um data warehouse podem ajudar os governos a entender melhor fenômenos complexos, como crimes, tendências demográficas e padrões de tráfego.
Saúde: a capacidade de centralizar e analisar dados diversos, como códigos de faturamento e diagnóstico, dados demográficos de pacientes, medicamentos e resultados de exames, pode ajudar hospitais a obterem insights sobre resultados clínicos, eficiências operacionais e muito mais.
As organizações podem usar dados históricos relacionados às escolhas de viagens e acomodações para direcionar com mais precisão a publicidade e as promoções para seus clientes.
Grandes empresas de manufatura que geram grandes volumes de dados podem usar soluções de data warehouse para criar data marts personalizados às necessidades de cada departamento.
Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.
O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.
Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.