Data lake na nuvem versus data warehouse versus data mart

Trilhas de luz fluida abstratas

Este post analisa os três tipos distintos de repositórios de armazenamento em nuvem que existem hoje, explorando as diferenças e qual solução seria melhor para seu caso de uso.

O armazenamento de dados baseado na nuvem para dados de negócios (particularmente big data) é uma prioridade atualmente, quer você dependa dele para realizar negócios diários ou realizar tarefas específicas.

Os dados impulsionam muitas funções de negócios — desde a criação de programas direcionados para clientes e possíveis clientes, até a otimização de processos de fabricação e operações, até o desenvolvimento, teste, distribuição e acompanhamento de testes de vírus e vacinação. As empresas modernas dependem da disponibilidade dos dados de que precisam, quando precisam. No entanto, encontrar a melhor opção para atender às suas necessidades não é uma tarefa fácil e pode envolver vários tipos diferentes de repositórios para diferentes categorias de dados.

Vamos começar com o básico e nos aprofundar em alguns exemplos de como um repositório de dados ou vários tipos de repositórios de dados podem ser necessários para atender às necessidades da sua empresa.

 

Três tipos de repositórios de armazenamento em nuvem

Existem atualmente três tipos distintos de repositórios de armazenamento em nuvem, cada um servindo a um propósito diferente para lidar com uma necessidade específica:

Data lake

Um data lake é um grande repositório de dados brutos, não estruturados ou semiestruturados. Esses dados são agregados de várias fontes e são simplesmente armazenados. Não é alterado para atender a uma finalidade específica ou se encaixar em um formato específico. A preparação desses dados para análise envolve preparação, limpeza e reformatação de dados demoradas para fins de uniformidade. Data lakes são ótimos recursos para organizações que armazenam informações relacionadas a indisponibilidade, tráfego, crime ou dados demográficos. Os dados podem ser usados em uma data posterior para atualizar orçamentos e recursos de serviços de emergência ou DPW.

Data warehouse

Um data warehouse é uma agregação de dados de várias fontes em um único repositório centralizado que unifica as qualidades e o formato dos dados, tornando-o útil para cientistas de dados usarem em mineração de dadosinteligência artificial (IA)aprendizado de máquina e, finalmente, análise de dados de negócios e business intelligence. O data warehouse pode ser usado por uma grande cidade para agregar transações eletrônicas de vários departamentos, incluindo multas por excesso de velocidade, licenças de cães, pagamentos de impostos especiais de consumo e outras transações. Esses dados estruturados seriam analisados pela cidade para emitir faturas de acompanhamento e atualizar dados do censo e registros policiais. Também pode ser usado por um desenvolvedor para agregar terabytes de dados gerados por sensores em automóveis para auxiliar no processo de tomada de decisão para uma solução de direção autônoma.

data mart

Um data mart é um subconjunto de um data warehouse que beneficia um conjunto específico de usuários dentro do negócio ou unidade de negócios. Um data mart pode ser usado pelo departamento de marketing de uma empresa de manufatura para determinar o grupo demográfico ou persona-alvo ideal para auxiliar no desenvolvimento de planos de marketing. Também pode ser usado por um departamento de manufatura para analisar o desempenho e as taxas de erro para permitir a melhoria contínua. Conjuntos de dados dentro de um data mart são frequentemente utilizados em tempo real, para análise atual e resultados praticáveis.

Data lake versus data warehouse versus data mart: principais diferenças

Embora todos os três tipos de repositórios de dados na nuvem contenham dados, há diferenças muito distintas entre eles. Por exemplo, um data warehouse e um data lake são grandes agregações de dados, mas um data lake geralmente é mais econômico de implementar e manter, pois não é estruturado em grande parte. 

A arquitetura de data lake evoluiu nos últimos anos para suportar maiores volumes de dados e computação baseada em nuvem. Grandes quantidades de dados são recebidas de várias fontes de dados para um local central. 

Um data warehouse pode ser estruturado de uma de três maneiras:

  1. Como um serviço gerenciado oferecido pelos provedores de nuvem.
  2. Como uma solução de software que fornece controle interno e protocolos de segurança rigorosos, o que pode ser útil ao lidar com a conformidade com as regulamentações.
  3. Como um dispositivo, que geralmente é um pacote de solução de software e hardware plug-and-play.

Os dados dentro de um data warehouse podem ser utilizados com mais facilidade para várias finalidades do que os dados armazenados em um data lake. A razão é que um data warehouse é estruturado e pode ser mais facilmente minerado ou analisado.

Um data mart, por outro lado, contém uma quantidade menor de dados em comparação com um data lake e um data warehouse, e os dados são categorizados para um uso específico ou por uma unidade de negócios específica. Um data mart pode existir em muitos formatos diferentes (estrela, floco de neve ou vault) definidos pela estrutura lógica dos dados, sendo uma estrutura de vault mais ágil, flexível e escalável do que os outros formatos.

Existem três tipos de data marts:

  1. Um data mart dependente, que consiste em partições de data warehouse corporativo. É um subconjunto de dados primários em um warehouse.
  2. Um data mart independente, que é um sistema autônomo, isolado em uma parte específica do negócio.
  3. Um data mart híbrido, que consiste em dados de um warehouse e fontes independentes. Esse tipo normalmente fornece acesso a dados e uma interface fácil de usar.

O tipo de repositório de dados que você escolhe e a estrutura dele dependem altamente das necessidades e demandas da sua empresa. Se fizer sentido para o seu negócio, aproveite os benefícios do armazenamento baseado em nuvem híbrida para ter flexibilidade, escalabilidade e uma abordagem mais ampla e informada para resolução de problemas e tomada de decisão.

Casos de uso do setor de soluções de repositório de dados baseadas em nuvem

Manufatura

Uma grande empresa multinacional de manufatura gera grandes volumes de dados para diversos usos. Alguns dos dados são importantes, enquanto outros podem ou não ter uma finalidade no futuro. A empresa utiliza um data warehouse baseado em nuvem para armazenamento de dados em massa, que é menos caro do que outras opções de armazenamento de dados . No entanto, a empresa também tem data marts dependentes em vigor para áreas específicas do negócio, fornecendo valor aos usuários corporativos em departamentos como finanças, fabricação e marketing. Cada um desses marts contém dados destinados a um uso específico, formatados para facilitar a análise. Por exemplo:

  • O departamento financeiro usa seu data mart para preparar extratos de contas de clientes e manter balanços patrimoniais.
  • O departamento de manufatura usa seu data mart para analisar a eficiência da linha de montagem, processar dados para entrada em soluções de IA e manter bancos de dados de aquisição.
  • O departamento de marketing usa seu data mart para determinar a eficácia das campanhas e da comunicação enquanto analisa e reúne respostas da pesquisa.

Município de grande porte

Um município de grande porte precisa de uma solução acessível que forneça dados de forma acessível e utilizável. O município usa um data lake na nuvem para manter dados de tráfego. A empresa não pode se dar ao luxo de analisar e agir com base nesses dados no momento, mas estará pronta para isso quando o financiamento chegar. Ele também usa um data warehouse de software no local para acompanhar o status das faturas fiscais. Além disso, o município usa um data mart para rastrear a disseminação de um vírus entre os residentes, agregando dados de vários hospitais e serviços de saúde municipais a um único repositório a ser analisado e usado pelo departamento de saúde.

Equívocos comuns sobre armazenamento de dados baseado em nuvem

Há muitos equívocos em relação aos repositórios de dados baseados em nuvem. Alguns dos equívocos mais comuns incluem os seguintes:

  • Tamanho único: esse não é absolutamente o caso quando se considera as soluções de armazenamento de dados na nuvem. Cada empresa tem diferentes restrições orçamentárias, metas, alocações de recursos e preferências. É importante avaliar as necessidades e o orçamento do seu negócio e deixar que isso dite a solução que ajudará você a atingir suas metas.
  • As ilhas de dados deixam seus dados armazenados em um repositório: isso é falso. A própria natureza do armazenamento baseado em nuvem é que ele permite o acesso aos dados de qualquer lugar, com as permissões adequadas.
  • As soluções baseadas em nuvem são menos seguras:  na verdade, os provedores de nuvem podem oferecer segurança mais forte, fornecendo atualizações regulares e os protocolos mais atuais disponíveis. Eles geralmente têm equipes de especialistas em segurança com as certificações mais atuais dedicadas a garantir que a solução de segurança mais rigorosa esteja protegendo seus dados. Muitos provedores também têm equipes trabalhando com órgãos de conformidade regulatória para otimizar a solução deles. No entanto, em alguns setores (como saúde e finanças), a conformidade regulatória poderia exigir a capacidade de acessar dados sem uma conexão com a Internet, o que exigiria equipamentos locais.
  • Os repositórios de dados baseados em nuvem são caros: o armazenamento baseado em nuvem pode ser mais barato do que as soluções locais porque não há grandes investimentos iniciais em infraestrutura, custos de refrigeração ou espaço físico, custos de manutenção contínua ou equipes de especialistas internos necessários. Os custos mensais variam de acordo com o fornecedor ou provedor de nuvem.

 

Como determinar qual solução de armazenamento baseada em nuvem é melhor para sua empresa

Sua empresa é única, com recursos, metas e desafios específicos. Avalie suas opções cuidadosamente para determinar qual solução atenderá melhor às suas necessidades. Considere o seguinte:

  • Suas metas de negócios e tecnologia
  • Seu orçamento
  • O volume de dados que precisam ser armazenados
  • Com que frequência você precisará acessá-los
  • Se você tem necessidades específicas hoje ou no curto prazo

Essas considerações o ajudarão a determinar qual solução, ou combinação de soluções, o ajudará a atingir seus objetivos.

Repositórios de dados da IBM na nuvem: soluções e gerenciamento

A IBM oferece várias soluções para auxiliar nas suas necessidades de armazenamento em nuvem e ciência de dados.

  • O IBM Db2 Warehouse on Cloud é um data warehouse elástico na nuvem que oferece escalabilidade independente de armazenamento e computação. Data marts menores podem usar a funcionalidade Flex One , que é um data warehouse elástico construído para análise de dados de alto desempenho. Esse sistema pode ser implementado em vários provedores de nuvem, a partir de 40 GB de armazenamento.
  • Outra opção que vale a pena considerar é o IBM® InfoSphere Master Data Management (MDM). Esse sistema personalizável gerencia todos os aspectos de seus dados corporativos críticos, fornecendo acesso aos usuários em uma única visão confiável. Por meio desse dashboard agilizado, os usuários podem conduzir análises detalhadas, obter insights praticáveis e garantir a conformidade total com a gestão de dados e as políticas em toda a empresa.
  • O Netezza Performance Server, a próxima evolução do IBM Netezza Appliance, baseia-se na arquitetura hiperconvergente do IBM Cloud Pak for Data System para fornecer um sistema de suporte a decisões nativo da nuvem para a análise de dados mais complexas da sua empresa. Também está disponível na AWS e Azure.
  • O IBM Watson Studio, uma oferta de ciência de dados e aprendizado de máquina , capacita as organizações a aproveitar ativos de dados e injetar previsões em processos de negócios e aplicações modernas.

    Autora

    Tanmay Sinha

    Program Director, Db2 Portfolio