O armazenamento de dados baseado na nuvem para dados de negócios (particularmente big data) é uma prioridade atualmente, quer você dependa dele para realizar negócios diários ou realizar tarefas específicas.
Os dados impulsionam muitas funções de negócios — desde a criação de programas direcionados para clientes e possíveis clientes, até a otimização de processos de fabricação e operações, até o desenvolvimento, teste, distribuição e acompanhamento de testes de vírus e vacinação. As empresas modernas dependem da disponibilidade dos dados de que precisam, quando precisam. No entanto, encontrar a melhor opção para atender às suas necessidades não é uma tarefa fácil e pode envolver vários tipos diferentes de repositórios para diferentes categorias de dados.
Vamos começar com o básico e nos aprofundar em alguns exemplos de como um repositório de dados ou vários tipos de repositórios de dados podem ser necessários para atender às necessidades da sua empresa.
Existem atualmente três tipos distintos de repositórios de armazenamento em nuvem, cada um servindo a um propósito diferente para lidar com uma necessidade específica:
Um data lake é um grande repositório de dados brutos, não estruturados ou semiestruturados. Esses dados são agregados de várias fontes e são simplesmente armazenados. Não é alterado para atender a uma finalidade específica ou se encaixar em um formato específico. A preparação desses dados para análise envolve preparação, limpeza e reformatação de dados demoradas para fins de uniformidade. Data lakes são ótimos recursos para organizações que armazenam informações relacionadas a indisponibilidade, tráfego, crime ou dados demográficos. Os dados podem ser usados em uma data posterior para atualizar orçamentos e recursos de serviços de emergência ou DPW.
Um data warehouse é uma agregação de dados de várias fontes em um único repositório centralizado que unifica as qualidades e o formato dos dados, tornando-o útil para cientistas de dados usarem em mineração de dados, inteligência artificial (IA), aprendizado de máquina e, finalmente, análise de dados de negócios e business intelligence. O data warehouse pode ser usado por uma grande cidade para agregar transações eletrônicas de vários departamentos, incluindo multas por excesso de velocidade, licenças de cães, pagamentos de impostos especiais de consumo e outras transações. Esses dados estruturados seriam analisados pela cidade para emitir faturas de acompanhamento e atualizar dados do censo e registros policiais. Também pode ser usado por um desenvolvedor para agregar terabytes de dados gerados por sensores em automóveis para auxiliar no processo de tomada de decisão para uma solução de direção autônoma.
Um data mart é um subconjunto de um data warehouse que beneficia um conjunto específico de usuários dentro do negócio ou unidade de negócios. Um data mart pode ser usado pelo departamento de marketing de uma empresa de manufatura para determinar o grupo demográfico ou persona-alvo ideal para auxiliar no desenvolvimento de planos de marketing. Também pode ser usado por um departamento de manufatura para analisar o desempenho e as taxas de erro para permitir a melhoria contínua. Conjuntos de dados dentro de um data mart são frequentemente utilizados em tempo real, para análise atual e resultados praticáveis.
Embora todos os três tipos de repositórios de dados na nuvem contenham dados, há diferenças muito distintas entre eles. Por exemplo, um data warehouse e um data lake são grandes agregações de dados, mas um data lake geralmente é mais econômico de implementar e manter, pois não é estruturado em grande parte.
A arquitetura de data lake evoluiu nos últimos anos para suportar maiores volumes de dados e computação baseada em nuvem. Grandes quantidades de dados são recebidas de várias fontes de dados para um local central.
Um data warehouse pode ser estruturado de uma de três maneiras:
Os dados dentro de um data warehouse podem ser utilizados com mais facilidade para várias finalidades do que os dados armazenados em um data lake. A razão é que um data warehouse é estruturado e pode ser mais facilmente minerado ou analisado.
Um data mart, por outro lado, contém uma quantidade menor de dados em comparação com um data lake e um data warehouse, e os dados são categorizados para um uso específico ou por uma unidade de negócios específica. Um data mart pode existir em muitos formatos diferentes (estrela, floco de neve ou vault) definidos pela estrutura lógica dos dados, sendo uma estrutura de vault mais ágil, flexível e escalável do que os outros formatos.
Existem três tipos de data marts:
O tipo de repositório de dados que você escolhe e a estrutura dele dependem altamente das necessidades e demandas da sua empresa. Se fizer sentido para o seu negócio, aproveite os benefícios do armazenamento baseado em nuvem híbrida para ter flexibilidade, escalabilidade e uma abordagem mais ampla e informada para resolução de problemas e tomada de decisão.
Uma grande empresa multinacional de manufatura gera grandes volumes de dados para diversos usos. Alguns dos dados são importantes, enquanto outros podem ou não ter uma finalidade no futuro. A empresa utiliza um data warehouse baseado em nuvem para armazenamento de dados em massa, que é menos caro do que outras opções de armazenamento de dados . No entanto, a empresa também tem data marts dependentes em vigor para áreas específicas do negócio, fornecendo valor aos usuários corporativos em departamentos como finanças, fabricação e marketing. Cada um desses marts contém dados destinados a um uso específico, formatados para facilitar a análise. Por exemplo:
Um município de grande porte precisa de uma solução acessível que forneça dados de forma acessível e utilizável. O município usa um data lake na nuvem para manter dados de tráfego. A empresa não pode se dar ao luxo de analisar e agir com base nesses dados no momento, mas estará pronta para isso quando o financiamento chegar. Ele também usa um data warehouse de software no local para acompanhar o status das faturas fiscais. Além disso, o município usa um data mart para rastrear a disseminação de um vírus entre os residentes, agregando dados de vários hospitais e serviços de saúde municipais a um único repositório a ser analisado e usado pelo departamento de saúde.
Há muitos equívocos em relação aos repositórios de dados baseados em nuvem. Alguns dos equívocos mais comuns incluem os seguintes:
Sua empresa é única, com recursos, metas e desafios específicos. Avalie suas opções cuidadosamente para determinar qual solução atenderá melhor às suas necessidades. Considere o seguinte:
Essas considerações o ajudarão a determinar qual solução, ou combinação de soluções, o ajudará a atingir seus objetivos.
A IBM oferece várias soluções para auxiliar nas suas necessidades de armazenamento em nuvem e ciência de dados.