O que é um data lake?

Data lake é um repositório de armazenamento de dados que suporta grandes quantidades de dados, podendo ser estruturados e não estruturados.

Esse é um dos principais diferenciadores de um data lake vs data warehouse, que requer um esquema definido para armazenar os dados. Essa flexibilidade nos requisitos de armazenamento é especialmente útil para cientistas de dados, engenheiros de dados e desenvolvedores, permitindo que acessem dados para exercícios de descoberta de dados e projetos de aprendizado de máquina.

Um relatório recente da Voice of the Enterprise (link externo ao site ibm.com) da 451 Research determinou que quase "três quartos (71%) das empresas estão usando ou testando um ambiente de data lake ou planejando fazê-lo nos próximos 12 meses, e 53% dos entrevistados já estão em implementação ou POC". Os entrevistados deste relatório destacam a agilidade dos negócios como o principal benefício de suas implementações, o que pode variar. Eles também descobriram que os data lake são normalmente hospedados na nuvem ou "no local" por meio dos data centers de uma organização.

Embora aqueles que adotam data lakes estejam encontrando valor neles, alguns podem correr o risco de transformá-los em data swamps ou data pits. Um data swamp é o resultado de um data lake mal gerenciado, ou seja, ele carece de práticas adequadas de qualidade e governança de dados para oferecer aprendizados perspicazes. Sem a supervisão adequada, os dados nesses repositórios se tornarão inúteis. Os data pits, por outro lado, são semelhantes aos data swamps, pois fornecem pouco valor comercial, mas a origem do problema de dados não é clara nesses casos. Da mesma forma, o envolvimento das equipes de governança e ciência de dados pode ajudar na proteção contra essas armadilhas.

IBM nomeada líder pela IDC

Leia por que a IBM foi nomeada líder no relatório IDC MarketScape: Worldwide AI Governance Platforms 2023 report.

Conteúdo relacionado

Data lake vs data warehouse

Embora data lakes e data warehouses armazenem dados, cada repositório tem seus próprios requisitos de armazenamento, o que os torna escolhas ideais para cenários diferentes. Por exemplo, os data warehouses exigem um esquema definido para atender a requisitos específicos de análise de dados para saídas de dados, como dashboards, visualizações de dados e outras tarefas de business intelligence.

Esses requisitos são geralmente especificados pelos usuários corporativos e outros stakeholders relevantes, que utilizarão os resultados do relatório regularmente. A estrutura subjacente de um data warehouse é normalmente organizada como um sistema relacional (ou seja, em um formato de dados estruturado), obtendo dados de bancos de dados transacionais. Os data lakes, por outro lado, incorporam dados de sistemas relacionais e não relacionais, permitindo que os cientistas de dados incorporem dados estruturados e não estruturados em mais projetos de ciência de dados.

Cada sistema também tem seu próprio conjunto de vantagens e desvantagens. Por exemplo, os data warehouses tendem a ter melhor desempenho, mas têm um custo mais elevado. Os data lakes podem ser mais lentos no retorno dos resultados das consultas, mas têm custos de armazenamento mais baixos. Além disso, a capacidade de armazenamento dos data lakes os torna ideais para dados corporativos.

Data lake vs data lakehouse

Embora a adoção de data lakes e data warehouses continua aumentando com o crescimento de novas fontes de dados, as limitações de ambos os repositórios de dados estão levando a uma convergência nessas tecnologias. Um data lakehouse combina os benefícios de custo de um data lake com os recursos de estrutura de dados e gerenciamento de dados de um data warehouse. De acordo com outro relatório de pesquisa (link externo ao site ibm.com) da 415 Research, "dois terços das empresas já estão usando ou testando um ambiente de data lakehouse ou planejam fazê-lo dentro de 12 meses". Além disso, eles descobriram que 93% das organizações que adotaram os data lakes também planejam adotar um data lakehouse nos próximos 12 meses.

Arquitetura de Data Lake

Os data lakes também são comumente associados ao Apache Hadoop, uma estrutura de software de código aberto que oferece processamento distribuído confiável e de baixo custo para armazenamento de big data. Tradicionalmente, eles eram implementados no local, mas, conforme indicado no relatório da 451 Research, os adotantes estão migrando rapidamente para ambientes de nuvem, pois eles oferecem mais flexibilidade aos usuários finais. Diferentemente das implementações no local, os provedores de armazenamento em nuvem permitem que os usuários criem grandes clusters conforme necessário, exigindo apenas o pagamento pelo armazenamento específico. Isso significa que, se você precisar de mais potência de computação para executar um trabalho em algumas horas em vez de alguns dias, poderá fazer isso facilmente em uma plataforma de nuvem adquirindo nós de computação adicionais. A Forrester Research (link externo ao site ibm.com) relata que as empresas que usam data lakes na nuvem em vez de data lakes no local obtêm uma economia de aproximadamente 25%.

No Hadoop, o Hadoop Distributed File System (HDFS) armazena e replica dados em vários servidores, enquanto o Yet Another Resource Negotiator (YARN) determina como alocar recursos entre esses servidores. Em seguida, você pode usar o Apache Spark para criar um grande espaço de memória para processamento de dados, permitindo que usuários mais avançados acessem dados por meio de interfaces usando Python, R e Spark SQL.

À medida que o volume de dados cresce a uma taxa exponencial, os data lakes servem como um componente essencial do pipeline de dados.

Casos de uso de um data lake

Visto que os data lakes são principalmente aproveitados por sua capacidade de armazenar vastas quantidades de dados brutos, o propósito de negócio dos dados não precisa necessariamente ser definido desde o início. Dito isso, dois casos de uso principais para data lakes podem ser encontrados abaixo:

- Provas de conceitos (POCs): O armazenamento em data lake é ideal para projetos de prova de conceito. Sua capacidade de armazenar diferentes tipos de dados é especialmente benéfica para modelos de aprendizado de máquina, oferecendo a oportunidade de incorporar dados estruturados e não estruturados em modelos preditivos. Isso pode ser útil para casos de uso, como classificação de texto, já que os cientistas de dados não podem utilizar bancos de dados relacionais para isso (pelo menos não sem pré-processar os dados para atender aos requisitos de esquema). Os data lakes também podem funcionar como uma área de teste para outros projetos de análise de big data. Isso pode variar desde o desenvolvimento de dashboards em grande escala até o suporte a aplicativos de IoT, que normalmente requerem dados de streaming em tempo real. Depois que a finalidade e o valor dos dados forem determinados, eles poderão ser submetidos ao processamento ETL ou ELT para armazenamento em um data warehouse downstream.

- Backup e recuperação de dados: A alta capacidade de armazenamento e os baixos custos de armazenamento permitem que os data lakes atuem como uma alternativa de armazenamento para incidentes de recuperação de desastres.Eles também podem ser benéficos para auditorias de dados, a fim de garantir a qualidade, uma vez que os dados são armazenados em seu formato nativo (ou seja, sem transformações). Isso pode ser particularmente útil se um data warehouse não tiver a documentação adequada sobre o processamento de dados, permitindo que as equipes verifiquem o trabalho de proprietários de dados anteriores.

Por fim, uma vez que os dados em um data lake não precisam necessariamente de um propósito imediato para armazenamento, ele também pode ser uma forma de armazenar dados "frios" ou inativos a um preço acessível, o que pode ser útil em uma data posterior para investigações regulatórias ou análises completamente novas.

Benefícios de um data lake

Maior flexibilidade: os data lakes podem ingerir conjuntos de dados estruturados, semiestruturados e não estruturados, tornando-os ideais para análises de dados avançadas e projetos de aprendizado de máquina.

Custo: como os data lakes não exigem tanto planejamento inicial para ingerir os dados (por exemplo esquema e definição de transformação), menos dinheiro precisa ser investido em recursos humanos. Além disso, os custos reais de armazenamento dos data lakes são menores em comparação com outros repositórios de armazenamento, como os data warehouses. Isso permite que as empresas otimizem seus orçamentos e recursos de forma mais eficaz em todas as iniciativas de gerenciamento de dados.

Escalabilidade: Os data lakes podem ajudar as empresas a crescer de várias maneiras. A funcionalidade de autoatendimento e a capacidade geral de armazenamento tornam os data lakes mais escaláveis em comparação com outros serviços de armazenamento.Além disso, os data lakes fornecem uma área de testes para os trabalhadores desenvolverem provas de conceito bem-sucedidas. Uma vez que um projeto tenha demonstrado valor em uma escala menor, é mais fácil expandir esse fluxo de trabalho em escala maior usando automação.

Silos de dados reduzidos: Da saúde à cadeia de suprimentos, empresas de vários setores experimentam silos de dados dentro de sua organização. Como os dados ingerem dados brutos em diferentes funções, essas dependências começam a se eliminar, pois não há mais um único proprietário para um determinado conjunto de dados.

Experiência aprimorada do cliente: embora esse benefício não seja imediatamente perceptível, os POCs bem-sucedidos podem aprimorar a experiência geral do usuário, permitindo que as equipes compreendam e personalizem melhor a jornada do cliente por meio de análises novas e perspicazes.

Desafios de um data lake

Embora os data lakes proporcionem uma série de benefícios, eles apresentam desafios. Alguns deles incluem:

- Desempenho: Conforme a quantidade de dados inseridos em um data lake aumenta, isso afeta o desempenho, que já é mais lento do que outros sistemas alternativos de armazenamento de dados.

-Governança: Embora a capacidade de um data lake de ingerir várias fontes de dados forneça às empresas uma vantagem em suas práticas de gerenciamento de dados, ela também requer uma forte governança para gerenciar adequadamente. Os dados devem ser marcados e classificados com metadados relevantes para evitar pântanos de dados, e essas informações devem ser facilmente acessíveis por meio de um catálogo de dados, permitindo a funcionalidade de autoatendimento para uma equipe menos técnica, como analistas de negócios. Por fim, as proteções também devem ser implementadas para atender aos padrões regulatórios e de privacidade; isso pode incluir controles de acesso, criptografia de dados e muito mais.

Soluções relacionadas

Soluções de data lake

Potencialize seus aplicativos, análises e IA com todos os dados em uma nuvem aberta.

Explore as soluções de data lake

Recursos

IBM + Cloudera

Saiba mais sobre a parceria entre IBM e Cloudera para fornecer uma plataforma de dados corporativos para nuvem híbrida.

Governança de dados e data lake inteligentes

Conheça as melhores práticas para garantir a qualidade, acessibilidade e segurança dos dados como base para uma arquitetura de dados centrada em IA.

State Bank of India

Saiba como o State Bank of India usou várias soluções IBM, juntamente com a metodologia IBM Garage™, para desenvolver uma plataforma bancária online abrangente.

O que é data lakehouse?

Conheça a próxima evolução das soluções de gerenciamento de dados no mercado.gerenciamento de dados

Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data

Agende uma demonstração em tempo real