O que é data lake?

Grande lago com montanhas ao fundo

Autores

Matthew Kosinski

Staff Editor

IBM Think

O que é data lake?

Um data lake é um ambiente de armazenamento de dados de baixo custo projetado para lidar com grandes volumes de dados brutos em qualquer formato, incluindo dados estruturados, semiestruturados e não estruturados. A maioria dos data lakes utiliza armazenamento de objetos baseado em nuvem, como AWS S3, Google Cloud Storage ou IBM® Cloud Object Storage.

Os data lakes surgiram para ajudar as organizações a lidar com a enxurrada de big data, sendo grande parte não estruturada, criada por aplicações e serviços conectados à internet no final da década de 2000 e início da década de 2010.  

Ao contrário dos bancos de dados e data warehouses tradicionais, os data lakes não exigem que todos os dados sigam um esquema definido. Em vez disso, podem armazenar diferentes tipos de dados com formatos variados em um repositório centralizado. Os data lakes também aproveitam a computação em nuvem para tornar o armazenamento de dados mais escalável e acessível.

Os data lakes são componentes centrais das arquiteturas de dados de muitas organizações atualmente. De acordo com o CDO Study da IBM, 75% dos principais diretores de dados (CDOs) estão investindo em data lakes. 

Graças ao seu armazenamento flexível, os data lakes podem ajudar as organizações a derrubar silos e construir malhas de dados holísticas. Também são úteis para cientistas de dados e engenheiros de dados, que costumam usá-los para gerenciar os enormes conjuntos de dados não estruturados necessários para cargas de trabalho de inteligência artificial (IA) e aprendizado de máquina (ML).

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Arquitetura de Data Lake

Embora os primeiros data lakes tenham sido criados no Hadoop, o núcleo de um data lake moderno é um serviço de armazenamento de objetos em nuvem. Entre as opções comuns estão Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM® Cloud Object Storage.

O armazenamento de objetos na nuvem permite que as organizações armazenem diferentes tipos de dados brutos no mesmo armazenamento de dados. Também é geralmente mais escalável e econômico do que o armazenamento no local. Os provedores de armazenamento em nuvem permitem que os usuários criem grandes clusters sob demanda, exigindo pagamento apenas pelo armazenamento utilizado.

Os recursos de armazenamento e computação são separados um do outro em uma arquitetura de data lake. Para processar dados, os usuários devem conectar ferramentas externas de processamento de dados. O Apache Spark, que admite interfaces como Python, R e Spark SQL, é uma escolha popular.

Dissociar armazenamento e computação ajuda a manter os custos baixos e a escalabilidade alta. As organizações podem adicionar mais armazenamento sem escalar os recursos de computação junto com ele.  

O armazenamento central do data lake é conectado a várias fontes de dados, como bancos de dados, aplicativos, dispositivos e sensores da Internet das Coisas (IoT), por meio de uma camada de ingestão.  

A maioria dos data lakes usa um processo de extração, carregamento, transformação (ELT) em vez de um processo de extração, transformação, carregamento (ETL) para ingerir dados. Os dados permanecem em seu estado original quando o lake os ingere e não são transformados até que haja necessidade. Essa abordagem, que é a aplicação de um esquema apenas quando os dados são acessados, é chamada de “esquema na leitura”.

A evolução dos data lakes

Durante muito tempo, as organizações dependeram de bancos de dados relacionais (desenvolvidos na década de 1970) e data warehouses (desenvolvidos na década de 1980) para gerenciar seus dados. Essas soluções ainda são parte importante dos ecossistemas de TI de muitas organizações, mas foram projetadas sobretudo para conjuntos de dados estruturados.

Com o crescimento da internet, especialmente a chegada das redes sociais e do streaming, as organizações se depararam com um aumento no volume de dados não estruturados, como texto e imagens em formato livre. Devido aos seus esquemas rigorosos e aos custos de armazenamento relativamente caros, os warehouses e bancos de dados relacionais estavam preparados para lidar com esse fluxo de dados.  

Em 2011, James Dixon, então diretor de tecnologia da Pentaho, cunhou o termo “data lake”. Dixon viu o lake como uma alternativa ao data warehouse. Enquanto os warehouses entregam dados pré-processados para casos de uso empresariais específicos, Dixon imaginou um data lake como um grande conjunto de dados alojados em seu formato natural. Os usuários poderiam extrair os dados necessários desse lake e usá-los como quisessem.

Muitos dos primeiros data lakes foram criados no Apache Hadoop, um framework de software de código aberto para processamento distribuído de grandes conjuntos de dados. Esses primeiros data lakes eram hospedados no local, mas isso logo se tornou um problema, à medida que o volume de dados continuava crescendo.

A computação em nuvem ofereceu uma solução: migrar os data lakes para serviços de armazenamento de objetos em nuvem mais escaláveis.

Os data lakes estão em evolução até hoje. Muitas soluções de data lake agora oferecem recursos além do armazenamento barato e escalável, como ferramentas de segurança de dados e governança, catálogos de dados e gerenciamento de metadados.

Os data lakes também são componentes centrais dos data lakehouses, uma solução de gerenciamento de dados relativamente nova que combina o armazenamento de baixo custo de um data lake e os recursos de análise de dados de alto desempenho de um warehouse (para saber mais, consulte “Data lakes vs. data lakehouses”).

Além desses componentes principais, as organizações podem criar outras camadas em suas arquiteturas de data lake para torná-las mais seguras e utilizáveis. Essas camadas podem incluir:

  • Várias camadas de armazenamento distintas para acomodar diferentes etapas de processamento de dados. Por exemplo, um data lake pode ter uma camada para dados brutos, uma camada para dados limpos e uma camada para dados de aplicações confiáveis. 

Data lakes vs data warehouses vs data lakehouses

Data lakes, warehouses e lakehouses são tipos de ferramentas de gerenciamento de dados, mas possuem diferenças importantes. Eles costumam ser usados juntos em uma arquitetura de dados integrada para atender a diversos casos de uso.  

Data lake vs data warehouse

Assim como um data lake, um data warehouse agrega dados de fontes de dados díspares em um único armazenamento, geralmente um sistema de banco de dados relacional. A principal diferença é que os data warehouses limpam e preparam os dados que ingerem para que estejam prontos uso na análise de dados.

Os data warehouses são projetados principalmente para permitir consultas de alto desempenho, análises quase em tempo real e atividades de business intelligence (BI). Como tal, são otimizados para dados estruturados e totalmente integrados a mecanismos de análise de dados, dashboards e ferramentas de visualização de dados.

Os warehouses tendem a ter um armazenamento mais caro, menos flexível e menos escalável do que os data lakes. As organizações geralmente usam armazéns para projetos de análise de dados específicos, enquanto recorrem aos data lakes para armazenamento em grande escala e multiuso.  

Data lake vs data lakehouse

Um data lakehouse é uma solução de gerenciamento de dados que combina o armazenamento de dados de um lake e os recursos de análise de dados de alto desempenho de um warehouse.

Assim como um data lake, um data lakehouse pode armazenar dados em qualquer formato a um custo baixo. Os data lakehouses também criam uma infraestrutura de análise de dados no estilo warehouse sobre o sistema de armazenamento de data lake na nuvem, combinando recursos das duas soluções.  

As organizações podem usar lakehouses para atender a inúmeras cargas de trabalho, incluindo IA, ML, BI e análise de dados. Lakehouses também podem servir como um caminho de modernização para arquiteturas de dados. As organizações podem colocar lakehouses ao lado de lakehouses existentes sem um esforço dispendioso de remoção e substituição.  

Casos de uso dos data lakes

Armazenamento multiuso

Muitas organizações usam data lakes como soluções de armazenamento multiuso para dados recebidos, pois podem armazenar petabytes de dados em qualquer formato com facilidade.  

Em vez de configurar diferentes pipelines de dados para diferentes tipos de dados, as organizações podem colocar todos os dados recebidos no armazenamento do data lake. Os usuários podem acessar os dados diretamente do data lake ou migrá-los para um warehouse ou outra plataforma de dados, conforme necessário.

As organizações podem até usar data lakes para armazenar dados “por precaução” com casos de uso ainda não definidos. Como os data lakes são baratos e escaláveis, as organizações não precisam se preocupar em gastar recursos em dados que talvez sejam desnecessários.

Backups, arquivos e dados inativos 

Altas capacidades e baixos custos de armazenamento fazem dos data lakes uma escolha comum para backups e recuperação de desastres.

Os data lakes também podem ser uma forma econômica de armazenar dados inativos ou com baixa frequência de acessos. Isso é útil para arquivar dados antigos e manter registros históricos que podem ajudar em auditorias de conformidade, consultas regulatórias ou até mesmo novas análises no futuro.

Cargas de trabalho de IA e ML

Os data lakes desempenham um papel importante nas cargas de trabalho de IA, ML e análise de big data, como o treinamento de aplicações de IA generativa e a criação de modelos preditivos. Esses projetos exigem grandes volumes de dados não estruturados, com os quais os data lakes podem lidar de forma barata e eficiente.  

De acordo com o CEO Study da IBM, 72% dos CEOs de alto desempenho concordam que as ferramentas de IA generativa mais avançadas oferecem à organização uma vantagem competitiva. Dada a importância da IA e do ML, faz sentido que os data lakes tenham se tornado um investimento fundamental em arquitetura de dados para muitas organizações.

Integração de dados 

Os data lakes ajudam a sustentar iniciativas de integração de dados, que visam combinar e harmonizar dados de várias fontes para que possam ser usados para várias finalidades analíticas, operacionais e de tomada de decisão.

De acordo com dados de benchmarking do IBM Institute for Business Value, 64% das organizações afirmam que a superação das barreiras organizacionais ao compartilhamento de dados é um dos seus maiores desafios relacionados às pessoas. Pesquisas mostram que até 68% dos dados organizacionais nunca são analisados. As organizações não conseguem ter o benefício pleno de seus dados se as pessoas não podem usá-los quando precisam.

Os data lakes podem facilitar o acesso a dados e o compartilhamento de dados, dando às organizações uma maneira fácil de armazenar todos os tipos de dados em um repositório central acessível.

Benefícios do data lake

Os data lakes ajudam as organizações a extrair mais valor dos seus dados de negócios, facilitando o armazenamento, compartilhamento e uso desses dados. Mais especificamente, os data lakes podem trazer:

  • Flexibilidade: os data lakes podem realizar ingestão de conjuntos de dados estruturados, semiestruturados e não estruturados. As organizações não precisam manter sistemas de armazenamento separados para diferentes tipos de dados, o que ajuda a simplificar as arquiteturas de dados.

  • Custos baixos: os dados não precisam passar por um processo caro de limpeza e transformação para armazenamento, e o armazenamento de objetos na nuvem é geralmente mais barato do que as alternativas locais. As organizações podem otimizar seus orçamentos e recursos de forma mais eficaz em todas as iniciativas de gerenciamento de dados.

  • Escalabilidade: como os data lakes separam recursos de computação e armazenamento, e como normalmente usam serviços de armazenamento em nuvem, eles são mais fáceis de escalar ou reduzir do que muitas outras soluções de armazenamento de dados. 

  • Menos silos de dados: de acordo com dados de benchmarking do IBM Institute for Business Value, 61% das organizações afirmam que os silos de dados são um de seus principais desafios. Os data lakes ajudam a derrubar silos de dados, removendo a necessidade de armazenar diferentes tipos de dados em locais diferentes. Um data lake central, ou um conjunto de data lakes, pode ser mais acessível do que armazenamentos de dados díspares espalhados por unidades de negócios.  

Desafios dos data lakes

Governança e qualidade dos dados

Como não impõem um esquema estrito e aceitam muitos tipos de dados diferentes de diversas fontes, os data lakes podem ter dificuldades com a governança de dados e a qualidade dos dados. Sem gerenciamento adequado, eles podem facilmente se tornar “pântanos de dados”, ou seja, atoleiros confusos de dados não confiáveis que dificultam a extração de insights praticáveis.

Para combater os pântanos de dados, as organizações podem investir em ferramentas de marcação e classificação, como sistemas de gerenciamento de metadados e catálogos de dados, que facilitam a navegação. 

Soluções de governança de dados e segurança, como controles de acesso, ferramentas de prevenção de perda de dados e soluções de detecção e resposta de dados, ajudam a garantir que os dados não sejam acessados, usados ou alterados sem autorização.  

Desempenho

Os data lakes não têm ferramentas internas de processamento e consulta como muitos warehouses e lakehouses. Além disso, o desempenho de consultas e análise de dados pode sofrer à medida que aumenta o volume de dados alimentados em um data lake, sobretudo se os dados não forem otimizados para recuperação.

Usar as ferramentas e configurações certas, como formatos de armazenamento e mecanismos de consulta otimizados, ajuda a garantir um alto desempenho, independentemente do tamanho do data lake.

Soluções relacionadas
IBM watsonx.data

Coloque seus dados para trabalhar, onde quer que estejam, com o data lakehouse aberto e híbrido para IA e análise de dados.

Conheça o watsonx.data
Soluções de data lake

Resolva os desafios de dados atuais com uma arquitetura lakehouse. Conecte-se a dados em minutos, obtenha insights confiáveis com rapidez e reduza os custos de seu data warehouse.

Explore as soluções de data lake da IBM
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data