O que é um data lake?

O que é um data lake?

Um data lake é um repositório projetado para armazenar grandes volumes de dados brutos, normalmente usando armazenamento de objetos na nuvem de baixo de custo. Esta abordagem permite a ingestão e o armazenamento de dados estruturados, semiestruturados e não estruturados dentro de uma única plataforma.

Os data lakes surgiram para ajudar as organizações a gerenciar a avalanche de big data gerada por aplicações e serviços conectados à internet no final dos anos 2000 e início dos anos 2010. Ao contrário dos bancos de dados e data warehouses tradicionais, os data lakes não impõem esquemas rígidos e os data lakes atuais utilizam um armazenamento em nuvem escalável e acessível, tornando-os ideais para grandes quantidades de dados diversos.

Os data lakes são agora um componente central das muitas arquiteturas de dados das organizações. Eles são usados como um armazenamento de uso geral e de baixo custo; arquivos de dados antigos ou não utilizados; áreas de retenção para dados recebidos; ou para armazenar os enormes conjuntos de dados não estruturados necessários para a ciência de dados, aprendizado de máquina (ML), inteligência artificial (IA) e cargas de trabalho de análise de big data.

Apesar das necessidades de dados em constante evolução e das arquiteturas emergentes (como os data lakehouses), a flexibilidade de baixo custo dos data lakes continua se mostrando vantajosa para empresas que geram valor a partir de grandes volumes de dados. Até 2030, espera-se que o mercado global de data lakes atinja US$ 45,8 bilhões, crescendo a um CAGR de 23,9% a partir de 2024.1

Por que os data lakes são importantes?

Os volumes de dados empresariais estão começando a parecer tão ilimitados quanto as estrelas no céu noturno – são vastos, ilimitados e aparentemente intermináveis.

Os dados chegam de sensores da Internet das Coisas (IoT), feeds de redes sociais, aplicações empresariais e inúmeras outras fontes. Sem um local econômico e escalável para armazenar tudo, as organizações correm o risco de um erro estratégico: deixar petabytes de dados desconhecidos e não utilizados.

Esses dados podem conter os insights necessários para liberar novas fontes de receita, impulsionar a eficiência operacional real ou oferecer experiências do cliente hiperpersonalizadas. Isso também pode ser fundamental para garantir que os investimentos em IA sejam eficazes e rentáveis: 72% dos CEOs chegam a afirmar que os dados proprietários são essenciais para liberar o valor da IA generativa. 2

Mas perceber o valor desses dados depende de mais do que apenas um lugar para armazená-los. Também requer um fácil acesso para uso colaborativo. De acordo com um estudo de 2025 do IBM Institute for Business Value, 82% dos diretores de dados entrevistados consideram os dados desperdiçados se os funcionários não puderem acessá-los para a tomada de decisão.3

Como repositórios centralizados, os data lakes podem melhorar significativamente a acessibilidade a dados anteriormente isolados. Normalmente, eles oferecem acesso a dados por autoatendimento, capacitando os usuários não técnicos a acessar e analisar conjuntos de dados confiáveis de toda a empresa, aumentando a colaboração e acelerando a inovação.

A história e evolução dos data lakes

Durante muito tempo, as organizações dependeram de bancos de dados relacionais (desenvolvidos na década de 1970) e data warehouse (desenvolvidos na década de 1980) para gerenciar seus dados. Essas soluções ainda são partes importantes dos ecossistemas de TI de muitas organizações, mas foram projetadas principalmente para conjuntos de dados estruturados.

Com o crescimento da internet, e especialmente com a chegada das redes sociais e do streaming de mídia, as organizações se viram lidando com vastas quantidades de dados não estruturados, como textos e imagens em formato livre. Os data warehouses e bancos de dados relacionais estavam mal preparados para lidar com esse fluxo de dados em tempo real devido à sua rigidez de esquemas e seus custos de armazenamento relativamente caros.

Em 2011, James Dixon, então diretor de tecnologia da Pentaho, cunhou o termo "data lake". Dixon viu o lago como uma alternativa ao data warehouse. Enquanto os warehouses fornecem dados processados para casos de uso comerciais direcionados, Dixon imaginou um data lake como um grande corpo de dados armazenados em seu formato natural. Os usuários poderiam extrair os dados de que precisavam desse lake e usá-los como quisessem.

Muitos dos primeiros data lakes foram construídos com base no Hadoop Distributed File System (HDFS), um framework de código aberto e um dos principais componentes do Apache Hadoop. Esses primeiros data lakes eram hospedados localmente, mas isso rapidamente se tornou um problema à medida que o volume de dados continuou aumentando. A computação em nuvem ofereceu uma solução: migrar os data lakes para serviços de armazenamento de objetos baseado na nuvem mais escaláveis.

Atualmente, os data lakes ainda estão evoluindo. Muitas soluções de data lake agora oferecem funcionalidades além do armazenamento escalável e barato, como segurança de dados e ferramentas de governança, catálogos de dados e gerenciamento de metadados.

Os data lakes também são componentes centrais dos data lakehouses, uma solução de gerenciamento de dados relativamente nova que combina o armazenamento de baixo custo de um data lake e as capacidades de análise de dados de alto desempenho de um warehouse.

Arquitetura de Data Lake

Uma arquitetura típica de data lake é organizada em várias camadas, cada uma suportando um estágio do ciclo de vida dos dados.

  • Camada de ingestão
  • Camada de armazenamento
  • Camada de catálogo de dados e metadados
  • Camada de processamento e análise de dados
  • Camada de segurança e governança
  • Camada de acesso

Camada de ingestão

A camada de ingestão conecta o armazenamento central do data lake a várias fontes de dados, como bancos de dados, aplicações e dispositivos e sensores da Internet das Coisas (IoT). A maioria dos data lakes usa um processo de extração, carregamento e transformação (ELT) (em vez de extração, transformação e carregamento (ETL)) nesta camada. Eles ingerem dados em seu estado original a partir de vários pipelines de dados, mas não os transformam até que sejam necessários. Essa abordagem, que é a aplicação de um esquema apenas quando os dados são acessados, é chamada de "esquema na leitura".

Camada de armazenamento

Embora os primeiros data lakes tenham sido desenvolvidos com base no Apache Hadoop, o núcleo de um data lake moderno é um serviço de armazenamento de objeto na nuvem, que pode ser implementado em ambientes locais, na nuvem privada e na nuvem pública. Opções comuns incluem Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage.

O armazenamento de objetos na nuvem permite que as organizações armazenem diferentes tipos de dados brutos no mesmo armazenamento de dados. Também é geralmente mais escalável e econômico do que o armazenamento no local. Os provedores de armazenamento em nuvem permitem que as organizações criem grandes clusters de armazenamento (servidores que funcionam como um sistema unificado) sob demanda, exigindo pagamento apenas pelo armazenamento utilizado.

Camada de catálogo de dados e de metadados

O catálogo de dados e a camada de metadados permitem que os usuários encontrem e entendam os dados dentro do data lake. Os catálogos de dados funcionam como um inventário detalhado de dados. Eles usam metadados (como autor, dados de criação e tamanho do arquivo) e ferramentas de gerenciamento de dados para ajudar os usuários a descobrir, entender, gerenciar, selecionar e acessar os dados com facilidade.

Sem essa camada, os data lakes podem se deteriorar e se transformar em pântanos de dados, verdadeiros emaranhados onde os bons dados são inacessíveis por falta de metadados, estrutura e governança. Os pântanos de dados são, na prática, "depósitos" de dados.

Camada de processamento e análise de dados

Como o armazenamento e a computação são separados em uma arquitetura de data lake, o processamento de dados e a análise são realizados por meio de integração com mecanismos de computação. Nessa camada, os data lakes oferecem suporte a uma ampla gama de ferramentas. Exemplos comuns incluem mecanismos de processamento de big data, como o Apache Spark e Hive; frameworks de aprendizado de máquina e deep learning, como TensorFlow; e bibliotecas de análise de dados, como o Pandas.

Camada de segurança e governança

Acima de tudo, o armazenamento em data lake deve ser seguro, especialmente quando contém informações pessoais ou sensíveis sobre funcionários e clientes. As camadas de segurança e governança incluem recursos como soluções integradas de gestão de dados, criptografia e controles de acesso por meio do gerenciamento de acesso e identidade (IAM). Essas soluções ajudam a proteger contra acessos não autorizados e oferecem suporte ao gerenciamento eficaz de dados em todas as outras camadas.

Esses recursos também ajudam as organizações a atender aos requisitos regulatórios das leis de privacidade de dados, como o Regulamento Geral de Proteção de Dados (RGPD) e a Lei de portabilidade e responsabilidade de planos de saúde (HIPAA) dos EUA.

Camada de acesso

Uma das principais vantagens dos data lakes é o acesso a dados brutos, anteriormente inacessíveis. A camada de acesso permite que os usuários consultem, explorem e extraiam insights do lake. Os usuários posteriores normalmente incluem engenheiros e cientistas de dados, bem como usuários corporativos com menos conhecimento técnico.

Essa camada utiliza interfaces de consulta e interfaces de programação de aplicativos (APIs) para conectar os usuários aos dados. Exemplos comuns incluem mecanismos de consulta SQL, como APIs Presto e Spark.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Benefícios do data lake

Os data lakes ajudam as organizações a obter mais valor de seus dados, tornando-os mais fáceis de compartilhar e usar. Mais especificamente, os data lakes podem oferecer:

  • Coleta e ingestão de dados flexíveis e fáceis
  • Otimização de custos e recursos
  • Escalabilidade e desempenho
  • Tomada de decisão mais rápida e mais colaborativa
Coleta e ingestão de dados flexíveis e fáceis

Os data lakes podem ingerir e armazenar dados em uma ampla variedade de formatos, incluindo conjuntos de dados estruturados, semiestruturados e não estruturados. Eles também são compatíveis com vários métodos de ingestão, sejam uploads em lote ou streaming de dados em tempo real. Essa flexibilidade permite que as organizações coletem dados de diversas fontes (como dispositivos IoT, feeds de mídias sociais ou sistemas internos) sem a necessidade de transformações complexas ou soluções de armazenamento separadas.

Otimização de custos e recursos

Com data lakes, os dados podem ser ingeridos e armazenados em seu formato nativo bruto, evitando assim processos caros e antecipados de limpeza e transformação. O armazenamento de objeto na nuvem é geralmente mais econômico do que as alternativas locais, e o uso de tecnologias de código aberto para processamento reduz ainda mais os custos. Essas economias possibilitam que as organizações otimizem seus processos de gerenciamento de dados, alocando orçamento e recursos de forma mais eficaz em todas as iniciativas.

Escalabilidade e desempenho

Os data lakes separam os recursos de computação e armazenamento e frequentemente usam serviços de armazenamento em nuvem, tornando mais fácil escalar a capacidade e a computação em comparação com muitas outras soluções de armazenamento de dados.Essa arquitetura permite que eles lidem com o crescimento massivo de dados (crítico para cargas de trabalho de IA e ML) sem degradação de desempenho.

Tomada de decisão mais rápida e mais colaborativa

Os data lakes ajudam a reduzir os silos de dados ao unificar as informações em uma fonte única da verdade que pode ser acessada em toda a organização, em vez de espalhada entre as unidades de negócios. Os analistas e cientistas de dados não precisam perder tempo acessando diretamente várias fontes e, em vez disso, podem acessar, consultar e usar rapidamente os dados de que precisam.

Esse repositório centralizado ajuda a acelerar a preparação de dados, incentiva a reutilização e oferece suporte a uma tomada de decisão mais colaborativa baseada em dados. Através desses benefícios, as organizações também podem experimentar a inovação acelerada e os esforços de pesquisa e desenvolvimento.

Data warehouses vs. data lakes vs. data lakehouses

Data lakes, warehouses e lakehouses são todos tipos distintos de soluções de armazenamento de dados. Mas suas diferenças se complementam, e frequentemente são usadas juntas em uma arquitetura de dados integrada para apoiar vários casos de uso.

Data lakes vs. data warehouses

Assim como um data lake, um data warehouse agrega dados de fontes díspares em um armazenamento central.A principal diferença é que um data warehouse normalmente limpa e prepara os dados antes da ingestão, para que estejam imediatamente prontos para análise.

Os warehouses são otimizados para dados estruturados e totalmente integrados a mecanismos de análise de dados, dashboards de business intelligence (BI) e ferramentas de visualização de dados. Dessa forma, os warehouses tendem a oferecer um forte desempenho, mas a um custo mais alto e com menos flexibilidade do que os data lakes. As organizações geralmente usam data warehouses para projetos de análise de dados específicos, enquanto contam com data lakes para armazenamento de dados multiuso em grande escala.

Data lakes vs. data lakehouses

Um data lakehouse é uma solução de gerenciamento de dados que combina o armazenamento de dados flexível e de baixo custo de um data lake com os recursos de análise de dados de alto desempenho de um warehouse.Assim como um data lake, um data lakehouse pode armazenar dados em qualquer formato por um baixo custo.No entanto, ele também fornece uma infraestrutura de análise de dados no estilo de warehouse sobre o armazenamento de data lake na nuvem.

As organizações podem usar lakehouses para atender a inúmeras cargas de trabalho, incluindo IA, ML, BI e análise de dados em tempo real. Os lakehouses também podem servir como um caminho de modernização para arquiteturas de dados: as organizações podem colocar os lakehouses junto com os lakehouses existentes sem um esforço dispendioso de remoção e substituição.

Casos de uso dos data lakes

As organizações podem usar os data lakes por uma ampla variedade de razões em diferentes setores. Alguns dos mais comuns são:

  • Armazenamento multiuso
  • Backups de dados e arquivamento
  • Análise de dados avançada e IA
  • Integração de dados

Armazenamento multiuso

Para muitas organizações, os data lakes funcionam como soluções de armazenamento multiuso para grandes volumes de dados. Em vez de gastar tempo e recursos transformando os dados para ingestão, as organizações podem armazenar os dados brutos recebidos em armazenamento de objeto escalável, o que pode armazenar facilmente petabytes de dados em praticamente qualquer formato. Os usuários podem consultar os dados diretamente do data lake usando Analytics Engine ou migrá-los para um data warehouse ou outra plataforma de dados, conforme necessário.

As organizações também podem usar data lakes para armazenar dados "por precaução" com casos de uso ainda indefinidos. Como o armazenamento de objetos é relativamente barato e escalável, as organizações não precisam se preocupar em gastar demais com dados que talvez ainda não sejam necessários.

Backup de dados e arquivamento

Alta capacidade de armazenamento e custos relativamente baixos tornam os data lakes um componente comum em estratégias de backup e recuperação de desastres para dados críticos. Os data lakes também são frequentemente usados para armazenar dados frios ou inativos a um custo menor. Essa abordagem é útil para arquivar dados antigos e manter registros históricos para auditorias de conformidade, consultas regulatórias ou futuros casos de uso de análise de dados.

Por exemplo, os setores bancário e financeiro geram dados de transações de alta velocidade de mercados de ações, cartões de crédito e outras atividades financeiras. Também deve reter documentos legais e outros registros para atender aos requisitos regulatórios e de auditoria. As arquiteturas de data lake são adequadas para armazenar esses formatos de dados mistos e preservar dados legados e históricos para facilitar as consultas.

Análise de dados avançada e IA

De acordo com o Estudo de CEO da IBM de 2025, 61% dos CEOs de melhor desempenho concordam que ter as ferramentas de IA generativa mais avançadas dá uma vantagem competitiva à organização. Os data lakes desempenham um papel importante em cargas de trabalho de IA, ML e análise de big data, incluindo a construção de modelos preditivos e o treinamento de sistemas de IA generativa.

Esses projetos exigem acesso a conjuntos de dados grandes e diversificados de dados estruturados, não estruturados e semiestruturados. A arquitetura de data lake fornece os recursos econômicos e escaláveis de armazenamento e integração com frameworks de processamento para atender a essas necessidades.

Integração de dados

De acordo com dados de benchmarking do IBM Institute for Business Value, 64% das organizações relatam que eliminar as barreiras organizacionais ao compartilhamento de dados é um dos maiores desafios relacionados às pessoas.As organizações não conseguem aproveitar totalmente seus dados se eles estiverem isolados e de difícil acesso.

Os data lakes podem ajudar a apoiar iniciativas de integração de dados, fornecendo um repositório centralizado para dados de múltiplas fontes. Ao consolidar diversos dados em um ambiente, eles criam uma base sólida para a harmonização e transformação subsequentes.

Desafios dos data lakes

Embora os data lakes ofereçam escalabilidade, flexibilidade e vantagens de custo, há três desafios principais que as organizações devem considerar.

  • Qualidade de dados: como os data lakes não impõem um esquema estrito e aceitam muitos tipos de dados diferentes de muitas fontes, eles podem ter dificuldades com a gestão e a qualidade dos dados.Sem a gestão adequada, os data lakes podem facilmente se tornar pântanos de dados.

  • Segurança de dados: os data lakes armazenam grandes volumes de dados diversos de muitas fontes diferentes. Pode ser um desafio garantir que todos esses dados não sejam acessados, usados ou alterados sem autorização e que estejam em total conformidade com os regulamentos de privacidade de dados.

  • Desempenho: os data lakes não têm ferramentas internas de processamento e consulta como muitos warehouses e lakehouses. O desempenho de consultas e análises pode sofrer à medida que aumenta o volume de dados alimentados em um data lake, sobretudo se os dados não estiverem otimizados para recuperação.
Techsplainers | Podcast | O que é um data lake?

Ouça: 'O que é um data lake?'

Siga o Techsplainers: Spotify, Apple Podcasts e Casted.

Perguntas frequentes sobre data lakes

Como evito um pântano de dados?

Evitar pântanos de dados requer fortes práticas de gestão de dados, qualidade de dados e segurança de dados desde o primeiro dia. Definir e aplicar padrões de dados, gerenciamento e documentação de metadados e controles de acesso ajudará a garantir que os data lakes permaneçam organizados, úteis e seguros.

Dinesh Nirmal, Vice-Presidente Sênior da IBM Software, destaca que esses princípios são especialmente críticos ao preparar data lakes para viabilizar a IA generativa:

"Embora os dados não sejam estruturados, é importante aplicar a mesma governança e segurança que você usa para os dados estruturados. Há uma grande oportunidade aí: a IA generativa só terá sucesso se fornecermos dados governados e confiáveis aos modelos."

Eu realmente preciso de um data lake?

Talvez você não precise de um data lake, a menos que gerencie grandes volumes de dados semiestruturados e não estruturados para IA, aprendizado de máquina ou ciência de dados. Os data lakes oferecem armazenamento em nuvem escalável e econômico com computação separada. Ou então, um data lakehouse combina essa escalabilidade com os recursos integrados de análise de dados de um data warehouse.

Os data lakes são seguros?

Os data lakes não são seguros por padrão e podem ser alvos principais de ameaças à segurança, pois são repositórios centralizados de grandes volumes de dados (alguns dos quais contêm informações confidenciais). Data lakes seguros utilizam criptografia de dados, controles de acesso e proteções de rede para proteger os conjuntos de dados contra acessos não autorizados.

É possível executar aprendizado de máquina diretamente em um data lake?

Sim, os data lakes são muito adequados para aprendizado de máquina porque contêm os enormes volumes de dados brutos e diversos necessários para treinar, validar, ajustar e implementar modelos ML . Utilizando processamento de dados e mecanismos de análise de dados (como o Apache Spark), as equipes de ciência de dados podem acessar e preparar conjuntos de dados brutos diretamente no lake para construir e refinar seus modelos.

Autores

Alexandra Jonker

Staff Editor

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Soluções relacionadas
IBM watsonx.data

Coloque seus dados para trabalhar, onde quer que estejam, com o data lakehouse aberto e híbrido para IA e análise de dados.

Conheça o watsonx.data
Soluções de data lake

Resolva os desafios de dados atuais com uma arquitetura lakehouse. Conecte-se a dados em minutos, obtenha insights confiáveis com rapidez e reduza os custos de seu data warehouse.

Explore as soluções de data lake da IBM
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.

  1. Explore soluções de análise de dados
  2. Conheça os serviços de análise de dados
Notas de rodapé

1 Data lakes, Global Industry Analysts, 01 de outubro de 2025.

2 2025 CEO Study: 5 mindshifts to supercharge business growth: Move from productivity to performance with agentic AI, IBM Institute for Business Value, maio de 2025.

3 The 2025 CDO Study: The AI multiplier effect, IBM Institute for Business Value, 12 de novembro de 2025.