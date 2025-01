Os primeiros data lakes eram frequentemente construídos com base no sistema de arquivos distribuídos do Apache Hadoop (HDFS). Data lakes modernos frequentemente usam um armazenamento de objetos em nuvem, como o Amazon Simple Storage Service (S3), Microsoft Azure Blob armazenamento ou IBM Cloud Object Storage.

Os data lakes separam o armazenamento de dados dos recursos de computação, o que os torna mais econômicos e escaláveis do que os data warehouses. As organizações podem adicionar mais armazenamento sem escalar os recursos de computação junto com ele. O armazenamento é compatível com uma maior escalabilidade, pois as organizações podem aumentar o armazenamento sem expandir os recursos no local.

Para processar dados em um data lake, os usuários podem conectar ferramentas externas de processamento de dados, como o Apache Spark. Ao contrário de um data warehouse, essas ferramentas de processamento não são incorporadas ao lake.