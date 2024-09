Os data lakes também são comumente associados ao Apache Hadoop, uma estrutura de software de código aberto que oferece processamento distribuído confiável e de baixo custo para armazenamento de big data. Tradicionalmente, eles eram implementados no local, mas, conforme indicado no relatório da 451 Research, os adotantes estão migrando rapidamente para ambientes de nuvem, pois eles oferecem mais flexibilidade aos usuários finais. Diferentemente das implementações no local, os provedores de armazenamento em nuvem permitem que os usuários criem grandes clusters conforme necessário, exigindo apenas o pagamento pelo armazenamento específico. Isso significa que, se você precisar de mais potência de computação para executar um trabalho em algumas horas em vez de alguns dias, poderá fazer isso facilmente em uma plataforma de nuvem adquirindo nós de computação adicionais. A Forrester Research (link externo ao site ibm.com) relata que as empresas que usam data lakes na nuvem em vez de data lakes no local obtêm uma economia de aproximadamente 25%.

No Hadoop, o Hadoop Distributed File System (HDFS) armazena e replica dados em vários servidores, enquanto o Yet Another Resource Negotiator (YARN) determina como alocar recursos entre esses servidores. Em seguida, você pode usar o Apache Spark para criar um grande espaço de memória para processamento de dados, permitindo que usuários mais avançados acessem dados por meio de interfaces usando Python, R e Spark SQL.



À medida que o volume de dados cresce a uma taxa exponencial, os data lakes servem como um componente essencial do pipeline de dados.