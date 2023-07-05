Os data lakes são, em um alto nível, repositórios únicos de dados em escala. Os dados podem ser armazenados em sua forma original bruta ou armazenados em um formato diferente adequado para consumo por mecanismos especializados.

No caso do Hadoop, um dos data lakes mais populares, a promessa de implementar tal repositório usando código aberto e ter tudo rodando em hardware comum significava que você poderia armazenar muitos dados nesses sistemas a um custo muito baixo. Os dados podiam persistir em formatos de dados abertos, democratizando o consumo, bem como replicados automaticamente, o que ajudava a manter a alta disponibilidade. O framework de processamento padrão oferecia a capacidade de recuperação de falhas no meio do voo. Esse foi, sem dúvida, um desvio significativo dos ambientes analíticos tradicionais, que muitas vezes significavam lock-in com fornecedor e a incapacidade de trabalhar com dados em escala.

Outro desafio inesperado foi a introdução do Spark como framework de processamento para big data. Ele ganhou popularidade rápida devido à sua compatibilidade com transformações de dados, streaming e SQL. Mas nunca coexistiu amigavelmente nos ambientes de data lake existentes. Como resultado, muitas vezes isso levava a clusters de computação dedicados adicionais apenas para poder executar o Spark.

Avanços rápidos de quase 15 anos e a realidade mostraram claramente as compensações e compromissos que essa tecnologia implicava. Sua rápida adoção significava que os clientes logo perdiam a noção do que acabava no data lake. E, igualmente desafiador, eles não conseguiam dizer de onde os dados vinham, como haviam sido ingeridos nem como haviam sido transformados no processo. A gestão de dados continua sendo uma fronteira inexplorada para essa tecnologia. O software pode ser aberto, mas alguém precisa aprender como usá-lo, mantê-lo e apoiá-lo. Confiar no apoio da comunidade nem sempre produz os tempos de resposta exigidos pelas operações comerciais. Alta disponibilidade por meio de replicação significava mais cópias de dados em mais discos, mais custos de armazenamento e falhas mais frequentes. Um framework de processamento distribuído altamente disponível significava abrir mão do desempenho em favor da resiliência (estamos falando de uma degradação de desempenho de ordens de magnitude para análise de dados interativa e BI).