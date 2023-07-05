Os data lakes existem há mais de uma década, apoiando as operações analíticas de algumas das maiores corporações mundiais. Alguns, no entanto, argumentam que a grande maioria dessas implementações agora se tornaram “pântanos” de dados. Independentemente de qual lado dessa disputa você esteja, a realidade é que ainda há uma grande quantidade de dados mantidos nesses sistemas. Esses volumes de dados não são fáceis de migrar, migrar ou modernizar.
Os data lakes são, em um alto nível, repositórios únicos de dados em escala. Os dados podem ser armazenados em sua forma original bruta ou armazenados em um formato diferente adequado para consumo por mecanismos especializados.
No caso do Hadoop, um dos data lakes mais populares, a promessa de implementar tal repositório usando código aberto e ter tudo rodando em hardware comum significava que você poderia armazenar muitos dados nesses sistemas a um custo muito baixo. Os dados podiam persistir em formatos de dados abertos, democratizando o consumo, bem como replicados automaticamente, o que ajudava a manter a alta disponibilidade. O framework de processamento padrão oferecia a capacidade de recuperação de falhas no meio do voo. Esse foi, sem dúvida, um desvio significativo dos ambientes analíticos tradicionais, que muitas vezes significavam lock-in com fornecedor e a incapacidade de trabalhar com dados em escala.
Outro desafio inesperado foi a introdução do Spark como framework de processamento para big data. Ele ganhou popularidade rápida devido à sua compatibilidade com transformações de dados, streaming e SQL. Mas nunca coexistiu amigavelmente nos ambientes de data lake existentes. Como resultado, muitas vezes isso levava a clusters de computação dedicados adicionais apenas para poder executar o Spark.
Avanços rápidos de quase 15 anos e a realidade mostraram claramente as compensações e compromissos que essa tecnologia implicava. Sua rápida adoção significava que os clientes logo perdiam a noção do que acabava no data lake. E, igualmente desafiador, eles não conseguiam dizer de onde os dados vinham, como haviam sido ingeridos nem como haviam sido transformados no processo. A gestão de dados continua sendo uma fronteira inexplorada para essa tecnologia. O software pode ser aberto, mas alguém precisa aprender como usá-lo, mantê-lo e apoiá-lo. Confiar no apoio da comunidade nem sempre produz os tempos de resposta exigidos pelas operações comerciais. Alta disponibilidade por meio de replicação significava mais cópias de dados em mais discos, mais custos de armazenamento e falhas mais frequentes. Um framework de processamento distribuído altamente disponível significava abrir mão do desempenho em favor da resiliência (estamos falando de uma degradação de desempenho de ordens de magnitude para análise de dados interativa e BI).
Os data lakes se mostraram bem-sucedidos quando as empresas conseguiram restringir o foco para cenários de uso específicos. Mas o que ficou claro é que há uma necessidade urgente de modernizar essas implementações e proteger o investimento em infraestrutura, skills e os dados mantidos nesses sistemas.
Em busca de respostas, o setor analisou as tecnologias de plataforma de dados existentes e seus pontos fortes. Ficou claro que uma abordagem eficaz era reunir as características principais de warehouses ou data marts tradicionais (legados, por assim dizer) com o que funcionava melhor em data lakes. Vários itens rapidamente alcançaram o topo:
O acima exposto levou ao advento do data lakehouse. Um data lakehouse é uma plataforma de dados que mescla os melhores aspectos dos datawarehouses e data lakes em uma solução de gerenciamento de dados coesa e unificada.
A resposta da IBM para a atual encruzilhada da análise de dados é o watsonx.data. Esse é um novo armazenamento de dados aberto para gerenciar dados em escala que permite às empresas cercar, aumentar e modernizar seus data lakes e data warehouses existentes sem a necessidade de migração. Sua natureza híbrida significa que você pode executá-lo em uma infraestrutura gerenciada pelo cliente (no local e/ou IaaS) e na nuvem. Ele se baseia em uma arquitetura de lakehouse e incorpora um único conjunto de soluções (e stack de software comum) para todos os formatos.
Contrastando com as ofertas concorrentes no mercado, a abordagem da IBM se baseia em uma stack e arquitetura de código aberto. Esses não são componentes novos, mas componentes bem estabelecidos no setor. A IBM cuidou de sua interoperabilidade, coexistência e troca de metadados. Os usuários podem começar rapidamente, reduzindo drasticamente o custo de entrada e adoção, com arquitetura de alto nível e conceitos fundamentais familiares e intuitivos:
O watsonx.data oferece às empresas um meio de proteger seu investimento de décadas em data lake e armazenamento. Isso permite que eles expandam imediatamente e modernizem gradualmente suas instalações, concentrando cada componente nos cenários de uso mais importantes para eles.
Um diferencial importante é a estratégia de multimecanismos, que permite que os usuários aproveitem a tecnologia certa para o trabalho certo no momento certo, tudo por meio de uma plataforma de dados unificada. O watsonx.data permite que os clientes implementem armazenamento em camadas totalmente dinâmico (e computação associada). Isso pode levar, com o tempo, a economias muito significativas no gerenciamento de dados e processamento.
E se, finalmente, seu objetivo é modernizar as implementações existentes de data lakes com um data lakehouse moderno, o watsonx.data facilita a tarefa, minimizando a migração de dados e a migração de aplicações por meio da escolha da computação.
Nos últimos anos, os data lakes desempenharam um papel importante na estratégia de gerenciamento de dados da maioria das empresas. Se seu objetivo é evoluir e modernizar sua estratégia de gerenciamento de dados para uma arquitetura de nuvem de análise de dados verdadeiramente híbrida, então o novo armazenamento de dados da IBM construído em uma arquitetura de data lakehouse, o watsonx.data, merece sua consideração.
