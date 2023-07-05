Los data lakes son, en términos generales, repositorios únicos de datos a gran escala. Los datos pueden almacenarse en su forma original bruta u optimizarse en un formato diferente adecuado para su consumo por motores especializados.

En el caso de Hadoop, uno de los data lakes más populares, la promesa de implementar un repositorio así usando código abierto y que todo funcionara en hardware comercial significaba que se podía almacenar muchos datos en estos sistemas a un coste muy bajo. Los datos podían persistir en formatos abiertos, democratizando su consumo, así como replicarse automáticamente, lo que ayudaba a mantener una alta disponibilidad. El marco de procesamiento por defecto ofrecía la posibilidad de recuperarse de los fallos en pleno vuelo. Se trataba, sin duda, de un cambio significativo con respecto a los entornos analíticos tradicionales, que a menudo implicaban la dependencia del proveedor y la incapacidad de trabajar con datos a escala.

Otro desafío inesperado fue la introducción de Spark como marco de procesamiento para big data. Ganó popularidad rápido gracias a su compatibilidad con transformaciones de datos, streaming y SQL. Pero nunca coexistió amistosamente dentro de los entornos de data lake existentes. Como resultado, a menudo se llevaba a crear clústeres de cómputo dedicados adicionales solo para poder ejecutar Spark.

Casi 15 años después, la realidad ha puesto de manifiesto las ventajas y desventajas que conlleva esta tecnología. Su rápida adopción significó que los clientes pronto perdieron la noción de lo que terminaba en el data lake. Y, lo que es igual de difícil, no podían saber de dónde procedían los datos, cómo se habían ingerido ni cómo se habían transformado en el proceso. El gobierno de datos sigue siendo una frontera inexplorada para esta tecnología. El software puede ser abierto, pero alguien necesita aprender a usarlo, mantenerlo y respaldarlo. Confiar en el apoyo de la comunidad no siempre produce los tiempos de respuesta requeridos por las operaciones comerciales. La alta disponibilidad a través de la replicación significa más copias de datos en más discos, más costos de almacenamiento y fallos más frecuentes. Un marco de procesamiento distribuido de alta disponibilidad significaba renunciar al rendimiento en favor de la resiliencia (estamos hablando de órdenes de magnitud de degradación del rendimiento para análisis interactivos y BI).