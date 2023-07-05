Los lagos de datos son, a un alto nivel, repositorios únicos de datos a escala. Los datos pueden almacenarse en su forma original sin procesar u optimizarse en un formato diferente adecuado para el consumo por parte de motores especializados.

En el caso de Hadoop, uno de los lagos de datos más populares, la promesa de implementar un repositorio de este tipo utilizando software de código abierto y que todo se ejecutara en hardware básico significaba que podía almacenar una gran cantidad de datos en estos sistemas a un costo muy bajo. Los datos podían persistir en formatos abiertos, democratizando su consumo, así como replicarse automáticamente, lo que ayudaba a mantener una alta disponibilidad. El marco de procesamiento predeterminado ofrecía la capacidad de recuperarse de fallas a mitad de camino. Esto fue, sin duda, una desviación significativa de los entornos analíticos tradicionales, lo que a menudo significaba vendor lock-in (dependencia de proveedores) y la incapacidad de trabajar con datos a escala.

Otro desafío inesperado fue la introducción de Spark como marco de procesamiento para big data. Ganó popularidad rápidamente debido a su soporte para transformaciones de datos, transmisión y SQL. Pero nunca coexistió amigablemente dentro de los entornos de lagos de datos existentes. Como resultado, a menudo conducía a clústeres de cómputo dedicados adicionales solo para poder ejecutar Spark.

Casi 15 años después, la realidad ha dejado claro cuáles son las ventajas y desventajas que conlleva esta tecnología. Su rápida adopción significó que los clientes pronto perdieran la pista de lo que terminaba en el lago de datos. Igual de desafiante, no podían saber de dónde procedían los datos, cómo se habían ingerido ni cómo se habían transformado en el proceso. La gobernanza de datos sigue siendo una frontera inexplorada para esta tecnología. El software puede ser abierto, pero alguien debe aprender a usarlo, mantenerlo y brindarle soporte. Confiar en el apoyo de la comunidad no siempre produce los tiempos de respuesta requeridos por las operaciones comerciales. La alta disponibilidad mediante una replicación significa más copias de datos en más discos, más costos de almacenamiento y fallas más frecuentes. Un marco de procesamiento distribuido de alta disponibilidad significaba renunciar al rendimiento en favor de la resiliencia (estamos hablando de una degradación del rendimiento de varios órdenes de magnitud para analytics y BI).