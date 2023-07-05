Los data lakes existen desde hace más de una década y respaldan las operaciones analíticas de algunas de las mayores corporaciones mundiales. Algunos sostienen, sin embargo, que la gran mayoría de estas implementaciones se han convertido ahora en “pantanos” de datos. Independientemente del lado en el que se sitúe en esta controversia, la realidad es que todavía hay muchos datos almacenados en estos sistemas. Estos volúmenes de datos no son fáciles de mover, migrar o modernizar.
Los data lakes son, en términos generales, repositorios únicos de datos a gran escala. Los datos pueden almacenarse en su forma original bruta u optimizarse en un formato diferente adecuado para su consumo por motores especializados.
En el caso de Hadoop, uno de los data lakes más populares, la promesa de implementar un repositorio así usando código abierto y que todo funcionara en hardware comercial significaba que se podía almacenar muchos datos en estos sistemas a un coste muy bajo. Los datos podían persistir en formatos abiertos, democratizando su consumo, así como replicarse automáticamente, lo que ayudaba a mantener una alta disponibilidad. El marco de procesamiento por defecto ofrecía la posibilidad de recuperarse de los fallos en pleno vuelo. Se trataba, sin duda, de un cambio significativo con respecto a los entornos analíticos tradicionales, que a menudo implicaban la dependencia del proveedor y la incapacidad de trabajar con datos a escala.
Otro desafío inesperado fue la introducción de Spark como marco de procesamiento para big data. Ganó popularidad rápido gracias a su compatibilidad con transformaciones de datos, streaming y SQL. Pero nunca coexistió amistosamente dentro de los entornos de data lake existentes. Como resultado, a menudo se llevaba a crear clústeres de cómputo dedicados adicionales solo para poder ejecutar Spark.
Casi 15 años después, la realidad ha puesto de manifiesto las ventajas y desventajas que conlleva esta tecnología. Su rápida adopción significó que los clientes pronto perdieron la noción de lo que terminaba en el data lake. Y, lo que es igual de difícil, no podían saber de dónde procedían los datos, cómo se habían ingerido ni cómo se habían transformado en el proceso. El gobierno de datos sigue siendo una frontera inexplorada para esta tecnología. El software puede ser abierto, pero alguien necesita aprender a usarlo, mantenerlo y respaldarlo. Confiar en el apoyo de la comunidad no siempre produce los tiempos de respuesta requeridos por las operaciones comerciales. La alta disponibilidad a través de la replicación significa más copias de datos en más discos, más costos de almacenamiento y fallos más frecuentes. Un marco de procesamiento distribuido de alta disponibilidad significaba renunciar al rendimiento en favor de la resiliencia (estamos hablando de órdenes de magnitud de degradación del rendimiento para análisis interactivos y BI).
Los data lakes han resultado muy eficaces cuando las empresas pueden centrarse en escenarios de uso específicos. Pero lo que ha quedado claro es que existe una necesidad urgente de modernizar estas implementaciones y proteger las inversiones en la infraestructura, las skills y los datos de esos sistemas.
En una búsqueda de respuestas, los sectores examinaron las tecnologías de plataformas de datos existentes y sus puntos fuertes. Quedó claro que un enfoque eficaz era reunir las características clave de los almacenes de datos (data mart) tradicionales (heredados, por así decirlo) con lo que funcionaba mejor de los data lakes. Varios elementos se convirtieron rápidamente en apuestas mínimas:
Lo anterior ha llevado a la llegada del lakehouse de datos. Un lakehouse de datos es una plataforma de datos que fusiona los mejores aspectos de los almacenes de datos y los data lakes en una solución de gestión de datos cohesiva y unificada.
La respuesta de IBM a la encrucijada actual del análisis es watsonx.data. Este es un nuevo almacén de datos abierto para gestionar datos a escala que permite a las empresas rodear, aumentar y modernizar sus data lakes y almacenes de datos existentes sin necesidad de migrar. Su naturaleza híbrida significa que puede ejecutarlo en una infraestructura gestionada por el cliente (on-premises y/o IaaS) y en la nube. Se basa en una arquitectura lakehouse e integra un único conjunto de soluciones (y una pila de software común) para todos los factores de forma.
A diferencia de las ofertas de la competencia en el mercado, el enfoque de IBM se basa en una pila y una arquitectura de código abierto. No se trata de componentes nuevos, sino de componentes bien establecidos en el sector. IBM se ha ocupado de su interoperabilidad, coexistencia e intercambio de metadatos. Los usuarios pueden comenzar rápidamente, lo que reduce drásticamente el costo de entrada y adopción, con una arquitectura de alto nivel y los conceptos fundacionales son familiares e intuitivos:
Watsonx.data ofrece a las empresas un medio para proteger su inversión de décadas en data lakes y almacenamiento de datos. Les permite ampliar inmediatamente y modernizar gradualmente sus instalaciones centrando cada componente en los escenarios de uso más importantes para ellos.
Un diferenciador clave es la estrategia de multimotor que permite a los usuarios aprovechar la tecnología adecuada para el trabajo adecuado en el momento adecuado, todo ello a través de una plataforma de datos unificada. Watsonx.data permite a los clientes implementar almacenamiento por niveles totalmente dinámico (y computación asociada). Esto puede suponer, con el tiempo, un ahorro muy importante en costes de gestión de datos y procesamiento.
Y si, en última instancia, su objetivo es modernizar las implementaciones existentes de sus data lake con un lakehouse de datos moderno, watsonx.data facilita la tarea minimizando la migración de datos y la migración de aplicación via la elección de computación.
En los últimos años, los data lakes han desempeñado un papel importante en la estrategia de gestión de datos de la mayoría de las empresas. Si su objetivo es evolucionar y modernizar su estrategia de gestión de datos hacia una arquitectura de nube analítica híbrida, entonces el nuevo almacén de datos de IBM basado en una arquitectura de lakehouse de datos, watsonx.data, merece su consideración.
