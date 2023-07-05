Los lagos de datos existen desde hace más de una década y respaldan las operaciones analíticas de algunas de las corporaciones más grandes del mundo. Sin embargo, algunos argumentan que la gran mayoría de estas implementaciones ahora se han convertido en “pantanos” de datos. Independientemente del lado de esta controversia en el que se encuentre, la realidad es que todavía hay muchos datos almacenados en estos sistemas. Dichos volúmenes de datos no son fáciles de mover, migrar o modernizar.
Boletín de la industria
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Los lagos de datos son, a un alto nivel, repositorios únicos de datos a escala. Los datos pueden almacenarse en su forma original sin procesar u optimizarse en un formato diferente adecuado para el consumo por parte de motores especializados.
En el caso de Hadoop, uno de los lagos de datos más populares, la promesa de implementar un repositorio de este tipo utilizando software de código abierto y que todo se ejecutara en hardware básico significaba que podía almacenar una gran cantidad de datos en estos sistemas a un costo muy bajo. Los datos podían persistir en formatos abiertos, democratizando su consumo, así como replicarse automáticamente, lo que ayudaba a mantener una alta disponibilidad. El marco de procesamiento predeterminado ofrecía la capacidad de recuperarse de fallas a mitad de camino. Esto fue, sin duda, una desviación significativa de los entornos analíticos tradicionales, lo que a menudo significaba vendor lock-in (dependencia de proveedores) y la incapacidad de trabajar con datos a escala.
Otro desafío inesperado fue la introducción de Spark como marco de procesamiento para big data. Ganó popularidad rápidamente debido a su soporte para transformaciones de datos, transmisión y SQL. Pero nunca coexistió amigablemente dentro de los entornos de lagos de datos existentes. Como resultado, a menudo conducía a clústeres de cómputo dedicados adicionales solo para poder ejecutar Spark.
Casi 15 años después, la realidad ha dejado claro cuáles son las ventajas y desventajas que conlleva esta tecnología. Su rápida adopción significó que los clientes pronto perdieran la pista de lo que terminaba en el lago de datos. Igual de desafiante, no podían saber de dónde procedían los datos, cómo se habían ingerido ni cómo se habían transformado en el proceso. La gobernanza de datos sigue siendo una frontera inexplorada para esta tecnología. El software puede ser abierto, pero alguien debe aprender a usarlo, mantenerlo y brindarle soporte. Confiar en el apoyo de la comunidad no siempre produce los tiempos de respuesta requeridos por las operaciones comerciales. La alta disponibilidad mediante una replicación significa más copias de datos en más discos, más costos de almacenamiento y fallas más frecuentes. Un marco de procesamiento distribuido de alta disponibilidad significaba renunciar al rendimiento en favor de la resiliencia (estamos hablando de una degradación del rendimiento de varios órdenes de magnitud para analytics y BI).
Los lagos de datos han demostrado ser exitosos cuando las empresas han podido reducir el enfoque en escenarios de uso específicos. Pero lo que ha quedado claro es que urge modernizar estos despliegues y proteger la inversión en infraestructuras, habilidades y los datos contenidos en esos sistemas.
En busca de respuestas, la industria analizó las tecnologías existentes de plataformas de datos y sus fortalezas. Quedó claro que un enfoque eficaz era reunir las características clave de los almacenes tradicionales (heredados, si así se quiere) con lo que funcionaba mejor de los lagos de datos. Varios elementos se convirtieron rápidamente en apuestas:
Lo anterior ha propiciado el advenimiento del lakehouse de datos. Un lakehouse de datos es una plataforma de datos que combina los mejores aspectos de los almacenes de datos y los lagos de datos en una solución de gestión de datos unificada y cohesiva.
La respuesta de IBM a la encrucijada actual de analytics es watsonx.data. Se trata de un nuevo almacén de datos abierto para gestionar datos a escala que permite a las empresas rodear, aumentar y modernizar sus lagos de datos y almacenes de datos existentes sin necesidad de migrar. Su naturaleza híbrida significa que puede ejecutarlo en una infraestructura gestionada por el cliente (on premises y/o IaaS) y en la nube. Se basa en una arquitectura de lakehouse e incorpora un único conjunto de soluciones (y una pila de software común) para todos los factores de forma.
A diferencia de las ofertas de la competencia en el mercado, el enfoque de IBM se basa en una pila y una arquitectura de código abierto. Estos no son componentes nuevos, sino componentes bien establecidos en la industria. IBM se ha ocupado de su interoperabilidad, coexistencia e intercambio de metadatos. Los usuarios pueden comenzar rápidamente, lo que reduce de manera drástica el costo de entrada y adopción, con una arquitectura de alto nivel y los conceptos fundacionales que son familiares e intuitivos:
Watsonx.data ofrece a las empresas un medio para proteger su inversión de décadas en lagos de datos y almacenamiento. Les permite expandir inmediatamente y modernizar gradualmente sus instalaciones enfocando cada componente en los escenarios de uso más importantes para ellas.
Un diferenciador clave es la estrategia multimotor que permite a los usuarios aprovechar la tecnología adecuada para el trabajo correcto en el momento adecuado, todo a través de una plataforma de datos unificada. Watsonx.data permite a los clientes implementar almacenamiento por niveles totalmente dinámico (y la computación asociada). Con el tiempo, esto puede suponer un ahorro muy significativo en los costos de gestión y procesamiento de datos.
Y si, en última instancia, su objetivo es modernizar sus despliegues de lagos de datos existentes con un lakehouse de datos moderno, watsonx.data facilita la tarea al minimizar la migración de datos y la migración de aplicaciones mediante la elección de la computación.
En los últimos años, los lagos de datos han desempeñado un papel importante en la estrategia de gestión de datos de la mayoría de las empresas. Si su objetivo es evolucionar y modernizar su estrategia de gestión de datos hacia una arquitectura de nube de analytics verdaderamente híbrida, entonces el nuevo almacén de datos de IBM basado en una arquitectura de lakehouse de datos, watsonx.data, merece su consideración.
Obtenga insights únicos del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y analytics.
Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de analytics e IA.
Vincule su estrategia de datos y analytics a los objetivos empresariales al seguir estos 4 pasos clave.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.