Trinidad de plataformas de datos: ¿competitiva o complementaria?

Tres mujeres sentadas en una mesa redonda con ordenadores portátiles, trabajando juntas

Autor

Sandipan Sarkar

Distinguished Engineer

IBM Consulting

La arquitectura de plataformas de datos tiene una historia interesante. Hacia el cambio de milenio, las empresas empezaron a darse cuenta de que la carga de trabajo de informes e inteligencia empresarial requería una nueva solución en lugar de las aplicaciones transaccionales. Surgió una plataforma de lectura optimizada que puede integrar datos de múltiples aplicaciones. Era Datawarehouse.

En otra década, Internet y los dispositivos móviles comenzaron a generar datos de volumen, variedad y velocidad imprevistos. Requería una solución de plataforma de datos diferente. Así surgió el data lake, que maneja datos estructurados y no estructurados con un gran volumen.

Pasó otra década más. Y quedó claro que el data lake y el datawarehouse ya no son suficientes para gestionar la complejidad empresarial y la nueva carga de trabajo de las empresas. Es demasiado caro. El valor de los proyectos de datos es difícil de entender. Las plataformas de datos son difíciles de cambiar. El tiempo exigió una nueva solución, una vez más.

¿Adivina qué? Esta vez, están surgiendo al menos tres soluciones de plataforma de datos diferentes: lakehouse de datos, data fabric y data mesh. Aunque esto es alentador, también está generando confusión en el mercado. Los conceptos y valores se superponen. A veces surgen diferentes interpretaciones en función de a quién se pregunte.

Este artículo trata de aliviar esas confusiones. Se explicarán los conceptos. Y luego se introducirá un marco que mostrará cómo estos tres conceptos pueden conducir el uno al otro o usarse juntos.

Lakehouse de datos: una plataforma mayoritariamente nueva

Databricks popularizó el concepto de lakehouse. Lo definieron como: "Un lakehouse de datos es una nueva arquitectura de gestión de datos abierta que combina la flexibilidad, la rentabilidad y la escala de los data lakes con la gestión de datos y las transacciones ACID de los almacenes de datos, lo que permite la inteligencia empresarial (BI) y el aprendizaje automático (ML) en todos los datos".

Mientras que los almacenes de datos tradicionales utilizaban un proceso de extracción, transformación y carga (ETL) para consumir datos, los data lakes se basan en un proceso de extracción, carga y transformación (ELT). Los datos extraídos de múltiples fuentes se cargan en un almacenamiento BLOB barato, luego se transforman y se almacenan en un almacén de datos, que utiliza un almacenamiento en bloque caro.

Esta arquitectura de almacenamiento es inflexible e ineficiente. La transformación debe realizarse de manera continua para mantener sincronizados el almacenamiento de BLOB y el almacén de datos, lo que añade costes. Y la transformación continua sigue consumiendo mucho tiempo. Cuando los datos estén listos para su análisis, los conocimientos que puedan aportar estarán obsoletos en comparación con el estado actual de los sistemas transaccionales.

Además, el almacenamiento de almacén de datos no puede soportar cargas de trabajo como la inteligencia artificial (IA) o el machine learning (ML), que requieren enormes cantidades de datos para el entrenamiento de modelos. Para estas cargas de trabajo, los proveedores de data lake suelen recomendar extraer los datos en archivos planos que se utilizarán únicamente con fines de entrenamiento y pruebas de modelos. Esto añade un paso ETL adicional, lo que hace que los datos sean aún más obsoletos.

El lakehouse de datos se creó para resolver estos problemas. La capa de almacenamiento del almacén de datos se elimina de las arquitecturas lakehouse. En su lugar, se realiza una transformación de datos continua dentro del almacenamiento BLOB. Se añaden varias API para que distintos tipos de cargas de trabajo puedan utilizar los mismos cubos de almacenamiento. Esta es una arquitectura muy adecuada para la nube, ya que AWS S3 o Azure DLS2 pueden proporcionar el almacenamiento necesario.

Data fabric: una arquitectura mayoritariamente nueva

El data fabric representa una nueva generación de arquitectura de plataformas de datos. Se puede definir como: Una colección débilmente acoplada de servicios distribuidos, que permite que los datos correctos estén disponibles en la forma correcta, en el momento y lugar correctos, a partir de fuentes heterogéneas de naturaleza transaccional y analítica, en cualquier nube y on-premises, generalmente a través de autoservicio, al tiempo que cumple con los requisitos no funcionales, incluida la rentabilidad, el rendimiento, el gobierno, la seguridad y el cumplimiento.

El objetivo del data fabric es hacer que los datos estén disponibles donde y cuando se necesiten, abstrayendo las complejidades tecnológicas implicadas en el movimiento, la transformación y la integración de los datos, para que cualquiera pueda utilizarlos. Algunas características clave del data fabric son:

Una red de nodos de datos

Un data fabric se compone de una red de nodos de datos (por ejemplo, plataformas de datos y bases de datos), todos interactuando entre sí para proporcionar un mayor valor. Los nodos de datos están repartidos por el ecosistema de computación híbrida y multinube de la empresa.

Cada nodo puede ser diferente de los demás

Un data fabric puede constar de varios almacenes de datos, data lakes, dispositivos IoT/Edge y bases de datos transaccionales. Puede incluir tecnologías que van desde Oracle, Teradata y Apache Hadoop hasta Snowflake en Azure, RedShift en AWS o MS SQL en el centro de datos on-premises, por nombrar solo algunas.

Todas las fases del ciclo de vida de los datos y la información

El data fabric abarca todas las fases del ciclo de vida de los datos, la información y el conocimiento. Un nodo de la estructura puede proporcionar datos sin procesar a otro que, a su vez, realiza análisis. Estos análisis se pueden exponer como API REST dentro de la estructura, de modo que los sistemas de registro transaccionales los puedan consumir para la toma de decisiones.

Los mundos analítico y transaccional se unen

El data fabric está diseñado para reunir los mundos analítico y transaccional. Aquí, todo es un nodo, y los nodos interactúan entre sí a través de una variedad de mecanismos. Algunos de ellos requieren el movimiento de datos, mientras que otros permiten el acceso a datos sin movimiento. La idea subyacente es que los silos de datos (y la diferenciación) acabarán desapareciendo en esta arquitectura.

La seguridad y el gobierno se hacen cumplir en todo el ámbito

Las políticas de seguridad y gobierno se aplican cada vez que los datos viajan o se accede a ellos en todo el data fabric. Al igual que Istio aplica el gobierno de la seguridad a los contenedores en Kubernetes, el data fabric aplicará políticas a los datos de acuerdo con principios similares, en tiempo real.

Descubribilidad de los datos

El data fabric promueve la detectabilidad de los datos. Aquí, los activos de datos se pueden publicar en categorías, creando un mercado de datos a nivel empresarial. Este mercado ofrece un mecanismo de búsqueda que utiliza metadatos y un gráfico de conocimientos para permitir la detección de activos. Esto permite el acceso a los datos en todas las etapas de su ciclo de vida de valor.

La llegada del data fabric abre nuevas oportunidades para transformar las culturas empresariales y los modelos operativos. Dado que los data fabric son distribuidos pero inclusivos, su uso promueve un gobierno federado pero unificado. Esto hará que los datos sean más fiables y dignos de confianza. El mercado facilitará a las partes interesadas de la empresa el descubrimiento y el uso de los datos para innovar. A los equipos diversos les resultará más fácil colaborar y gestionar los activos de datos compartidos con un propósito común.

El data fabric es una arquitectura integral, en la que algunas tecnologías nuevas (por ejemplo, la virtualización de datos) desempeñan un papel clave. Pero permite que las bases de datos y las plataformas de datos existentes participen en una red, donde un catálogo de datos o un mercado de datos pueden ayudar a descubrir nuevos activos. Los metadatos desempeñan un papel clave en este sentido a la hora de descubrir los activos de datos.

Data mesh: una cultura mayoritariamente nueva

Thoughtworks introduce la data mesh como concepto. Lo definieron como: "... Una arquitectura de datos analíticos y un modelo operativo donde los datos se tratan como un producto y son propiedad de equipos que conocen y consumen los datos de la manera más profunda." El concepto se basa en cuatro principios: propiedad del dominio, datos como producto, plataformas de datos de autoservicio y gobierno computacional federado.

Data fabric y data mesh como conceptos se superponen. Por ejemplo, ambas recomiendan una arquitectura distribuida, a diferencia de las plataformas centralizadas, como el almacén de datos, el data lake y el lakehouse de datos. Ambos quieren dar a conocer la idea de un producto de datos ofrecido a través de un marketplace.

También existen diferencias. Como se desprende claramente de la definición anterior, a diferencia del data fabric, la data mesh se trata de datos analíticos. Su enfoque es más limitado que el del data fabric. En segundo lugar, hace hincapié en el modelo operativo y la cultura, lo que significa que va más allá de una arquitectura como el data fabric. La naturaleza del producto de datos puede ser genérica en data fabric, mientras que la malla de datos prescribe claramente la propiedad de los productos de datos basada en el dominio.

Explore la relación entre el lakehouse de datos, el data fabric y la data mesh

Está claro que estos tres conceptos tienen su propio enfoque y fuerza. Sin embargo, la superposición es evidente.

Lakehouse se distingue de los otros dos. Es una nueva tecnología, como sus predecesoras. Se puede codificar. Existen varios productos en el mercado, incluidos Databricks, Azure Synapse y Amazon Athena.

La data mesh requiere un nuevo modelo operativo y un cambio cultural. A menudo, estos cambios culturales requieren un cambio en la mentalidad colectiva de la empresa. Como resultado, la data mesh puede ser revolucionaria por naturaleza. Se puede construir desde cero en una parte más pequeña de la organización antes de extenderse al resto.

El data fabric no tiene requisitos previos como la data mesh. No se espera tal cambio cultural. Se puede construir utilizando los activos existentes, en los que la empresa ha invertido durante años. Por tanto, su enfoque es evolutivo.

Entonces, ¿cómo puede una empresa adoptar todos estos conceptos?

Aborde las plataformas de datos antiguas mediante la adopción de un lakehouse de datos

Puede adoptar un lakehouse como parte de su propio proceso de evolución de la plataforma de datos. Por ejemplo, un banco puede deshacerse de su almacén de datos de hace una década y ofrecer todos los casos de uso de BI e IA desde una única plataforma de datos, mediante la implementación de un lakehouse.

Aborde la complejidad de los datos con una arquitectura de data fabric

Si la empresa es compleja y tiene múltiples plataformas de datos, si la detección de datos es un desafío, si la entrega de datos en diferentes partes de la organización es difícil, el data fabric puede ser una buena arquitectura para adoptar. Junto con los nodos de plataforma de datos existentes, también pueden participar uno o varios nodos de lakehouse. Incluso las bases de datos transaccionales también pueden unirse a la red fabric como nodos para ofrecer o consumir activos de datos.

Aborde la complejidad empresarial con un recorrido de data mesh

Para abordar la complejidad del negocio, si la empresa se embarca en un cambio cultural hacia la propiedad de los datos basada en el dominio, promueve el autoservicio en la detección de datos y la entrega de datos y adopta el gobierno federado, se encuentra en un recorrido hacia al data mesh. Si la arquitectura de data fabric ya está implementada, la empresa puede utilizarla como facilitador clave en su viaje hacia la data mesh. Por ejemplo, el mercado de data fabric puede ofrecer productos de datos centrados en el dominio, un resultado clave de la data mesh. El descubrimiento basado en metadatos ya establecido como una capacidad a través del data fabric puede ser útil para descubrir los nuevos productos de datos que salen de la malla.

Cada empresa puede analizar sus objetivos empresariales respectivos y decidir qué punto de entrada le conviene más. Pero aunque los puntos de entrada o las motivaciones pueden ser diferentes, una empresa puede utilizar fácilmente los tres conceptos juntos en su búsqueda de la centralidad de los datos.

Soluciones relacionadas
Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos
IBM watsonx.data

Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data