¿Qué es una malla de datos?

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

¿Qué es una malla de datos?

Una malla de datos es una arquitectura de datos descentralizada que organiza los datos por dominio empresarial, como marketing, ventas o atención al cliente. Los productores de datos de dominio tratan sus datos como un producto, lo que permite a los usuarios empresariales encontrar, comprender y utilizar fácilmente los datos de toda la organización.

Este diseño basado en el dominio aborda muchos de los cuellos de botella operativos que se encuentran en los sistemas de datos centralizados y monolíticos. Sin embargo, adoptar una malla de datos no hace obsoletos los sistemas tradicionales de almacenamiento de datos (como los data lakes o los depósitos de datos). En cambio, su función pasa de ser la de plataformas de datos únicas y centralizadas a la de dar soporte a múltiples repositorios de datos descentralizados.

El concepto de malla de datos fue introducido y popularizado por Zhamak Dehghani, director de tecnología emergente de la consultora de TI ThoughtWorks. Propuso esta arquitectura de datos distribuidos como una solución a los desafíos inherentes de las arquitecturas de datos centralizadas, como la accesibilidad limitada y los silos organizacionales.

La malla de datos se compara comúnmente con una arquitectura de microservicios, donde una sola aplicación se compone de muchos servicios más pequeños y poco acoplados, porque ambos enfatizan la descentralización, la autonomía y la escalabilidad.

¿Por qué usar una malla de datos?

Todos los días, las organizaciones crean y recopilan cantidades masivas de datos. Cada departamento o unidad de negocio genera conjuntos de datos que a menudo se almacenan en repositorios dispares y, por lo general, los gestiona un equipo de datos centralizado.

Esta separación crea silos de datos: colecciones aisladas de datos operativos y analíticos que impiden el intercambio de datos, reducen la calidad de los datos y debilitan la toma de decisiones basada en datos. Los silos de datos también limitan la efectividad de las iniciativas de big data, machine learning (ML) e IA.

De hecho, según el IBM Data Differentiator, el 82 % de las empresas informa que los silos de datos interrumpen sus flujos de trabajo críticos, y el 68 % de los datos empresariales permanecen sin analizar.

Las arquitecturas de malla de datos distribuidas abordan estos desafíos descentralizando la propiedad y la gestión de los datos. En lugar de depender de un equipo de datos centralizado y de los pipelines tradicionales, la propiedad de los datos se transfiere a los equipos de dominio. Estos equipos gestionan sus propios datos y los ponen a disposición del resto de la organización como un producto a través de una infraestructura de datos de autoservicio.

Este enfoque de datos como producto enfatiza la accesibilidad, la gobernanza y la utilidad. Se basa en el principio de que los datos, al igual que cualquier producto de consumo de alta calidad, deben gestionarse y organizarse para satisfacer las necesidades específicas de los usuarios.

¿Qué es un producto de datos?

Un producto de datos es un recurso reutilizable e independiente que incluye datos, metadatos, semántica y plantillas. Está diseñado para casos de uso específicos y para atender a una amplia gama de usuarios en toda la empresa, ayudándoles a extraer un valor comercial significativo de datos que, de otro modo, podrían estar aislados.

Los productos de datos se desarrollan con un enfoque de pensamiento de producto y aplicando los principios tradicionales de desarrollo de productos. Este enfoque implica comprender las necesidades de datos de los usuarios, priorizar las características de alto valor e iterar en función del feedback.

Los productos de datos eficaces deben ser detectables, comprensibles, interoperables, compartibles, seguros y reutilizables.

¿Cómo funciona una malla de datos?

El paradigma de malla de datos es más que una simple implementación técnica. Implica un cambio cultural en la forma en que las organizaciones piensan sobre la propiedad y el acceso a los datos. Tradicionalmente, las organizaciones consideraban los datos de dominio como un subproducto de un proceso o sistema. Sin embargo, dado que la malla de datos trata los datos como un producto, los equipos de dominio se convierten en propietarios del producto de datos.

Según Zhamak Dehghani, hay cuatro principios básicos de la malla de datos:1

  1. Propiedad y arquitectura descentralizada de datos orientada al dominio
  2. Datos como producto
  3. Infraestructura de datos de autoservicio como plataforma
  4. Gobernanza computacional federada

Propiedad y arquitectura de datos descentralizadas y orientadas al dominio

Tradicionalmente, una infraestructura centralizada o un equipo de ingeniería de datos mantendría la propiedad de los datos en todos los dominios. En un modelo de malla de datos, esta propiedad es descentralizada y pasa a los equipos de dominio, aquellos más cercanos a los datos y más familiarizados con cómo se usa. Estos propietarios de datos son responsables de elaborar productos de datos adaptados a estos usos específicos.

Los equipos de dominio también gestionan sus propios flujos de trabajo de extracción, transformación y carga (ETL) o extracción, carga y transformación (ELT) dentro de una arquitectura de malla de datos. Sin embargo, esta responsabilidad no elimina la necesidad de un equipo de ingeniería de datos centralizado. En cambio, su función cambia para proporcionar y mantener las mejores soluciones de infraestructura de datos para almacenar y entregar productos de datos.

Datos como producto

Un enfoque de datos como producto (DaaP) trata los conjuntos de datos como productos comercializables que pueden ser entregados a diversos usuarios dentro y fuera de una organización. Los productos de datos de dominio se ponen a disposición de los usuarios de toda la organización a través de interfaces de programación de aplicaciones (API) o plataformas de intercambio de datos.

De esta manera, un enfoque de malla de datos permite una integración de datos más flexible y productos de datos interoperables. Los datos de múltiples dominios se pueden consumir fácilmente para analytics de datos, ciencia de datos, machine learning y otros casos de uso.

Infraestructura de datos de autoservicio como plataforma

Una plataforma de datos de autoservicio cuenta con herramientas que ayudan a los equipos de dominio, con un conocimiento menos especializado en la creación de productos, a crear, mantener y compartir nuevos productos de datos. El equipo de plataforma de datos puede proporcionar servicios de datos como almacenamiento de datos escalable, orquestación de pipeline de datos, linaje de datos y más.

La plataforma de autoservicio también puede tener diferentes niveles o capas para atender a distintos usuarios. Dehghani enumera tres ejemplos: un plano de aprovisionamiento de infraestructura de datos, un plano de experiencia del desarrollador de productos de datos y un plano de supervisión de malla de datos.

Gobernanza federada y gestión de proyectos

En un ecosistema de malla de datos, los equipos de dominio son responsables de definir las políticas de gobernanza de datos relacionadas con la documentación, la calidad y el acceso. Esto incluye mantener definiciones semánticas, catalogar metadatos y establecer permisos y políticas de uso.

Esta estandarización admite el acceso a datos de autoservicio en toda una organización, mientras que un equipo centralizado de gobernanza de datos establece y mantiene los estándares organizacionales.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Malla de datos vs. tejido de datos

El tejido de datos y la malla de datos son arquitecturas de datos complementarias. De hecho, los tejidos de datos suelen mejorar la funcionalidad y permiten la implementación de una malla de datos.

Un tejido datos utiliza sistemas inteligentes y automatizados para desglosar silos, gestionar los activos de datos y optimizar la gestión de datos a escala. Se centra en la automatización de la ingesta, la integración, la ingeniería y la gobernanza de datos. Por ejemplo, una red de datos puede automatizar partes clave de la malla de datos, como la creación de productos de datos y la gestión de su ciclo de vida.

Beneficios de una malla de datos

Las organizaciones que adoptan arquitecturas de malla de datos pueden experimentar una variedad de beneficios, entre ellos:

  • Democratización y accesibilidad de los datos
  • Eficiencia de costos
  • Flexibilidad para escalar
  • Reducción de la deuda técnica
  • Interoperabilidad mejorada
  • Mayor seguridad y cumplimiento

Democratización y accesibilidad de los datos

Las arquitecturas de malla de datos pueden facilitar el acceso a los datos de autoservicio al hacer que los conjuntos de datos sean detectables y utilizables. Esta democratización amplía el acceso a los datos más allá de los equipos técnicos, como científicos de datos, ingenieros de datos y desarrolladores. Con una gobernanza adecuada, este enfoque también puede reducir el silo de datos y los cuellos de botella operativos, permitiendo una toma de decisiones más rápida y ágil.

Eficiencias de costos

La arquitectura distribuida de la malla de datos puede fomentar la adopción de plataformas y pipelines de datos en la nube para la transmisión de datos en tiempo real. Estas herramientas pueden mejorar la visibilidad de los costos de almacenamiento y procesamiento, lo que permite una mejor asignación de presupuestos y recursos para los equipos de ingeniería.

Flexibilidad para escalar

Cuando las organizaciones implementan una malla de datos en una infraestructura en la nube, los equipos de datos pueden ampliar los recursos de almacenamiento y computación según sea necesario. Por ejemplo, si se requiere potencia de cálculo adicional para completar un trabajo en horas en lugar de días, la empresa puede aprovisionar fácilmente nodos de cálculo adicionales temporales.

Reducción de la deuda técnica

Distribuir la responsabilidad del pipeline de datos por dominio elimina la complejidad y la colaboración necesarias para mantener un sistema de datos centralizado. Este enfoque descentralizado reduce las tensiones técnicas y la deuda, y acelera la entrega a los consumidores de datos.

Interoperabilidad mejorada

La malla de datos anima a los equipos de dominio a ponerse de acuerdo sobre campos y formatos de datos estandarizados e independientes del dominio (como tipo de campo, metadatos y banderas de esquema). Estas reglas compartidas facilitan la integración y la reutilización, ya que permiten aplicar de forma rápida y sencilla las reglas pertinentes en todos los dominios.

Mayor seguridad y cumplimiento

Las arquitecturas de malla de datos ayudan a aplicar reglas de datos y controles de acceso a nivel de dominio mediante reglas estandarizadas y observabilidad integrada. Esta sólida postura de gobernanza ayuda a garantizar que las organizaciones cumplan con las regulaciones relacionadas con datos confidenciales, como la Ley de Portabilidad y Responsabilidad del Seguro Médico de EE. UU. (HIPAA).

Casos de uso de una malla de datos

A través de la propiedad del dominio y un ecosistema de datos descentralizado, las arquitecturas de malla de datos ayudan a las organizaciones a mejorar la accesibilidad y usabilidad de los datos en una variedad de casos de uso, que incluyen:

Paneles de business intelligence (BI)

Los conjuntos de datos localizables, de propiedad del dominio y curados respaldan las iniciativas de BI. Los equipos pueden agregar fácilmente estos conjuntos de datos a paneles de BI y visualizaciones de datos sin la asistencia técnica de un equipo central de ingeniería de datos.

Asistentes virtuales automatizados

Los chatbots y agentes virtuales rinden mejor cuando tienen acceso a datos de calidad y relevantes. Una arquitectura de malla de datos ayuda a poner a disposición de estos sistemas fuentes de datos de alta calidad de diferentes dominios.

Experiencia del cliente

Las organizaciones pueden obtener una visión más unificada de sus clientes combinando datos estandarizados de clientes de todos los dominios. Esta vista puede mejorar la experiencia general del cliente, incluidos los esfuerzos de personalización y focalización.

Proyectos de machine learning e IA

Los datos estandarizados reducen el tiempo que los científicos de datos deben dedicar a combinar datos de distintos ámbitos. Este ahorro de tiempo acelera el procesamiento de datos y aumenta la cantidad de modelos que pueden moverse a un entorno de producción.

Representación 3D de una espiral de varios iconos alineados, como una cámara, una perilla de volumen y un portapapeles
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data
Notas de pie de página

Data Mesh Principles and Logical Architecture,” Martin Fowler. 3 de diciembre de 2020.