¿Qué es una malla de datos?

13 de abril de 2022

¿Qué es una malla de datos?

Una malla de datos es una arquitectura de datos descentralizada que organiza los datos por un dominio comercial específico, por ejemplo, marketing, ventas, servicio de atención al cliente y más, para brindar mayor propiedad a los productores de un conjunto de datos determinado.

La comprensión de los productores de los datos del dominio les permite establecer políticas de gobierno de datos centradas en la documentación, la calidad y el acceso. Esto, a su vez, permite el uso del autoservicio en toda la organización. Aunque este enfoque federado elimina muchos cuellos de botella operativos asociados con los sistemas centralizados y monolíticos, no significa necesariamente que no pueda utilizar sistemas de almacenamiento tradicionales, como data lakes o almacenes de datos. Simplemente significa que su uso ha pasado de una única plataforma de datos centralizada a múltiples repositorios de datos descentralizados.

Cabe señalar que la malla de datos promueve la adopción de tecnologías nativas de la nube y de plataformas en la nube para escalar y alcanzar los objetivos de la gestión de datos. Este concepto se compara comúnmente con los microservicios para ayudar a la audiencia a comprender su uso dentro de este panorama. Dado que esta arquitectura distribuida es particularmente útil para escalar las necesidades de datos en toda una organización, se puede inferir que una malla de datos puede no ser adecuada para todos los tipos de empresas; es decir, es posible que las empresas más pequeñas no obtengan los beneficios de una malla de datos, ya que sus datos empresariales pueden no ser tan complejos como los de una organización más grande.

A Zhamak Dehghani, director de tecnología de la consultora de TI ThoughtWorks, se le atribuye la promoción del concepto de malla de datos como solución a los retos inherentes a las estructuras de datos centralizadas y monolíticas, como la accesibilidad y la organización de los datos. Su adopción se vio impulsada aún más por la pandemia de COVID-19 en un esfuerzo por impulsar el cambio cultural y reducir la complejidad organizativa en torno a los datos.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Cómo funciona una malla de datos?

Una malla de datos implica un cambio cultural en la forma en que las empresas piensan sobre sus datos. En lugar de que los datos actúen como un subproducto de un proceso, se convierten en el producto, donde los productores de datos actúan como propietarios de los productos de datos. Históricamente, un equipo de infraestructura centralizado mantenía la propiedad de los datos en todos los dominios, pero el enfoque de pensamiento de producto bajo un modelo de malla de datos desplaza esta propiedad a los productores, ya que son los expertos en la materia. Su comprensión de los principales consumidores de datos y cómo aprovechan los datos operativos y los datos analíticos del dominio les permite diseñar API con sus mejores intereses en mente.

Aunque este diseño impulsado por el dominio también responsabiliza a los productores de datos de la documentación de las definiciones semánticas, la catalogación de los metadatos y el establecimiento de políticas para los permisos y el uso, sigue existiendo un equipo de gobierno de datos centralizado para hacer cumplir estas normas y procedimientos en torno a los datos. Además, mientras que los equipos de dominio se convierten en responsables de sus canalizaciones de datos ETL bajo una arquitectura de malla de datos, no elimina la necesidad de un equipo de ingeniería de datos centralizado. Sin embargo, su responsabilidad se centra más en determinar las mejores soluciones de infraestructura de datos para los productos de datos que se almacenan.

De forma similar a cómo una arquitectura de microservicios acopla servicios ligeros para proporcionar funcionalidad a una aplicación orientada al negocio o al consumidor, una malla de datos utiliza dominios funcionales como forma de establecer parámetros en torno a los datos, lo que permite tratarlos como un producto al que pueden acceder usuarios de toda la organización. De este modo, una malla de datos permite una integración de datos más flexible y una funcionalidad interoperable, en la que los datos de múltiples dominios pueden ser consumidos inmediatamente por los usuarios para analytics y la experimentación de ciencia de datos y mucho más.

Mixture of Experts | 25 de abril, episodio 52

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Malla de datos vs. data lake

Como se ha indicado anteriormente, una malla de datos es una arquitectura de datos distribuidos, en la que los datos se organizan por su dominio para hacerlos más accesibles a los usuarios de una organización. Un data lake es un entorno de almacenamiento de bajo coste, que suele albergar petabytes de datos estructurados, semiestructurados y datos no estructurados para analytics, machine learning y otras aplicaciones amplias. Una malla de datos es un método arquitectónico de los datos, del que puede formar parte un data lake. Sin embargo, un data lake central se suele utilizar como un vertedero de datos, ya que con frecuencia se utiliza para consumir datos que aún no tienen un propósito definido. Como resultado, puede convertirse en víctima de un pantano de datos, es decir, un data lake que carece de la calidad de los datos y las prácticas de gobierno de datos adecuadas para proporcionar aprendizajes reveladores.

Malla de datos vs. tejido de datos

Un tejido de datos es un concepto de arquitectura, y se centra en la automatización de la integración, la ingeniería y el gobierno de datos en una cadena de valor de datos entre consumidores de datos y proveedores de datos. Un tejido de datos se basa en el concepto de “metadatos activos” que utiliza gráficos de conocimiento, semántica y tecnología de inteligencia artificial/machine learning para descubrir patrones en varios tipos de metadatos (por ejemplo, registros del sistema, redes sociales, etc.) y aplicar este conocimiento para automatizar y orquestar la cadena de valor de los datos (por ejemplo, permitir que un consumidor de datos encuentre un producto de datos y luego que ese producto de datos se le suministre automáticamente). Un tejido de datos es complementario a una malla de datos, en lugar de ser mutuamente excluyentes. De hecho, el tejido de datos mejora la malla de datos porque puede automatizar partes clave de la malla de datos, como crear productos de datos más rápidamente, aplicar el gobierno global y facilitar la orquestación de la combinación de múltiples productos de datos.

Beneficios de una malla de datos

Democratización de los datos: las arquitecturas de malla de datos facilitan las aplicaciones de autoservicio de múltiples fuentes de datos, ampliando el acceso a los datos más allá de los recursos más técnicos, como científicos de datos, ingenieros de datos y desarrolladores. Al hacer que los datos sean más reconocibles y accesibles a través de este diseño basado en dominios, reduce los silos de datos y los cuellos de botella operativos, lo que permite una toma de decisiones más rápida y libera a los usuarios técnicos para priorizar las tareas que utilizan mejor sus habilidades.

Eficiencias de coste: esta arquitectura distribuida se aleja del proceso de datos por lotes y, en cambio, promueve la adopción de plataformas de datos en la nube y canalizaciones de transmisión para recopilar datos en tiempo real. El almacenamiento en la nube ofrece una ventaja económica adicional, ya que permite a los equipos de datos crear grandes clústeres según sus necesidades, pagando solo por el almacenamiento especificado. Esto significa que si necesita potencia de cálculo adicional para ejecutar un trabajo en unas horas en lugar de en unos días, puede hacerlo fácilmente en una plataforma de datos en nube adquiriendo nodos de cálculo adicionales. Esto también significa que mejora la visibilidad de los costos de almacenamiento, lo que permite una mejor asignación de presupuesto y recursos para los equipos de ingeniería.

Menos deuda técnica: una infraestructura de datos centralizada provoca más deuda técnica debido a la complejidad y a la colaboración necesaria para mantener el sistema. A medida que los datos se acumulan en un repositorio, también comienzan a ralentizar el sistema en general. Al distribuir la canalización de datos por propiedad del dominio, los equipos de datos pueden satisfacer mejor las demandas de sus consumidores de datos y reducir los problemas técnicos del sistema de almacenamiento. También pueden ofrecer más accesibilidad a los datos al proporcionarles API con las que interactuar, lo que reduce el volumen total de solicitudes individuales.

Interoperabilidad: bajo un modelo de malla de datos, los propietarios de los datos acuerdan cómo estandarizar los campos de datos independientes del dominio por adelantado, lo que facilita la interoperabilidad. De este modo, cuando un equipo de dominio estructura sus respectivos conjuntos de datos, aplica las reglas pertinentes para permitir la vinculación de datos entre dominios de forma rápida y sencilla. Algunos campos comúnmente estandarizados son el tipo de campo, los metadatos, las marcas de esquema y más. La coherencia entre dominios permite a los consumidores de datos interactuar con las API más fácilmente y desarrollar aplicaciones que satisfagan sus necesidades empresariales de forma más adecuada.

Seguridad y cumplimiento: las arquitecturas de malla de datos promueven prácticas de gobierno más sólidas, puesto que ayudan a aplicar estándares de datos para datos independientes del dominio y controles de acceso para datos confidenciales. Esto garantiza que las organizaciones sigan las regulaciones del gobierno, como las restricciones HIPPA, y la estructura de este ecosistema de datos respalda este cumplimiento a través de la habilitación de auditorías de datos. El registro y el rastreo de datos en una arquitectura de malla de datos incorpora la observabilidad en el sistema, lo que permite a los auditores comprender qué usuarios acceden a datos específicos y la frecuencia de ese acceso.

Casos de uso de una malla de datos

Aunque las arquitecturas de malla de datos distribuidos aún están ganando adeptos, están ayudando a los equipos a alcanzar sus objetivos de escalabilidad para los casos de uso habituales de big data. Entre ellos figuran:

  • Paneles de control de inteligencia empresarial: A medida que surgen nuevas iniciativas, los equipos suelen necesitar vistas de datos personalizadas para comprender el rendimiento de estos proyectos. Las arquitecturas de malla de datos pueden apoyar esta necesidad de flexibilidad y personalización poniendo los datos más a disposición de los consumidores de datos.

  • Asistentes virtuales automatizados: las empresas suelen utilizar los chatbots para ayudar a los call center y a los equipos de servicio de atención al cliente. Como las preguntas más frecuentes pueden afectar a varios conjuntos de datos, una arquitectura de datos distribuida puede poner más activos de datos a disposición de estos sistemas de agentes virtuales.

  • Experiencia del cliente: los datos de los clientes permiten a las empresas comprender mejor a sus usuarios, lo que les permite ofrecer experiencias más personalizadas. Esto se ha observado en una variedad de sectores, desde el marketing hasta la atención médica.

  • Proyectos de machine learning: al estandarizar los datos independientes del dominio, los científicos de datos pueden unir más fácilmente datos de varias fuentes de datos, reduciendo el tiempo dedicado al proceso de datos. Este tiempo puede ayudar a acelerar el número de modelos que se mueven a un entorno de producción, lo que permite alcanzar los objetivos de automatización.
Soluciones relacionadas
IBM Data Product Hub

Gestione los datos como un producto a lo largo del ciclo de vida. Controle el ciclo de vida de los productos de datos, desde su incorporación hasta su retirada, con un sólido sistema de versionado, mantenimiento y actualización de los mismos.

Explore Data Product Hub
Soluciones IBM Data Intelligence

Transforme rápidamente los datos sin procesar en conocimiento práctico, unifique el gobierno, la calidad, el linaje y el uso compartido de los datos, y capacite a los consumidores de datos con datos fiables y contextualizados.

Explore soluciones de inteligencia de datos
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Explore los servicios de análisis
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explore soluciones analíticas Descubra Data Product Hub