Una malla de datos es una arquitectura de datos descentralizada que organiza los datos por un dominio empresarial específico, por ejemplo, marketing, ventas, atención al cliente y más, para proporcionar más propiedad a los productores de un conjunto de datos determinado.
La comprensión de los productores de los datos del dominio los posiciona para establecer políticas de gobernanza de datos centradas en la documentación, la calidad y el acceso. Esto, a su vez, permite el uso de autoservicio en toda la organización. Si bien este enfoque federado elimina muchos cuellos de botella operativos asociados con los sistemas centralizados y monolíticos, no significa necesariamente que no pueda usar sistemas de almacenamiento tradicionales, como lagos de datos o almacenes de datos. Simplemente significa que su uso cambió de una única plataforma de datos centralizada a múltiples repositorios de datos descentralizados.
Cabe señalar que la malla de datos promueve la adopción de tecnologías nativas de la nube y de plataformas en la nube para escalar y alcanzar los objetivos de la gestión de datos. Este concepto se compara comúnmente con los microservicios para ayudar a la audiencia a comprender su uso dentro de este panorama. Dado que esta arquitectura distribuida es particularmente útil para escalar las necesidades de datos en toda una organización, se puede inferir que una malla de datos puede no ser adecuada para todos los tipos de empresas; es decir, es posible que las empresas más pequeñas no obtengan los beneficios de una malla de datos, ya que sus datos empresariales pueden no ser tan complejos como los de una organización más grande.
A Zhamak Dehghani, director de tecnología de la consultora de TI ThoughtWorks, se le atribuye la promoción del concepto de malla de datos como una solución a los desafíos inherentes de las estructuras de datos centralizadas y monolíticas, como la accesibilidad y la organización de los datos. Su adopción se vio impulsada aún más por la pandemia de COVID-19 en un esfuerzo por impulsar el cambio cultural y reducir la complejidad organizacional en torno a los datos.
Una malla de datos implica un cambio cultural en la forma en que las empresas piensan sobre sus datos. En lugar de que los datos actúen como un subproducto de un proceso, se convierten en el producto, donde los productores de datos actúan como propietarios del producto de datos. Históricamente, un equipo de infraestructura centralizado mantendría la propiedad de los datos en todos los dominios, pero el enfoque de pensamiento de producto bajo un modelo de malla de datos traslada esta propiedad a los productores, ya que son los expertos en la materia. Su comprensión de los principales consumidores de datos y cómo aprovechan los datos operativos y analíticos del dominio les permite diseñar API teniendo en cuenta sus mejores intereses.
Aunque este diseño basado en el dominio también responsabiliza a los productores de datos de la documentación de las definiciones semánticas, la catalogación de metadatos y el establecimiento de políticas de licencias y uso, sigue existiendo un equipo centralizado de gobernanza de datos para hacer cumplir estas normas y procedimientos en torno a los datos. Además, aunque los equipos de dominio pasan a ser responsables de sus canalizaciones de datos ETL en una arquitectura de malla de datos, esto no elimina la necesidad de un equipo de ingeniería de datos centralizado. Sin embargo, su responsabilidad se centra más en determinar las mejores soluciones de infraestructura de datos para los productos de datos que se almacenan.
De manera similar a cómo una arquitectura de microservicios acopla servicios ligeros para proporcionar funcionalidad a una aplicación orientada a la empresa o al consumidor, una malla de datos utiliza dominios funcionales como una forma de establecer parámetros en torno a los datos, lo que permite tratarlos como un producto que puede ser a los usuarios de toda la organización. De esta manera, una malla de datos permite una integración de datos más flexible y una funcionalidad interoperable, donde los datos de múltiples dominios pueden ser consumidos inmediatamente por los usuarios para analytics de negocio, experimentación de ciencia de datos y más.
Como se mencionó anteriormente, una malla de datos es una arquitectura de datos distribuida, donde los datos se organizan por su dominio para hacerlos más accesibles para los usuarios de toda una organización. Un lago de datos es un entorno de almacenamiento de bajo costo, que generalmente alberga petabytes de datos estructurados, semiestructurados y no estructurados para analytics, machine learning y otras aplicaciones amplias. Una malla de datos es un enfoque arquitectónico de los datos, del cual un lago de datos puede ser parte. Sin embargo, un lago de datos central se emplea más comúnmente como vertedero de datos, ya que a menudo se emplea para Ingesta datos que aún no tienen un propósito definido. Como resultado, puede convertir en un pantano de datos, es decir, un lago de datos que carece de las prácticas adecuadas de gobernanza de datos y calidad de datos para brindar aprendizajes valiosos.
Una estructura de datos es un concepto de arquitectura y se centra en la automatización de la integración de datos, la ingeniería de datos y el gobierno en una cadena de valor de datos entre proveedores de datos y consumidores de datos. Una estructura de datos se basa en la noción de “metadatos activos” que utiliza gráficos de conocimiento, semántica e inteligencia artificial/machine learning tecnología para descubrir patrones en varios tipos de metadatos (por ejemplo, registros del sistema, redes sociales, etc.) y aplicar este insight para automatizar y orquestar la cadena de valor de datos (por ejemplo, permitir que un consumidor de datos encuentre un producto de datos y luego tener ese producto de datos aprovisionado automáticamente). Un tejido de datos es complementario a una malla de datos y no se excluyen mutuamente. De hecho, el tejido de datos mejora la malla de datos porque puede automatizar partes clave de la malla de datos, como crear productos de datos más rápidamente, aplicar una gobernanza global y facilitar la orquestación de la combinación de múltiples productos de datos.
Democratización de datos: las arquitecturas de malla de datos facilitan las aplicaciones de autoservicio de múltiples fuentes de datos, ampliando el acceso a los datos más allá de recursos más técnicos, como científicos de datos, ingenieros de datos y desarrolladores. Al hacer que los datos sean más detectables y accesibles a través de este diseño basado en dominios, reduce los silos de datos y los cuellos de botella operacionales, lo que permite una toma de decisiones más rápida y libera a los usuarios técnicos para priorizar tareas que utilicen mejor sus habilidades.
Eficiencias de costos: esta arquitectura distribuida se aleja del procesamiento de datos por lotes y, en cambio, promueve la adopción de plataformas de datos en la nube y canalizaciones de transmisión para recopilar datos en tiempo real. El almacenamiento en la nube ofrece una ventaja económica adicional, ya que permite a los equipos de datos crear grandes clústeres según sus necesidades, pagando solo por el almacenamiento especificado. Esto significa que si necesita potencia de cálculo adicional para ejecutar un trabajo en unas horas en lugar de en unos días, puede hacerlo fácilmente en una plataforma de datos en nube adquiriendo nodos de cálculo adicionales. Esto también significa que mejora la visibilidad de los costos de almacenamiento, lo que permite una mejor asignación de presupuesto y recursos para los equipos de ingeniería.
Menor deuda técnica: una infraestructura de datos centralizada causa más deuda técnica debido a la complejidad y la colaboración requerida para mantener el sistema. A medida que los datos se acumulan dentro de un repositorio, también comienzan a ralentizar el sistema en general. Al distribuir la canalización de datos por propiedad de dominio, los equipos de datos pueden satisfacer mejor las demandas de sus consumidores de datos y reducir las tensiones técnicas en el sistema de almacenamiento de información. También pueden proporcionar más accesibilidad a los datos al proporcionar API con las que pueden interactuar, lo que reduce el volumen general de solicitudes individuales.
Interoperabilidad: en un modelo de malla de datos, los propietarios de acuerdan por adelantado cómo normalizar los campos de datos independientes del dominio, lo que facilita la interoperabilidad. De este modo, cuando un equipo de dominio estructura sus respectivos conjuntos de datos, aplica las reglas pertinentes para permitir la vinculación de datos entre dominios de forma rápida y sencilla. Algunos campos comúnmente estandarizados son el tipo de campo, los metadatos, los indicadores de esquema, etc. La coherencia entre dominios permite a los consumidores de datos interactuar con las API más fácilmente y desarrollar aplicaciones que satisfagan sus necesidades empresariales de forma más adecuada.
Seguridad y cumplimiento: las arquitecturas de malla de datos promueven prácticas de gobernanza más sólidas, ya que ayudan a aplicar estándares de datos para datos independientes del dominio y controles de acceso para datos confidenciales. Esto garantiza que las organizaciones sigan las regulaciones del gobierno, como las restricciones de HIPPA, y la estructura de este ecosistema de datos respalda este cumplimiento mediante la habilitación de auditorías de datos. Registrar y rastrear datos en una arquitectura de malla de datos incorpora la observabilidad en el sistema, lo que permite a los auditores comprender qué usuarios acceden a datos específicos y la frecuencia de ese acceso.
Si bien las arquitecturas de malla de datos distribuidos aún están ganando adopción, están ayudando a los equipos a alcanzar sus objetivos de escalabilidad para casos de uso comunes de big data. Estas incluyen:
Gestione los datos como un producto a lo largo del ciclo de vida. Conserve el control durante todo el ciclo de vida del producto de datos, desde la incorporación hasta que se retire del servicio, con un sistema sólido para el control de versiones, el mantenimiento y la actualización de los productos de datos.
Transforme rápidamente los datos sin procesar en insights aplicables en la práctica, unifique la gobernanza, la calidad, el linaje y el intercambio de datos, y dote a los consumidores de datos con datos confiables y contextualizados.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.