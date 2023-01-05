La mala calidad de los datos es uno de los principales obstáculos a los que se enfrentan las organizaciones que aspiran a basarse más en los datos. Las decisiones empresariales inoportunas y los procesos empresariales mal informados, la pérdida de oportunidades de ingresos, las iniciativas empresariales fallidas y los sistemas de datos complejos pueden deberse a problemas de calidad de los datos. Uno solo de estos problemas puede resultar muy costoso para una organización. Tener que lidiar con todos ellos puede ser devastador.
Hay varios factores que determinan la calidad de los datos de su empresa, como la precisión, la integridad y la coherencia, por nombrar algunos. Pero hay otro factor en la calidad de los datos que no recibe el reconocimiento que se merece: su arquitectura de datos.
La arquitectura de datos adecuada puede ayudar a su organización a mejorar la calidad de los datos, ya que proporciona el marco que determina cómo se recopilan, transportan, almacenan, protegen, utilizan y comparten los datos para los casos de uso de inteligencia empresarial y ciencia de datos.
La primera generación de arquitecturas de datos representada por el almacén de datos empresarial y las plataformas de inteligencia empresarial se caracterizó por miles de trabajos, tablas e informes ETL que solo un pequeño grupo de ingenieros de datos especializados entendía, lo que resultó en un impacto positivo infrautilizado en el negocio. La próxima generación de plataformas de big data y los trabajos por lotes de larga duración operados por un equipo central de ingenieros de datos a menudo han dado lugar a pantanos de data lake.
Ambos enfoques eran arquitecturas típicamente monolíticas y centralizadas, organizadas en torno a funciones mecánicas de ingestión, procesamiento, limpieza, agregación y servicio de datos. Esto creó una serie de cuellos de botella organizativos y tecnológicos que impedían la integración y la ampliación de los datos en varias dimensiones: el cambio constante del panorama de los datos, la
proliferación de fuentes y consumidores de datos, la diversidad de transformación y proceso de datos que requieren los casos de uso y la velocidad de respuesta al cambio.
Una arquitectura de datos moderna como la malla de datos o el tejido de datos tiene como objetivo conectar fácilmente nuevas fuentes de datos y acelerar el desarrollo de pipelines de datos específicas de caso de uso en entornos on-premises, híbridos y multinube. Combinada con una gestión eficaz del ciclo de vida de los datos, que evoluciona hacia la gestión de datos como producto, una arquitectura de datos moderna puede ayudar a su organización a:
Dado que su arquitectura de datos dicta cómo se estructuran sus activos y recursos de gestión de datos, desempeña un papel crítico en la eficacia de su organización en la realización de estas tareas. Es decir, la arquitectura de datos es un elemento fundamental de su estrategia empresarial para una mayor calidad de los datos. Las capacidades críticas de las soluciones modernas de gestión de la calidad de datos de alta calidad requieren que una organización:
Una estrategia de datos puede ayudar a los arquitectos de datos a crear e implementar una arquitectura de datos que mejore la calidad de los datos. Los pasos para desarrollar una estrategia de datos eficaz incluyen:
Por ejemplo, una institución financiera puede buscar mejorar el cumplimiento de la normativa, reducir los costes y aumentar los ingresos. Los stakeholders pueden identificar casos de uso para ciertos tipos de datos, como ejecutar análisis en tiempo real a medida que se ingieran para automatizar la toma de decisiones y así reducir costes.
Este paso incluye identificar y catalogar todos los datos de la organización en una lista de inventario centralizada o federada, eliminando así los silos de datos. La lista debe detallar dónde reside cada conjunto de datos y qué aplicaciones y casos de uso se basan en él. A continuación, seleccione los datos necesarios para sus casos de uso clave y priorice aquellos dominios de datos que los incluyan.
Una convención de nomenclatura y un formato de datos alineado (clases de datos) para los datos utilizados en toda la organización ayudan a garantizar la coherencia y la interoperabilidad de los datos entre departamentos (dominios) y casos de uso.
Decida los cambios que optimizarán sus datos para alcanzar los objetivos de su negocio. Investigar los diferentes tipos de arquitecturas de datos modernas, como un tejido de datos y una malla de datos puede ayudarle a decidir la estructura de datos más adecuada para los requisitos de su negocio.
Crear KPI y utilizar análisis avanzados que relacionen la medida del éxito de su arquitectura con su capacidad para respaldar la calidad de los datos.
Las empresas pueden desarrollar un plan de despliegue para implementar la arquitectura y el gobierno de datos en tres o cuatro dominios de datos por trimestre.
Una arquitectura de datos bien diseñada crea una base para la calidad de los datos a través de la transparencia y la estandarización que enmarca la forma en que su organización ve, utiliza y habla de los datos.
Como se ha mencionado antes, un tejido de datos es una de esas arquitecturas. Un tejido de datos automatiza la detección de datos, el gobierno y la calidad de los datos, y simplifica el autoservicio al acceso a datos distribuidos en una nube híbrida panorama. Puede abarcar las aplicaciones que generan y utilizan datos, así como cualquier número de repositorios de almacenamiento de datos, como almacenes de datos, data lakes (que almacenan grandes cantidades de big data), bases de datos NoSQL (que almacenan datos no estructurados) y bases de datos relacionales que utilizan SQL.
