Estrategia de arquitectura de datos para la calidad de los datos

Maravillosa biblioteca construida en los años 60

Autor

Grzegorz Przybycień

Senior Product Manager

Watson Knowledge Catalog

La mala calidad de los datos es uno de los principales obstáculos a los que se enfrentan las organizaciones que aspiran a basarse más en los datos. Las decisiones empresariales inoportunas y los procesos empresariales mal informados, la pérdida de oportunidades de ingresos, las iniciativas empresariales fallidas y los sistemas de datos complejos pueden deberse a problemas de calidad de los datos. Uno solo de estos problemas puede resultar muy costoso para una organización. Tener que lidiar con todos ellos puede ser devastador.

Hay varios factores que determinan la calidad de los datos de su empresa, como la precisión, la integridad y la coherencia, por nombrar algunos. Pero hay otro factor en la calidad de los datos que no recibe el reconocimiento que se merece: su arquitectura de datos.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo la arquitectura de datos adecuada mejora la calidad de los datos

La arquitectura de datos adecuada puede ayudar a su organización a mejorar la calidad de los datos, ya que proporciona el marco que determina cómo se recopilan, transportan, almacenan, protegen, utilizan y comparten los datos para los casos de uso de inteligencia empresarial y ciencia de datos.

La primera generación de arquitecturas de datos representada por el almacén de datos empresarial y las plataformas de inteligencia empresarial se caracterizó por miles de trabajos, tablas e informes ETL que solo un pequeño grupo de ingenieros de datos especializados entendía, lo que resultó en un impacto positivo infrautilizado en el negocio. La próxima generación de plataformas de big data y los trabajos por lotes de larga duración operados por un equipo central de ingenieros de datos a menudo han dado lugar a pantanos de data lake.

Ambos enfoques eran arquitecturas típicamente monolíticas y centralizadas, organizadas en torno a funciones mecánicas de ingestión, procesamiento, limpieza, agregación y servicio de datos. Esto creó una serie de cuellos de botella organizativos y tecnológicos que impedían la integración y la ampliación de los datos en varias dimensiones: el cambio constante del panorama de los datos, la
proliferación de fuentes y consumidores de datos, la diversidad de transformación y proceso de datos que requieren los casos de uso y la velocidad de respuesta al cambio.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Qué hace una arquitectura de datos moderna por su empresa?

Una arquitectura de datos moderna como la malla de datos o el tejido de datos tiene como objetivo conectar fácilmente nuevas fuentes de datos y acelerar el desarrollo de pipelines de datos específicas de caso de uso en entornos on-premises, híbridos y multinube. Combinada con una gestión eficaz del ciclo de vida de los datos, que evoluciona hacia la gestión de datos como producto, una arquitectura de datos moderna puede ayudar a su organización a:

  • Permitir que los administradores de datos garanticen el cumplimiento, la protección y la seguridad de los datos
  • Aumentar la confianza en los datos obteniendo información sobre de dónde provienen, cómo han cambiado y quién los utiliza
  • Monitorizar e identificar los problemas de calidad de los datos más cerca de la fuente para mitigar el posible impacto en los procesos o cargas de trabajo posteriores
  • Adoptar de manera eficiente las plataformas de datos y las nuevas tecnologías para una gestión de datos eficaz
  • Aplicar los metadatos para contextualizar los datos nuevos y existentes y hacer que se puedan buscar y descubrir
  • Realizar perfiles de datos (el proceso de examinar, analizar y crear resúmenes de conjuntos de datos)
  • Reducir la duplicación y fragmentación de datos

Dado que su arquitectura de datos dicta cómo se estructuran sus activos y recursos de gestión de datos, desempeña un papel crítico en la eficacia de su organización en la realización de estas tareas. Es decir, la arquitectura de datos es un elemento fundamental de su estrategia empresarial para una mayor calidad de los datos. Las capacidades críticas de las soluciones modernas de gestión de la calidad de datos de alta calidad requieren que una organización:

  • Imponga el gobierno de datos en toda la organización aumentando los procesos manuales de calidad de los datos con metadatos y tecnologías relacionadas con la IA (enlace externo a ibm.com)
  • Monitorizar la calidad de los datos basada en reglas preconfiguradas
  • Construir una línea de modelado de datos para realizar análisis de causa raíz de problemas de calidad de los datos
  • Hacer que el valor de un conjunto de datos sea inmediatamente comprensible
  • Llevar una higiene adecuada de los datos en todas las interfaces

Cómo construir una arquitectura de datos que mejore la calidad de los datos

Una estrategia de datos puede ayudar a los arquitectos de datos a crear e implementar una arquitectura de datos que mejore la calidad de los datos. Los pasos para desarrollar una estrategia de datos eficaz incluyen:

1. Esbozar los objetivos empresariales que desea que sus datos le ayuden a alcanzar

Por ejemplo, una institución financiera puede buscar mejorar el cumplimiento de la normativa, reducir los costes y aumentar los ingresos. Los stakeholders pueden identificar casos de uso para ciertos tipos de datos, como ejecutar análisis en tiempo real a medida que se ingieran para automatizar la toma de decisiones y así reducir costes.

2. Realizar un inventario de los activos de datos existentes y mapear los flujos de datos actuales

Este paso incluye identificar y catalogar todos los datos de la organización en una lista de inventario centralizada o federada, eliminando así los silos de datos. La lista debe detallar dónde reside cada conjunto de datos y qué aplicaciones y casos de uso se basan en él. A continuación, seleccione los datos necesarios para sus casos de uso clave y priorice aquellos dominios de datos que los incluyan.

3. Desarrollar una nomenclatura estandarizada

Una convención de nomenclatura y un formato de datos alineado (clases de datos) para los datos utilizados en toda la organización ayudan a garantizar la coherencia y la interoperabilidad de los datos entre departamentos (dominios) y casos de uso.

4. Determinar qué cambios deben introducirse en la arquitectura existente

Decida los cambios que optimizarán sus datos para alcanzar los objetivos de su negocio. Investigar los diferentes tipos de arquitecturas de datos modernas, como un tejido de datos y una malla de datos puede ayudarle a decidir la estructura de datos más adecuada para los requisitos de su negocio.

5. Decidir los KPI para medir la eficacia de una arquitectura de datos

Crear KPI y utilizar análisis avanzados que relacionen la medida del éxito de su arquitectura con su capacidad para respaldar la calidad de los datos.

6. Crear una hoja de ruta de arquitectura de datos

Las empresas pueden desarrollar un plan de despliegue para implementar la arquitectura y el gobierno de datos en tres o cuatro dominios de datos por trimestre.

Arquitectura de datos e IBM

Una arquitectura de datos bien diseñada crea una base para la calidad de los datos a través de la transparencia y la estandarización que enmarca la forma en que su organización ve, utiliza y habla de los datos.

Como se ha mencionado antes, un tejido de datos es una de esas arquitecturas. Un tejido de datos automatiza la detección de datos, el gobierno y la calidad de los datos, y simplifica el autoservicio al acceso a datos distribuidos en una nube híbrida panorama. Puede abarcar las aplicaciones que generan y utilizan datos, así como cualquier número de repositorios de almacenamiento de datos, como almacenes de datos, data lakes (que almacenan grandes cantidades de big data), bases de datos NoSQL (que almacenan datos no estructurados) y bases de datos relacionales que utilizan SQL.

Más información sobre los beneficios del tejido de datos e IBM® Cloud Pak for Data.

 
Soluciones relacionadas
Herramientas y soluciones analíticas

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explore soluciones analíticas
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.

Explore Cognos Analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explore soluciones analíticas Descubra los servicios de análisis