¿Qué es la curaduría de datos?

Un hombre escribe en una computadora portátil frente a dos grandes monitores de computadora.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la curaduría de datos?

La curaduría de datos es el proceso de creación y gestión de conjuntos de datos para que las personas puedan encontrar, acceder, usar y reutilizar los datos según sea necesario. Implica agregar activos de datos (colecciones valiosas de datos) a un repositorio central para consolidar metadatos de activos, enriquecerlos con información adicional y analizar y mejorar la calidad de los datos a lo largo de su ciclo de vida.
 

Hoy en día, las organizaciones generan montañas de datos cada vez mayores, con un valor de más de 400 millones de terabytes por día. Muchos de estos datos pueden resultar tremendamente valiosos, pero sólo si las compañías son capaces de comprenderlos y aprovecharlos con éxito.

Como parte de la gestión de datos eficaz, la conservación de datos ayuda a las empresas a derivar insights importantes de los datos empresariales y a utilizarlos para la toma de decisiones. Los datos bien curados también se consideran críticos para mejorar el desempeño de las iniciativas de inteligencia artificial (IA) y ayudar a garantizar el cumplimiento normativo con los requerimientos de administración de datos y privacidad de datos.

Fuera de la empresa, la curaduría de datos es un proceso clave en entornos académicos y de investigación. Por ejemplo, la curaduría de datos de investigación puede mejorar el intercambio y el archivo de datos entre desarrolladores, científicos, profesionales de la salud y otros investigadores.

El proceso de curaduría de datos puede ser manual o puede realizarse con la ayuda de la automatización, con software diseñado para ejecutar actividades de curación a escala.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué es importante la curaduría de datos?

En esencia, la curación de datos permite a las compañías emplear sus datos para encontrar valor. Pero también los ayuda a gestionar el crecimiento exponencial de los datos, respaldar iniciativas de IA eficaces y responsables, mantener el cumplimiento normativo y garantizar la usabilidad de los datos.

Aumento de los volúmenes de datos

El crecimiento exponencial de los volúmenes de datos proporcionó a las organizaciones más datos empresariales que nunca, y algunas acumulan conjuntos de datos que contienen terabytes o petabytes de información procedente de diversas fuentes de datos. A nivel macroeconómico, se calcula que en 2024 se generaron 149 zettabytes de datos en todo el mundo y se espera que esa cifra se duplique con creces para 2028.

Realizar el control de calidad y el descubrimiento de datos en conjuntos de datos tan grandes y complejos sin precedentes conocidos como" big data " no es tarea fácil. Sin embargo, es crítico, ya que los datos empresariales están demostrando cada vez más ser una fuente de insights. Anotar y organizar datos para la toma de decisiones basada en datos puede ofrecer una ventaja competitiva y elevar el rendimiento de las empresas en todas las industrias.

Inteligencia artificial eficaz

Abordar la calidad de los datos y los desafíos de usabilidad se ha vuelto especialmente urgente a medida que las organizaciones adoptan capacidades impulsadas por IA como un imperativo estratégico. Los sistemas de IA tienen el potencial de transformar el negocio y elevar la productividad, pero sus necesidades de datos son sustanciales: requieren datos de alta calidad para funcionar de manera efectiva. 

Los datos de baja calidad pueden resultar en un rendimiento deficiente del modelo, un escenario de “basura que entra, basura que sale”. Los conjuntos de datos con problemas de calidad, como valores omitidos, valores atípicos o incoherencias, pueden distorsionar el análisis y dar lugar a resultados incorrectos.

Cumplimiento regulatorio

La curaduría de datos también ayuda a garantizar el cumplimiento normativo, particularmente en el contexto de la IA. Muchas industrias, especialmente aquellas que manejan información confidencial como la atención médica o los servicios financieros, deben navegar un ámbito cambiante de regulaciones que dictan cómo recopilan, procesan, almacenar y protegen los datos. 

Las prácticas eficaces de curación de datos ayudan a garantizar que los datos se recopilen, almacenen, procesen y etiqueten de acuerdo con estas reglas. La Ley de IA de la UE, por ejemplo, exige que los sistemas de IA de alto riesgo adopten prácticas rigurosas de gobernanza de datos para garantizar que los datos de entrenamiento, validación y prueba cumplan criterios de calidad específicos. Por ejemplo, es esencial que haya una gobernanza eficaz en torno al proceso de recopilación de datos.

Reutilización de datos

La curación de datos también es clave para ayudar a garantizar la reutilización de conjuntos de datos de alta calidad. Por ejemplo, mediante la curación de datos, las organizaciones pueden crear y mantener un glosario centralizado adaptado específicamente a la compañía. A través de esta única fuente de información, los usuarios de toda la organización pueden comprender y utilizar mejor los datos. Cuando los datos son accesibles y universalmente utilizables, es más probable que los usuarios recurran a ellos repetidamente para obtener insights.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

¿Cuáles son los pasos clave para la curaduría de datos?

Si bien las prácticas de curaduría de datos pueden variar según la organización, los investigadores han identificado actividades de curación comunes entre curadores de datos, ingenieros de datos, científicos de datos, administradores de datos y otros profesionales de la gestión de datos durante los ciclos de vida de big data.1 Por ejemplo:

  • Planificación
  • Descripción
  • Preparación
  • Garantía
  • Almacenamiento y conservación
  • Detección y acceso

Planificación

Establecer estrategias y criterios para la recopilación, producción e ingesta de datos. La ingesta de datos incluye la adquisición de datos de varias fuentes, incluidas bases de datos estructuradas e interfaces de programación de aplicaciones (API), así como bases de datos para datos no estructurados. El paso de planeación de la curaduría de datos también puede tener en cuenta la gobernanza de datos, que ayuda a garantizar la integridad y la seguridad de los datos.

Descripción

Crear, recopilar, preservar y mantener metadatos, que es información que describe un punto de datos o conjunto de datos, como el autor, la fecha de creación o el tamaño del archivo. Una gestión exitosa de los metadatos puede ayudar a que los datos sean más fáciles de encontrar, permitir el rastreo del linaje de datos y mejorar la interoperabilidad del sistema .

Preparación

Participar en métodos de preparación de datos. Por ejemplo, la limpieza de datos es el proceso de identificar y corregir errores e inconsistencias en conjuntos de datos sin procesar. La transformación de datos es la conversión de datos limpios y sin procesar en un formato utilizable para el análisis. Y la anonimización de los datos confidenciales ayuda a garantizar la privacidad de datos y el cumplimiento normativo.

Aseguramiento

Evaluar y lograr la validación de la calidad de los datos, rastrear la procedencia de los datos y ayudar a garantizar la protección de los datos confidenciales. La calidad de los datos se puede categorizar a través de métricas como precisión, integridad y coherencia. Mientras tanto, el seguimiento de la procedencia de los datos puede ayudar a confirmar la confiabilidad de los datos y garantizar que se hayan obtenido los permisos de uso necesarios de los proveedores de datos.

Almacenamiento y conservación

Transferencia de datos desde unidades de procesamiento de datos a repositorios de datos y sistemas de almacenamiento de datos , como lagos de datos y almacenes de datos. Las consideraciones para la preservación de datos pueden incluir almacenar diferentes variedades de datos y garantizar la seguridad de los datos.

Detección y acceso

Hacer que los datos se puedan buscar y sean accesibles mediante el desarrollo de taxonomías, la estandarización de metadatos y el establecimiento de métodos de recuperación de datos.

Soluciones de software de curaduría de datos

Los procesos manuales pueden hacer que la curación de datos sea una tarea lenta, tediosa e ineficiente. Sin embargo, las soluciones adecuadas de gobernanza de datos y gestión de datos pueden ayudar a las empresas a automatizar los flujos de trabajo de curación de datos y optimizar los pipelines de datos.

Las soluciones líderes pueden incluir características como:

Catálogos de datos gobernados

Un catálogo de datos es un inventario detallado de todos los activos de datos de una organización, diseñado para ayudar a los profesionales de datos a encontrar rápidamente los datos que necesitan. Los catálogos de datos gobernados utilizan funciones de clasificación y enmascaramiento de datos para permitir un manejo seguro de los datos.

Glosarios seleccionados

Los glosarios de vocabularios empresariales específicos de las industrias pueden mejorar la clasificación de los datos, el cumplimiento de la normativa y otras actividades de gobernanza.

Enriquecimiento de metadatos impulsado por IA

Los modelos de lenguaje de gran tamaño (LLM) se pueden desplegar para el enriquecimiento de metadatos, agregando más contexto, etiquetas o descripciones a grandes volúmenes de activos de datos a la vez.

Búsqueda inteligente

La búsqueda inteligente puede mejorar la accesibilidad de los datos y eliminar los silos. Impulsado por IA, permite a los usuarios extraer información de cualquier lugar (dentro o fuera de la empresa) independientemente del formato, ayudándoles a encontrar los datos que necesitan de forma rápida y sencilla.

Casos de uso para la curaduría de datos

La curación de datos desempeña un papel importante en varios campos y disciplinas. Los casos de uso incluyen:

Avance de la investigación médica

Los datos curados pueden ayudar a impulsar avances y descubrimientos en el tratamiento de enfermedades. Por ejemplo, una clínica de salud con sede en Estados Unidos anunció recientemente una asociación con una plataforma de datos de salud de IA para crear conjuntos de datos centrados en la esclerosis múltiple (EM), una enfermedad neurológica crónica.

El objetivo del proyecto, que incluirá datos recopilados de más de 3,000 pacientes, es desarrollar insights basados en datos sobre los subtipos de la enfermedad, la progresión de la enfermedad y más2

Mantener la IA en cumplimiento con los seguros

La curación de datos puede ayudar a garantizar que las organizaciones que adoptan IA lo hagan de acuerdo con las regulaciones y requerimientos aplicables.

Por ejemplo, la industria de seguros ha adoptado ampliamente las tecnologías de IA y machine learning para modernizarse. Pero el escenario regulatorio que rodea la adopción de la IA en las industrias es complejo y dinámico. Las leyes pertinentes, como la Directiva Solvencia II, incluyen políticas estrictas para las aseguradoras con respecto a “la suficiencia y calidad de los datos relevantes para los procesos de suscripción y reserva”. Estas regulaciones también requieren que los datos utilizados para probar y entrenar los sistemas de IA sean completos, precisos y apropiados.3

Personalizar el marketing de consumo

Los minoristas digitales y físicos a menudo curan sus datos de compradores participando en procesos de segmentación, organizando a los clientes en grupos en función de sus características, comportamientos y preferencias. Esto permite a los minoristas ser más eficaces a la hora de dirigirse a diferentes grupos de clientes con promociones, recomendaciones de productos y otras iniciativas de marketing personalizadas.

Por ejemplo, un análisis de las campañas de marketing por correo electrónico de venta minorista determinó que los correos electrónicos segmentados se leían un 15% más a menudo que los que no estaban segmentados.4

Soluciones relacionadas
IBM Knowledge Catalog

Active los datos para IA y analytics con catalogación inteligente y gestión de políticas. IBM Knowledge Catalog es un software de gobernanza de datos que proporciona un catálogo de datos para automatizar el descubrimiento de datos, la gestión de la calidad de los datos y la protección de datos.

Descubrir Knowledge Catalog
Soluciones de IBM Data Intelligence

Transforme rápidamente los datos sin procesar en insights aplicables en la práctica, unifique la gobernanza, la calidad, el linaje y el intercambio de datos, y dote a los consumidores de datos con datos confiables y contextualizados.

Descubra soluciones de inteligencia de datos
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Encuentre, comprenda y cure datos, y acceda a ellos, así como a recursos de conocimiento y sus relaciones, dondequiera que residan, en la nube u on premises. IBM Knowledge Catalog es un software de gobernanza de datos que proporciona un catálogo de datos para automatizar el descubrimiento de datos, la gestión de la calidad de los datos y la protección de los datos.

Conozca IBM Knowledge Explore las soluciones de inteligencia de datos
Notas de pie de página

Big data curation framework: Curation actions and challenges.” Journal of Information Science. 11 de noviembre de 2022.

2 “Exclusivo: Century Heath, socio de Nira Medical para proporcionar datos de EHR curados por IA”. MobiHealthNews. 14 de enero de 2025.

Documento de consulta: Opinión sobre gobernanza de la inteligencia artificial y gestión de riesgos”. Autoridad Europea de Seguros y Pensiones de Jubilación (AESPJ). 10 de febrero de 2025.

4La sofisticada segmentación del correo electrónico aumenta las tasas de apertura y el compromiso: informe”. Venta minorista Diver. Consultado el 28 de marzo de 2025.