¿Qué es la conservación de datos?

Un hombre escribe en un ordenador portátil frente a dos grandes monitores de ordenador.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la conservación de datos?

La conservación de datos es el proceso de creación y gestión de conjuntos de datos para que las personas puedan encontrar, acceder, utilizar y reutilizar los datos según sea necesario. Implica agregar activos de datos (colecciones valiosas de datos) a un repositorio central para consolidar los metadatos de los activos, enriquecerlos con información adicional y analizar y mejorar la calidad de los datos a lo largo de su ciclo de vida.
 

Hoy en día, las organizaciones generan montañas de datos cada vez mayores, con un valor de más de 400 millones de terabytes al día. Gran parte de estos datos pueden resultar tremendamente valiosos, pero solo si las empresas pueden entenderlos y aprovecharlos con éxito.

Como parte de la gestión de datos eficaz, la conservación de datos ayuda a las empresas a derivar conocimientos importantes de los datos empresariales y a utilizarlos para la toma de decisiones. Los datos bien seleccionados también se consideran críticos para mejorar el rendimiento de las iniciativas de inteligencia artificial (IA) y ayudar a garantizar el cumplimiento normativo con la gestión de datos y la protección de datos.

Fuera de la empresa, la conservación de datos es un proceso clave en los entornos de investigación y académicos. Por ejemplo, la conservación de datos de investigación puede mejorar el intercambio y el archivo de datos entre desarrolladores, científicos, profesionales de la salud y otros investigadores.

El proceso de conservación de datos puede ser manual o puede realizarse con la ayuda de la automatización, con software diseñado para ejecutar actividades de curación a escala.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Por qué es importante la conservación de datos?

En esencia, la conservación de datos permite a las empresas utilizar sus datos para encontrar valor. Pero también les ayuda a gestionar el crecimiento exponencial de los datos, apoyar iniciativas de IA eficaces y responsables, mantener el cumplimiento normativo y garantizar la usabilidad de los datos.

Aumento de los volúmenes de datos

El crecimiento exponencial de los volúmenes de datos ha proporcionado a las organizaciones más datos relevantes para el negocio que nunca, con algunos conjuntos de datos acumulativos que contienen terabytes o petabytes de información de diversas fuentes de datos. A nivel macro, se estima que se generaron a nivel mundial 149 zettabytes de datos en 2024 y se espera que esa cifra se duplique con creces para 2028.

Realizar el control de calidad y la detección de datos en conjuntos de datos tan grandes y complejos sin precedentes conocidos como"big data" no es tarea fácil. Sin embargo, es crítico, ya que los datos empresariales están demostrando cada vez más ser una fuente de conocimiento valioso. Anotar y organizar datos para la toma de decisiones basada en datos puede ofrecer una ventaja competitiva y elevar el rendimiento de las empresas en todos los sectores.

Inteligencia artificial eficaz

Abordar los desafíos de calidad de los datos y usabilidad se ha vuelto especialmente urgente a medida que las organizaciones adoptan las capacidades con IA como un imperativo estratégico. Los sistemas de IA tienen el potencial de transformar el negocio y elevar la productividad, pero sus necesidades de datos son sustanciales: requieren datos de alta calidad para funcionar de manera efectiva. 

Los datos de baja calidad pueden resultar en un rendimiento deficiente del modelo, un escenario de “basura que entra, basura que sale”. Los conjuntos de datos con problemas de calidad, como valores omitidos, valores atípicos o incoherencias, pueden distorsionar el análisis y dar lugar a resultados incorrectos.

Cumplimiento de la normativa

La conservación de datos también ayuda a garantizar el cumplimiento normativo, especialmente en el contexto de la IA. Muchos sectores, especialmente aquellos que manejan información confidencial como la atención médica o los servicios financieros, deben navegar por un panorama cambiante de regulaciones que dictan cómo recopilan, procesan, almacenan y protegen los datos. 

Las prácticas eficaces de conservación de datos ayudan a garantizar que los datos se recopilen, se conserven, se procesen y se etiqueten de acuerdo con estas reglas. La Ley de IA de la UE, por ejemplo, exige que los sistemas de IA de alto riesgo adopten prácticas rigurosas de gobierno de datos para garantizar que los datos de entrenamiento, validación y prueba cumplan criterios de calidad específicos. Por ejemplo, es esencial que haya un gobierno eficaz en torno al proceso de recopilación de datos.

Reutilización de datos

La conservación de datos también es clave para ayudar a garantizar la reutilización de conjuntos de datos de alta calidad. Por ejemplo, a través de la conservación de datos, las organizaciones pueden crear y mantener un glosario centralizado adaptado específicamente a la empresa. A través de esta única fuente fiable, los usuarios de toda la organización pueden comprender y utilizar mejor los datos. Cuando los datos son accesibles y universalmente utilizables, es más probable que los usuarios recurran a ellos repetidamente en busca de conocimiento.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Cuáles son los pasos clave para la conservación de datos?

Aunque las prácticas de conservación de datos pueden variar según la organización, los investigadores han identificado actividades de curación comunes entre conservadores de datos, ingenieros de datos, científicos de datos, administradores de datos y otros profesionales de la gestión de datos a lo largo de los ciclos de vida de los big data1. Entre ellas se incluyen:

  • Planificación
  • Descripción
  • Preparación
  • Garantía
  • Almacenamiento y conservación
  • Detección y acceso

Planificación

Establecer estrategias y criterios para la recopilación, producción e ingesta de datos. La ingesta de datos incluye la adquisición de datos de diversas fuentes, incluidas bases de datos estructuradas e interfaces de programación de aplicaciones (API), así como bases de datos para datos no estructurados. El paso de planificación de la conservación de datos también puede considerar el gobierno de datos, lo que ayuda a garantizar la integridad y la seguridad de los datos.

Descripción

Creación, recopilación, preservación y mantenimiento de metadatos, que es información que describe un punto de datos o conjunto de datos, como el autor, la fecha de creación o el tamaño del archivo. Una gestión exitosa de los metadatos puede ayudar a que los datos sean más localizables, permitir el rastreo del linaje de datos y mejorar la interoperabilidad del sistema.

Preparación

Participación en métodos de preparación de los datos. Por ejemplo, la limpieza de datos es el proceso de identificar y corregir errores e incoherencias en conjuntos de datos sin procesar. La transformación de datos es la conversión de datos sin procesar en un formato utilizable para el análisis. Y la anonimización de los datos confidenciales ayuda a garantizar la protección de datos y el cumplimiento normativo.

Garantía

Evaluación y validación de la calidad de los datos, rastreo de su procedencia y ayuda para garantizar la protección de datos confidenciales. La calidad de los datos se puede clasificar a través de métricas como la precisión, la integridad y la coherencia. Mientras tanto, el seguimiento de la procedencia de los datos puede ayudar a confirmar la fiabilidad de los datos y garantizar que se hayan obtenido los permisos de uso necesarios de los proveedores de datos.

Almacenamiento y conservación

Transferir datos de unidades de proceso de datos a repositorios de datos y sistemas de almacenamiento de datos, como data lakes y almacenes de datos. Las consideraciones para la conservación de datos pueden incluir almacenar diferentes variedades de datos y garantizar la seguridad de datos.

Descubrimiento y acceso

Hacer que los datos se puedan buscar y sean accesibles mediante el desarrollo de taxonomías, la estandarización de los metadatos y el establecimiento de métodos de recuperación de datos.

Soluciones de software de conservación de datos

Los procesos manuales pueden hacer que la conservación de datos sea una tarea lenta, tediosa e ineficiente. Sin embargo, las soluciones adecuadas de gobierno de datos y gestión de datos pueden ayudar a las empresas a automatizar los flujos de trabajo de conservación de datos y a optimizar las canalizaciones de datos.

Las principales soluciones pueden incluir características como:

Catálogos de datos controlados

Un catálogo de datos es un inventario detallado de todos los activos de datos de una organización, diseñado para ayudar a los profesionales de datos a encontrar rápidamente los datos que necesitan. Los catálogos de datos controlados utilizan funciones de clasificación y enmascaramiento de datos para permitir un manejo seguro de los datos.

Glosarios seleccionados

Los glosarios de vocabulario empresarial específico del sector pueden mejorar la clasificación de los datos, el cumplimiento de la normativa y otras actividades de gobierno.

Enriquecimiento de metadatos con IA

Se pueden implementar modelos de lenguaje de gran tamaño (LLM) para el enriquecimiento de metadatos, agregando más contexto, etiquetas o descripciones a grandes volúmenes de activos de datos a la vez.

Búsqueda inteligente

La búsqueda inteligente puede mejorar la accesibilidad de los datos y eliminar los silos. Con la IA, permite a los usuarios extraer información de cualquier lugar (dentro o fuera de la empresa) independientemente del formato, ayudándoles a encontrar los datos que necesitan de forma rápida y sencilla.

Casos de uso para la conservación de datos

La conservación de datos desempeña un papel importante en diversos campos y disciplinas. Los casos de uso incluyen:

Avance de la investigación médica

Los datos conservados pueden ayudar a impulsar los avances y los descubrimientos en el tratamiento de las enfermedades. Por ejemplo, una clínica sanitaria estadounidense anunció recientemente una asociación con una plataforma de datos sanitarios de IA para curar conjuntos de datos centrados en la esclerosis múltiple (EM), una enfermedad neurológica crónica.

El objetivo del proyecto, que incluirá datos recopilados de más de 3000 pacientes, es desarrollar conocimientos basados en datos sobre subtipos de enfermedades, progresión de la enfermedad y más2.

Mantenimiento del cumplimiento de la IA en los seguros

La conservación de datos puede ayudar a garantizar que las organizaciones que adoptan IA lo hagan de acuerdo con las regulaciones y los requisitos aplicables.

Por ejemplo, el sector de los seguros ha adoptado ampliamente las tecnologías de IA y machine learning para modernizarse. Pero el panorama regulatorio que rodea la adopción de la IA en el sector es complejo y dinámico. Las leyes pertinentes, como la Directiva Solvencia II, incluyen políticas estrictas para las aseguradoras en relación con "la suficiencia y calidad de los datos pertinentes para los procesos de suscripción y reserva". Este reglamento también exige que los datos utilizados para probar y entrenar los sistemas de IA sean completos, precisos y adecuados3.

Personalización del marketing de consumo

Los minoristas digitales y físicos a menudo curan sus datos de compradores mediante procesos de segmentación, organizando a los clientes en grupos en función de sus características, comportamientos y preferencias. Esto permite a los minoristas ser más eficaces a la hora de dirigirse a diferentes grupos de clientes con promociones, recomendaciones de productos y otros esfuerzos de marketing personalizados.

Por ejemplo, un análisis de las campañas de marketing por correo electrónico de venta minorista determinó que los correos electrónicos segmentados se leían un 15 % más a menudo que los que no lo estaban4.

Soluciones relacionadas
IBM Knowledge Catalog

Active los datos para la IA y el análisis con catalogación inteligente y gestión de políticas. IBM Knowledge Catalog es un software de gobierno del dato que proporciona un catálogo de datos para automatizar el descubrimiento, la gestión de la calidad y la protección de los datos.

Descubra Knowledge Catalog
Soluciones IBM Data Intelligence

Transforme rápidamente los datos sin procesar en conocimiento práctico, unifique el gobierno, la calidad, el linaje y el uso compartido de los datos, y capacite a los consumidores de datos con datos fiables y contextualizados.

Descubra soluciones de inteligencia de datos
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
Dé el siguiente paso

Encuentre, entienda, conserve y acceda a datos, activos de conocimiento y sus relaciones, dondequiera que residan, en la nube o en las instalaciones. IBM Knowledge Catalog es un software de gobierno del dato que proporciona un catálogo de datos para automatizar la detección, la calidad y la protección de datos.

Explore IBM Knowledge Catalog Explore soluciones de inteligencia de datos
Notas a pie de página

Big data curation framework: Curation actions and challenges”. Journal of Information Science. 11 de noviembre de 2022.

2 “Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data”. MobiHealthNews. 14 de enero de 2025.

Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management”. Autoridad Europea de Seguros y Pensiones de Jubilación (EIOPA). 10 de febrero de 2025.

4Sophisticated email segmentation boosts open rates, engagement: report”. Retail Dive. Consultado el 28 de marzo de 2025.