Hoy en día, las organizaciones generan montañas de datos cada vez mayores, con un valor de más de 400 millones de terabytes al día. Gran parte de estos datos pueden resultar tremendamente valiosos, pero solo si las empresas pueden entenderlos y aprovecharlos con éxito.
Como parte de la gestión de datos eficaz, la conservación de datos ayuda a las empresas a derivar conocimientos importantes de los datos empresariales y a utilizarlos para la toma de decisiones. Los datos bien seleccionados también se consideran críticos para mejorar el rendimiento de las iniciativas de inteligencia artificial (IA) y ayudar a garantizar el cumplimiento normativo con la gestión de datos y la protección de datos.
Fuera de la empresa, la conservación de datos es un proceso clave en los entornos de investigación y académicos. Por ejemplo, la conservación de datos de investigación puede mejorar el intercambio y el archivo de datos entre desarrolladores, científicos, profesionales de la salud y otros investigadores.
El proceso de conservación de datos puede ser manual o puede realizarse con la ayuda de la automatización, con software diseñado para ejecutar actividades de curación a escala.
En esencia, la conservación de datos permite a las empresas utilizar sus datos para encontrar valor. Pero también les ayuda a gestionar el crecimiento exponencial de los datos, apoyar iniciativas de IA eficaces y responsables, mantener el cumplimiento normativo y garantizar la usabilidad de los datos.
El crecimiento exponencial de los volúmenes de datos ha proporcionado a las organizaciones más datos relevantes para el negocio que nunca, con algunos conjuntos de datos acumulativos que contienen terabytes o petabytes de información de diversas fuentes de datos. A nivel macro, se estima que se generaron a nivel mundial 149 zettabytes de datos en 2024 y se espera que esa cifra se duplique con creces para 2028.
Realizar el control de calidad y la detección de datos en conjuntos de datos tan grandes y complejos sin precedentes conocidos como"big data" no es tarea fácil. Sin embargo, es crítico, ya que los datos empresariales están demostrando cada vez más ser una fuente de conocimiento valioso. Anotar y organizar datos para la toma de decisiones basada en datos puede ofrecer una ventaja competitiva y elevar el rendimiento de las empresas en todos los sectores.
Abordar los desafíos de calidad de los datos y usabilidad se ha vuelto especialmente urgente a medida que las organizaciones adoptan las capacidades con IA como un imperativo estratégico. Los sistemas de IA tienen el potencial de transformar el negocio y elevar la productividad, pero sus necesidades de datos son sustanciales: requieren datos de alta calidad para funcionar de manera efectiva.
Los datos de baja calidad pueden resultar en un rendimiento deficiente del modelo, un escenario de “basura que entra, basura que sale”. Los conjuntos de datos con problemas de calidad, como valores omitidos, valores atípicos o incoherencias, pueden distorsionar el análisis y dar lugar a resultados incorrectos.
La conservación de datos también ayuda a garantizar el cumplimiento normativo, especialmente en el contexto de la IA. Muchos sectores, especialmente aquellos que manejan información confidencial como la atención médica o los servicios financieros, deben navegar por un panorama cambiante de regulaciones que dictan cómo recopilan, procesan, almacenan y protegen los datos.
Las prácticas eficaces de conservación de datos ayudan a garantizar que los datos se recopilen, se conserven, se procesen y se etiqueten de acuerdo con estas reglas. La Ley de IA de la UE, por ejemplo, exige que los sistemas de IA de alto riesgo adopten prácticas rigurosas de gobierno de datos para garantizar que los datos de entrenamiento, validación y prueba cumplan criterios de calidad específicos. Por ejemplo, es esencial que haya un gobierno eficaz en torno al proceso de recopilación de datos.
La conservación de datos también es clave para ayudar a garantizar la reutilización de conjuntos de datos de alta calidad. Por ejemplo, a través de la conservación de datos, las organizaciones pueden crear y mantener un glosario centralizado adaptado específicamente a la empresa. A través de esta única fuente fiable, los usuarios de toda la organización pueden comprender y utilizar mejor los datos. Cuando los datos son accesibles y universalmente utilizables, es más probable que los usuarios recurran a ellos repetidamente en busca de conocimiento.
Aunque las prácticas de conservación de datos pueden variar según la organización, los investigadores han identificado actividades de curación comunes entre conservadores de datos, ingenieros de datos, científicos de datos, administradores de datos y otros profesionales de la gestión de datos a lo largo de los ciclos de vida de los big data1. Entre ellas se incluyen:
Establecer estrategias y criterios para la recopilación, producción e ingesta de datos. La ingesta de datos incluye la adquisición de datos de diversas fuentes, incluidas bases de datos estructuradas e interfaces de programación de aplicaciones (API), así como bases de datos para datos no estructurados. El paso de planificación de la conservación de datos también puede considerar el gobierno de datos, lo que ayuda a garantizar la integridad y la seguridad de los datos.
Creación, recopilación, preservación y mantenimiento de metadatos, que es información que describe un punto de datos o conjunto de datos, como el autor, la fecha de creación o el tamaño del archivo. Una gestión exitosa de los metadatos puede ayudar a que los datos sean más localizables, permitir el rastreo del linaje de datos y mejorar la interoperabilidad del sistema.
Participación en métodos de preparación de los datos. Por ejemplo, la limpieza de datos es el proceso de identificar y corregir errores e incoherencias en conjuntos de datos sin procesar. La transformación de datos es la conversión de datos sin procesar en un formato utilizable para el análisis. Y la anonimización de los datos confidenciales ayuda a garantizar la protección de datos y el cumplimiento normativo.
Evaluación y validación de la calidad de los datos, rastreo de su procedencia y ayuda para garantizar la protección de datos confidenciales. La calidad de los datos se puede clasificar a través de métricas como la precisión, la integridad y la coherencia. Mientras tanto, el seguimiento de la procedencia de los datos puede ayudar a confirmar la fiabilidad de los datos y garantizar que se hayan obtenido los permisos de uso necesarios de los proveedores de datos.
Transferir datos de unidades de proceso de datos a repositorios de datos y sistemas de almacenamiento de datos, como data lakes y almacenes de datos. Las consideraciones para la conservación de datos pueden incluir almacenar diferentes variedades de datos y garantizar la seguridad de datos.
Hacer que los datos se puedan buscar y sean accesibles mediante el desarrollo de taxonomías, la estandarización de los metadatos y el establecimiento de métodos de recuperación de datos.
Los procesos manuales pueden hacer que la conservación de datos sea una tarea lenta, tediosa e ineficiente. Sin embargo, las soluciones adecuadas de gobierno de datos y gestión de datos pueden ayudar a las empresas a automatizar los flujos de trabajo de conservación de datos y a optimizar las canalizaciones de datos.
Las principales soluciones pueden incluir características como:
Un catálogo de datos es un inventario detallado de todos los activos de datos de una organización, diseñado para ayudar a los profesionales de datos a encontrar rápidamente los datos que necesitan. Los catálogos de datos controlados utilizan funciones de clasificación y enmascaramiento de datos para permitir un manejo seguro de los datos.
Los glosarios de vocabulario empresarial específico del sector pueden mejorar la clasificación de los datos, el cumplimiento de la normativa y otras actividades de gobierno.
Se pueden implementar modelos de lenguaje de gran tamaño (LLM) para el enriquecimiento de metadatos, agregando más contexto, etiquetas o descripciones a grandes volúmenes de activos de datos a la vez.
La búsqueda inteligente puede mejorar la accesibilidad de los datos y eliminar los silos. Con la IA, permite a los usuarios extraer información de cualquier lugar (dentro o fuera de la empresa) independientemente del formato, ayudándoles a encontrar los datos que necesitan de forma rápida y sencilla.
La conservación de datos desempeña un papel importante en diversos campos y disciplinas. Los casos de uso incluyen:
Los datos conservados pueden ayudar a impulsar los avances y los descubrimientos en el tratamiento de las enfermedades. Por ejemplo, una clínica sanitaria estadounidense anunció recientemente una asociación con una plataforma de datos sanitarios de IA para curar conjuntos de datos centrados en la esclerosis múltiple (EM), una enfermedad neurológica crónica.
El objetivo del proyecto, que incluirá datos recopilados de más de 3000 pacientes, es desarrollar conocimientos basados en datos sobre subtipos de enfermedades, progresión de la enfermedad y más2.
La conservación de datos puede ayudar a garantizar que las organizaciones que adoptan IA lo hagan de acuerdo con las regulaciones y los requisitos aplicables.
Por ejemplo, el sector de los seguros ha adoptado ampliamente las tecnologías de IA y machine learning para modernizarse. Pero el panorama regulatorio que rodea la adopción de la IA en el sector es complejo y dinámico. Las leyes pertinentes, como la Directiva Solvencia II, incluyen políticas estrictas para las aseguradoras en relación con "la suficiencia y calidad de los datos pertinentes para los procesos de suscripción y reserva". Este reglamento también exige que los datos utilizados para probar y entrenar los sistemas de IA sean completos, precisos y adecuados3.
Los minoristas digitales y físicos a menudo curan sus datos de compradores mediante procesos de segmentación, organizando a los clientes en grupos en función de sus características, comportamientos y preferencias. Esto permite a los minoristas ser más eficaces a la hora de dirigirse a diferentes grupos de clientes con promociones, recomendaciones de productos y otros esfuerzos de marketing personalizados.
Por ejemplo, un análisis de las campañas de marketing por correo electrónico de venta minorista determinó que los correos electrónicos segmentados se leían un 15 % más a menudo que los que no lo estaban4.
Active los datos para la IA y el análisis con catalogación inteligente y gestión de políticas. IBM Knowledge Catalog es un software de gobierno del dato que proporciona un catálogo de datos para automatizar el descubrimiento, la gestión de la calidad y la protección de los datos.
Transforme rápidamente los datos sin procesar en conocimiento práctico, unifique el gobierno, la calidad, el linaje y el uso compartido de los datos, y capacite a los consumidores de datos con datos fiables y contextualizados.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
1 “Big data curation framework: Curation actions and challenges”. Journal of Information Science. 11 de noviembre de 2022.
2 “Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data”. MobiHealthNews. 14 de enero de 2025.
3 “Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management”. Autoridad Europea de Seguros y Pensiones de Jubilación (EIOPA). 10 de febrero de 2025.
4 “Sophisticated email segmentation boosts open rates, engagement: report”. Retail Dive. Consultado el 28 de marzo de 2025.