Un plan de gestión de datos (DMP) es un documento que define la forma en que se gestionan los mismos a lo largo del ciclo de vida de un proyecto, es decir, desde su adquisición hasta su archivo.
Si bien estos documentos se utilizan normalmente para proyectos de investigación para cumplir con los requisitos de los financiadores, también pueden aprovecharse dentro de un entorno corporativo para crear estructura y alineación entre las partes interesadas.
Dado que los DMP destacan los tipos de datos que se utilizarán en el proyecto y abordan su gestión a lo largo de todo el ciclo de vida de los datos, las partes interesadas, como los equipos de gobierno, pueden proporcionar feedback claro sobre el almacenamiento y la difusión de datos sensibles, como la información de identificación personal (PII), al inicio de un proyecto. Estos documentos permiten a los equipos evitar los escollos normativos y de cumplimiento, y pueden servir como plantillas sobre cómo enfocar y gestionar los datos para futuros proyectos.
Un plan de gestión de datos suele tener cinco componentes:
1. Una declaración de objetivos
2. Definiciones de datos
3. Recopilación y acceso a los datos
4. Preguntas frecuentes (FAQ)
5. Limitaciones de los datos de investigación
Cada una de estas áreas de enfoque permite a los organismos de investigación y a los financiadores de la investigación (o quizás a su equipo de gestión de datos) evaluar la cantidad de riesgo asociada a un proyecto determinado. El plan de gestión de datos también aborda cómo gestionar ese riesgo. Por ejemplo, si se utilizan datos confidenciales dentro de un proyecto, ¿es apropiado reutilizarlos para proyectos futuros? Dependiendo de la confidencialidad de esos datos, puede que no sea apropiado o que requiera un consentimiento adicional del usuario.
Cada componente de un plan de gestión de datos se centra en un dato concreto, que analizaremos más detenidamente a continuación.
1. Declaración de objetivos: explica por qué el equipo necesita adquirir tipos específicos de datos a lo largo del proyecto. Debe describir claramente la pregunta que el equipo intenta responder con este conjunto de datos.
2. Definiciones de datos: las descripciones de los datos ayudan a los usuarios finales y a sus audiencias a comprender las convenciones de nomenclatura y su correspondencia con conjuntos de datos específicos. Parte de esta información también puede figurar en los metadatos, que suelen etiquetar los datos según sus fuentes y formatos de archivo. La creación y el cumplimiento de estándares de metadatos predefinidos durante todo el proceso de adquisición de datos también garantizará una recopilación más consistente y un proceso de integración más fluido.
3. Recopilación y acceso a los datos: esta sección de un DMP destaca cómo se recopilarán, almacenarán y accederán los datos desde un repositorio de datos. Es probable que aborde la fuente de datos de cualquier dato existente o el enfoque que se adoptará para crear nuevos datos, como un experimento. También debe contener información sobre la sincronización de los datos, es decir, con qué frecuencia se actualizarán y durante qué periodo de tiempo. El tipo y la periodicidad de los datos determinarán, por lo general, su almacenamiento y el acceso a terceros. Por ejemplo, los datos no estructurados requerirán un sistema no relacional en lugar de uno relacional, y los conjuntos de datos más grandes requerirán más potencia de cálculo que los más pequeños. También puede haber restricciones en torno al intercambio de datos debido a la privacidad o los derechos de propiedad intelectual. Dado que las partes interesadas del proyecto esperan que los datos confidenciales, como la información de identificación personal (PII), se traten con el máximo cuidado y seguridad, es importante que los propietarios de los datos tengan claras sus prácticas de gestión de datos, especialmente en este área. Esto incluirá respuestas a preguntas sobre la preservación de los datos a largo plazo, como el archivo de datos o la reutilización de los mismos. En el caso de los datos que no sean de carácter sensible, se esperará que se facilite a terceros una vía para acceder a los datos sin procesar y a los resultados de la investigación.
4. Preguntas frecuentes: esta sección puede considerarse un "repositorio" para otras preguntas habituales en los proyectos de gestión de datos, como planes de intercambio, preferencias de citación y métodos de backup de datos. Los investigadores o propietarios de datos pueden destacar cualquier identificador de objeto digital (DOI) para los propietarios de proyectos adyacentes o relacionados. Además, si los propietarios de los proyectos están archivando datos, también deberán indicar la duración del archivo. ¿Tendrá una vigencia de un año, cinco años o quizás indefinida?
5. Limitaciones de los datos de investigación: esta sección aborda las limitaciones iniciales con el conjunto de datos, lo que limitará su capacidad para generalizar de manera más amplia a las poblaciones. Por ejemplo, los datos pueden centrarse en un grupo demográfico específico, como una zona geográfica, un género, una raza, un grupo de edad, etcétera.
Los planes de gestión de datos se utilizan predominantemente en entornos más académicos, especialmente en los programas financiados por el gobierno federal, como los Institutos Nacionales de Salud (NIH) y la Fundación Nacional de Ciencias (NSF), pero las empresas también pueden aprovecharlos en sus funciones de investigación o de gobierno de datos. Si bien los académicos e investigadores deben cumplir con los requisitos de financiación en las solicitudes de subvención, muchos centros de investigación crean una herramienta de DMP para proporcionar a los participantes la plantilla correspondiente para su proyecto de investigación. Los equipos de gobierno de datos dentro de las organizaciones pueden establecer protocolos similares para consumir las solicitudes de datos de las partes interesadas que abogan por nuevas iniciativas de datos.
Los investigadores de los sectores público y privado recurren a diferentes agencias de financiación para patrocinar iniciativas de investigación e innovación. Los DMP mitigan el riesgo para ambas partes, garantizando que los propietarios de los datos hayan evaluado el valor y su propia responsabilidad personal (es decir, las medidas de seguridad y recuperación ante desastres) en relación con la gestión de los datos de investigación.
Los planes de gestión de datos también son increíblemente útiles para las nuevas iniciativas de datos en los entornos empresariales, ya que ayudan a todas las partes interesadas a entender la importancia de las nuevas fuentes de datos y su relación con los resultados empresariales. A medida que los avances dentro de la nube híbrida, la inteligencia artificial, el edge computing y el Internet de las cosas siguen impulsando el crecimiento del big data, las empresas tendrán que encontrar formas de gestionar la complejidad de estos datos dentro de sus sistemas.
Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.
Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.