Un plan de gestión de datos (DMP) es un documento que define cómo se manejan los datos a lo largo del ciclo de vida de un proyecto, es decir, desde su adquisición hasta que se archivan.
Si bien estos documentos se utilizan normalmente para proyectos de investigación para cumplir los requerimientos de los financiadores, también pueden aprovecharse dentro de un entorno corporativo para crear estructura y alineación entre los stakeholders.
Dado que los DMP destacan los tipos de datos que se utilizarán dentro del proyecto y cubren la gestión a lo largo del ciclo de vida de los datos, los stakeholders, tales como los equipos de gobernanza, pueden proporcionar feedback sobre el almacenamiento y la difusión de datos confidenciales, como la información de identificación personal (PII), al inicio de un proyecto. Estos documentos permiten a los equipos evitar obstáculos normativos y de cumplimiento, y pueden servir como plantillas sobre cómo abordar y gestionar los datos para proyectos futuros.
Un plan de gestión de datos generalmente tiene cinco componentes:
1. Una declaración de propósito
2. Definiciones de datos
3. Recopilación y acceso a datos
4. Preguntas frecuentes (FAQ)
5. Limitaciones de los datos de investigación
Cada una de estas áreas de enfoque permite a las agencias de investigación y a los financiadores de la investigación (o quizás a su equipo de gestión de datos) evaluar la cantidad de riesgo asociado con un proyecto determinado. El plan de gestión de datos también aborda cómo gestionar ese riesgo. Por ejemplo, si se utilizan datos confidenciales dentro de un proyecto, ¿es apropiado reutilizar esos datos para proyectos futuros? Dependiendo de la confidencialidad de esos datos, es posible que no sean apropiados o que requieran un consentimiento adicional del usuario.
Cada componente de un plan de gestión de datos se centra en una información concreta, por lo que profundizaremos en cada uno de ellos.
1. Declaración de propósito: esto explica por qué el equipo necesita adquirir tipos específicos de datos a lo largo del proyecto. Debe describir claramente la pregunta que el equipo intenta responder con este conjunto de datos.
2. Definiciones de datos: las descripciones de datos ayudan a los usuarios finales y a sus audiencias a comprender las convenciones de nomenclatura y su correspondencia con conjuntos de datos específicos. Parte de esta información también puede estar contenida dentro de los metadatos y normalmente se etiquetarán los datos por sus fuentes de datos y formatos de archivo. La creación y el cumplimiento de estándares de metadatos predefinidos durante todo el proceso de adquisición de datos también garantizará una recopilación más coherente y un proceso de integración más fluido.
3. Recopilación y acceso a los datos: esta sección de un DMP destaca cómo se recopilarán, almacenarán y accederán a los datos desde un repositorio de datos. Probablemente establecerá la fuente de los datos existentes o el enfoque que se adoptará para crear nuevos datos, como un experimento. También debe contener información sobre la cronología de los datos, p. ej. con qué frecuencia se actualizará y durante qué plazo. El tipo y el momento de los datos generalmente determinarán su almacenamiento y acceso a terceros. Por ejemplo, los datos no estructurados requerirán un sistema no relacional en lugar de uno relacional, y los conjuntos de datos más grandes requerirán más potencia de cálculo en comparación con los más pequeños. También puede haber restricciones a la hora de compartir datos por motivos de privacidad o derechos de propiedad intelectual. Dado que los stakeholders en el proyecto esperan que los datos sensibles, como la información de identificación personal (IPI), se traten con el máximo cuidado y seguridad, es importante que los propietarios de los datos sean claros sobre sus prácticas de gestión de datos, especialmente en este ámbito. Esto incluirá respuestas a preguntas sobre la conservación de los datos a largo plazo, como su archivado o reutilización. En el caso de los datos que no son sensibles por naturaleza, se espera que se proporcione una ruta para que terceros accedan a los datos sin procesar e y resultados de la investigación.
4. Preguntas frecuentes: esta sección puede considerarse un "cajón de sastre" para otras preguntas populares dentro de los proyectos de gestión de datos, como los planes de uso compartido, las preferencias para citar información y los métodos de copia de seguridad de datos. Los investigadores o propietarios de datos pueden resaltar cualquier identificador de objeto digital (DOI) para los propietarios de proyectos adyacentes o relacionados. Además, si los propietarios de proyectos archivan datos, también deberán abordar la duración de la existencia del archivo. ¿Estarán activos durante un año, cinco años o quizás indefinidamente?
5. Limitaciones de los datos de investigación: esta sección aborda las limitaciones iniciales del conjunto de datos, que limitarán su capacidad para generalizar más ampliamente a las poblaciones. Por ejemplo, los datos pueden centrarse en un grupo demográfico específico, como geografía, género, raza, grupo de edad, etc.
Los planes de gestión de datos se utilizan predominantemente en entornos más académicos, en especial para programas financiados por el gobierno federal, como los Institutos Nacionales de Salud (NIH) y la Fundación Nacional de Ciencias (NSF), pero los corporativos también pueden aprovecharlos en sus funciones de investigación o gobernanza de datos. Si bien los académicos e investigadores deben cumplir con los requisitos de financiamiento en las solicitudes de subvención, muchas instituciones de investigación crean una herramienta de DMP para proporcionar a los participantes la plantilla relevante para su proyecto de investigación. Los equipos de gobernanza de datos dentro de las organizaciones pueden configurar protocolos similares para ingerir solicitudes de datos de las stakeholders que abogan por nuevas iniciativas de datos.
Los investigadores de los sectores público y privado recurren a diferentes organismos de financiación para patrocinar iniciativas de investigación e innovación. Los DMP mitigan el riesgo para ambas partes, asegurando que los propietarios de los datos hayan evaluado el valor, así como su propia responsabilidad personal (es decir, medidas de seguridad y recuperación ante desastres) para investigar la gestión de datos.
Los planes de gestión de datos también son increíblemente útiles para las nuevas iniciativas de datos en entornos empresariales, ya que ayudan a todos los stakeholders a comprender la importancia de las nuevas fuentes de datos y cómo pueden vincularse con los resultados empresariales. A medida que los desarrollos dentro de la nube híbrida , la inteligencia artificial , el Internet de las cosas (IoT) y la computación edge continúan estimulando el crecimiento de big data, las empresas deberán encontrar formas de gestionar la complejidad dentro de sus sistemas de datos.
Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.