数据管理计划 (DMP) 是一份文档,用于定义项目整个生命周期中(即从数据采集到归档环节)处理数据的方式。
尽管这些文档通常用于研究项目以满足资助方的要求,但企业环境同样可借助其在利益相关者之间构建协作框架并进行协调。
由于 DMP 重点关注项目即将使用的数据类型并侧重于解决整个数据生命周期的管理问题,因此利益相关者(如治理团队)可以在项目初始阶段,就个人身份信息 (PII) 等敏感数据的存储和传播提供明确的反馈。这些文档可以帮助团队规避合规和监管陷阱,并且可以作为未来项目数据处理和管理方法的模板。
数据管理计划通常由五部分组成:
1. 目的陈述
2. 数据定义
3. 数据收集和访问
4. 常见问题解答 (FAQ)
5. 研究数据限制
上述各项关键要点都能帮助研究机构以及研究资助方(或您的数据管理团队)评估特定项目的相关风险程度。数据管理计划还涉及如何管理这类风险。例如,如果项目中使用了敏感数据,该数据能否在未来的项目中重复使用?根据数据敏感程度,可能不适合复用,或需要额外征得用户同意。
数据管理计划的各个组成部分都专注于某一特定信息,我们将逐一深入探讨。
1. 目的陈述:说明为什么团队需要在项目过程中获取特定类型的数据。它应清楚地概述团队试图利用该数据集解答的问题。
2. 数据定义:数据描述可帮助最终用户及其受众了解命名规范与相关数据集的对应关系。其中一些信息也可能包含在元数据中,通常可根据数据源和文件格式对数据进行标注。在整个数据采集过程中,创建并遵守预定义的元数据标准,还能确保采集工作更加一致,整合过程更加顺畅。
3. 数据收集和访问:DMP 的这一部分内容将重点介绍如何收集和存储数据,以及如何从数据存储库中获取数据。它通常会说明现有数据的数据源,或创建新数据(如实验数据)的方法。它还应包含有关数据时间节点的信息,即更新频率和更新周期。数据的类型和时间节点通常决定了其存储方式及对第三方的开放权限。例如,非结构化数据需要非关系型系统而非关系型系统,大型数据集的算力需求则高于小型数据集。受隐私或知识产权保护要求限制,数据共享可能面临约束。由于项目利益相关者希望敏感数据(如个人身份信息 (PII))得到最高级别的防护,因此数据所有者必须明确其数据管理规范——尤其是此类数据的处理流程。这涉及对数据长期保存问题的答复,如数据归档或数据复用。对于非敏感数据,组织期望为第三方提供访问原始数据和研究结果的途径。
4. 常见问题解答:本节内容可视作数据管理项目中其他常见问题的“总括”,例如共享计划、引用偏好和数据备份方法。研究人员或数据所有者可能需要为相邻或相关项目所有者标注数字对象标识符 (DOI)。此外,如果项目所有者正在归档数据,还需明确归档保存期限:究竟应保存一年、五年,还是永久保存?
5. 研究数据限制:本节内容将探讨数据集固有的局限性,这些因素将影响其在更广泛人群中的普适性。例如,数据可能侧重于地理位置、性别、种族、年龄段等特定的人口统计信息。
数据管理计划主要用于学术环境,特别是联邦政府资助的项目,例如美国国立卫生研究院 (NIH) 和美国国家科学基金会 (NSF),但企业也可以在其研究或数据治理职能中运用这一计划。虽然学术和研究人员需要遵守拨款申请中资助者的要求,但许多研究机构都创建了 DMP 工具,为参与者提供其研究项目的相关模板。组织内部的数据治理团队可以制定类似的协议,以采集利益相关者提出的数据请求,从而推行新的数据计划。
私营和公共部门的研究人员都在寻找不同的资助机构来赞助其研究和创新计划。DMP 可降低双方面临的风险,从而确保数据所有者能够有效评估价值及其个人责任(即安全和灾难恢复措施),以便开展研究数据管理。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。