什么是数据管理计划?

了解数据管理计划的组成部分,推动组织内数据驱动的决策制定。

工作人员在办公桌上用键盘打字的侧面视图
什么是数据管理计划?

数据管理计划 (DMP) 是一份文档,用于定义在从数据采集到存档的整个项目生命周期中如何处理数据。 虽然这些文档通常用于研究项目以满足出资方的要求,但它们也可以在企业环境中用于创建利益相关者之间的结构和一致性。 由于 DMP 强调将在项目中使用的数据类型,并解决了整个 数据生命周期的管理问题,因此利益相关者(如治理团队)可以在项目开始时就存储和传播敏感数据(如个人身份信息,PII)提供明确的反馈。 团队可利用这些文档来避免合规性和监管缺陷,并且可以将其用作模板,来了解如何处理和管理未来项目的数据。


数据管理计划的组成部分

数据管理计划通常包含五个部分:

1. 目的声明 
2. 数据定义  
3. 数据收集和访问 
4. 常见问题及解答 (FAQs)  
5. 研究数据限制 

每一个重点领域都支持研究机构和研究出资方(或您的数据管理团队)评估与给定项目相关的风险。 数据管理计划还涉及如何管理这种风险。 例如,如果在项目中使用敏感数据,那么在将来的项目中重复使用该数据是否合适? 这取决于数据的敏感性,它可能不适用或者可能需要额外征求用户同意。   

数据管理计划的每个组成部分都侧重于特定的信息,我们将逐个深入研究。

1. 目的声明: 它解释团队需要在项目中获取特定类型数据的原因。 这部分应明确概述团队尝试用该数据集回答的问题。

2. 数据定义: 数据描述可帮助最终用户及其受众了解命名约定及其与特定数据集的对应关系。 其中一些信息也可能保存在元数据中,通常通过数据源和文件格式标记数据。 在整个数据采集过程中创建并遵守预定义的元数据标准也会保证数据收集始终一致、集成过程更加顺利。

3. 数据收集和访问:  DMP 的这一部分重点介绍如何从数据存储库收集、存储和访问数据。 其中可能涉及任何现有数据的数据源或创建新数据会采用的方法,如试验。 它还应包含有关数据时间的信息,即更新频率和时间段。 数据的类型和时间通常会提供存储和第三方访问的信息。 例如,非结构化数据需要 非关系型 系统而不是 关系型 ,与较小的数据集相比,较大的数据集需要更多的计算能力。 数据共享也可能出于隐私或知识产权原因而受到限制。 由于项目利益相关方希望敏感数据(例如个人身份信息,PII)得到最谨慎和安全的处理,因此数据所有者必须清楚他们的数据管理实践,尤其是针对敏感数据的管理实践。 这包括数据长期保存的问题,例如数据存档或数据复用。 关于确实属于非敏感型的数据,希望为第三方提供访问原始数据和研究结果的途径。

4. 常见问题及解答: 本节内容包罗万象,涉及数据管理项目中的其他常见问题,例如共享计划,脚注首选项和数据备份方法。 研究人员或数据所有者可以突出显示相近或相关项目所有者的任何数字对象标识符 (DOI)。 此外,项目所有者在归档数据时,还需要解决档案存在的时间问题。 是一年、五年还是无限期归档?

5. 研究数据限制: 本部分解决数据集的预限制,它会限制数据集推广到更广泛人群的能力。 例如,数据可能集中在按照地理区域、性别、种族、年龄组等划定的特定人群。


什么是数据管理计划?

数据管理计划主要用于更加学术的环境,特别是对于联邦政府资助的项目,如美国国家卫生研究院 (NIH) 和美国国家科学基金会 (NSF),但企业也可以将该计划用于自己的研究或数据治理职能。 虽然学者和研究人员需要遵守经费申请中的出资方要求,但许多研究机构创建了 DMP 工具,为参与者提供其研究项目的相关模板。 组织内的数据治理团队可以制定类似的协议,接收来自支持新数据计划的利益相关者的数据请求。

发现数据治理工具和解决方案

数据管理用例

经费申请

私营和公共部门的研究人员都希望有不同的支持机构出资赞助研究和创新计划。 DMP 降低了双方的风险,进而确保数据所有者已评估研究数据管理的价值以及他们自己的个人责任(即安全和灾难恢复措施)。


数据治理举措

数据管理计划对业务环境中的新数据计划也非常有帮助,可帮助所有利益相关者了解新数据源的重要性以及如何将其与业务成果联系起来。 随着 混合云、 人工智能、物联网 (IoT) 和 边缘计算 的发展不断推动大数据的增长,企业需要找到方法,管理数据系统中的数据复杂性。


简化数据收集和管理

探索基于 Red Hat® OpenShift® 开放平台和 AI 构建的 IBM 解决方案,使数据管理更加简单、更加智能。

更多探索方式 探索开源伙伴关系 什么是混合云? 什么是人工智能? 什么是边缘计算?