データ管理計画(DMP)とは、データの取得からアーカイブに至るまで、プロジェクト全体のライフサイクルにおけるデータの取り扱い方法を定義する文書です。
これらの文書は通常、研究プロジェクトにおいて資金提供者の要件を満たすために使用されますが、企業環境においても、利害関係者間の整理や足並みをそろえるための枠組みとして活用することができます。
DMPでは、プロジェクトで使用されるデータの種類と、データ・ライフサイクル全体にわたる管理方針が示されるため、ガバナンス・チームなどの利害関係者は、個人情報(PII)といった機密性の高いデータの保管・配布方法について、プロジェクトの初期段階から明確なフィードバックを行うことが可能になります。これらの文書は、コンプライアンスや規制上の落とし穴を回避するのに役立つとともに、今後のプロジェクトにおけるデータの取り扱いや管理方法の手本としても活用できます。
データ管理計画には通常、次の5つの構成要素が含まれます。
1.目的
2. データの定義
3. データの収集とアクセス
4. よくある質問(FAQ)
5. 調査データの制限
これらの重点分野はそれぞれ、研究機関や研究資金提供者(あるいはデータ管理チーム)が、特定のプロジェクトに関連するリスクの大きさを評価するのに役立ちます。データ管理計画では、そのリスクを管理する方法についても取り上げています。たとえば、機密データがプロジェクト内で使用される場合、そのデータを将来のプロジェクトで再利用することは適切でしょうか。そのデータの機密性によっては、適切でない場合や、追加のユーザー同意が必要な場合があります。
データ管理計画の各コンポーネントは、特定の情報に焦点を当てていますが、それぞれについて詳しく説明します。
1. 目的の説明:これは、プロジェクト期間中、チームが特定の種類のデータを取得する必要がある理由を説明します。チームがこのデータセットを使って答えようとしている質問を明確に説明する必要があります。
2. データの定義:データの説明は、エンド・ユーザーやそのオーディエンスが命名規則を理解し、特定のデータセットとの対応関係を把握するのに役立ちます。こうした情報の一部は、データ・ソースやファイル形式によってデータにラベル付けされたメタデータ内に含まれている場合もあります。また、データ収集プロセス全体を通じて、あらかじめ定義されたメタデータ標準を策定し、それに従うことで、データの収集がより一貫性のあるものとなり、統合も円滑に進めることができます。
3. データの収集とアクセス:このセクションでは、データの収集方法、保管場所、およびデータ・レポジトリーからのアクセス手段を説明します。既存データのデータ・ソースや、実験などを通じて新たなデータを作成する際の手法についても、このセクションに取り込む場合があります。また、データのタイミングに関する情報、つまりデータの更新頻度や更新が行われる期間についての情報も含める必要があります。データの種類やタイミングは、一般的にその保存方法や第三者によるアクセスの可否に影響を与えます。たとえば、非構造データには非リレーショナルシステムが必要となり、リレーショナルシステムとは異なる対応が求められます。また、大規模なデータセットは、小規模なものに比べてより多くの計算能力を必要とします。また、データの共有には、プライバシーや知的財産に起因する制約が伴うこともあります。プロジェクトの利害関係者は、個人情報(PII)などの機密性の高いデータが最大限の注意とセキュリティのもとで取り扱われることを期待しているため、データの管理者は、特にこの分野において、自らのデータ管理方針を明確に示すことが重要です。これには、データのアーカイブやデータの再利用など、データの長期保存に関する質問に対する回答も含まれます。本質的に機密性を伴わないデータについては、第三者が未加工データや研究成果にアクセスできる仕組みを整備することが求められます。
4. よくある質問: このセクションは、共有計画、引用設定、データのバックアップ方法など、データ管理プロジェクトに関するその他のよくある質問の「受け皿」と考えることができます。研究者またはデータ所有者は、隣接するプロジェクトまたは関連するプロジェクトの所有者に対して、デジタル・オブジェクト識別子(DOI)を強調することができます。さらに、プロジェクト・オーナーがデータをアーカイブしている場合は、アーカイブの存在期間にも対処する必要があります。1年、5年、あるいは無期限に存続しますか?
5. 研究データの制約事項:このセクションでは、データセットにあらかじめ存在する制約と、それによって母集団全体への一般化に限界が生じる点を取り上げます。たとえば、地理的地域、性別、人種、年齢層といった特定の属性に基づいてデータが収集され、偏りが生じる場合があります。
データ管理計画は、主に学術分野で活用されており、とくに米国国立衛生研究所(NIH)や米国国立科学財団(NSF)といった連邦政府の助成を受けたプログラムにおいて使用されています。しかし、企業においても、研究活動やデータ・ガバナンスの取り組みにおいて活用することができます。学術関係者や研究者は、助成金申請において資金提供機関の要件に従う必要がありますが、多くの研究機関では、研究参加者が自らの研究プロジェクトに適したテンプレートを利用できるよう、データ管理計画作成ツールを提供しています。組織のデータ・ガバナンスを担当するチームは、新たなデータ活用の取り組みを提案する利害関係者からの要請を受け入れるために、同様の手順を構築することができます。
民間・公共のいずれの分野においても、研究者は研究およびイノベーションの取り組みに対する支援を求めて、さまざまな資金提供機関に依頼しています。データ管理計画は、双方にとってのリスクを軽減し、データの所有者が研究データ管理における価値を評価するとともに、自身の責任(セキュリティ対策や災害復旧など)についても把握していることを担保します。
データ管理計画は、ビジネス環境における新しいデータイニシアチブにも非常に役立ち、すべての利害関係者が新しいデータ・ソースの重要性と、それがビジネス成果にどのように結びつくかを理解するのに役立ちます。ハイブリッドクラウド、人工知能、IoT(モノのインターネット)、エッジコンピューティングの発展によりビッグデータの成長が促進されるにつれ、企業はデータ・システム内でビッグデータの複雑さを管理する方法を見つける必要があります。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。