データ・キュレーションとは

2台の大型コンピューター・モニターの前でノートPCに入力する男性。

執筆者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

データ・キュレーションとは

データ・キュレーションとは、必要に応じてデータを検索、アクセス、使用、再利用できるようにデータセットを作成および管理するプロセスです。これには、データ資産(貴重なデータのコレクション)を中央リポジトリーに追加することが含まれ、資産のメタデータを統合し、追加情報で強化し、ライフサイクル全体にわたってデータの品質を分析および向上させることができます。

今日、組織は増え続ける大量のデータを生み出しており、その量は 1日あたり4億テラバイトを超えます。こうしたデータの多くは、非常に価値があるものですが、それは企業がデータを理解し、うまく活用できる場合に限ります。

効果的なデータ管理の一環として、データ・キュレーションは企業がエンタープライズ・データから重要な知見を引き出し、その知見を意思決定に活用するのに役立ちます。適切にキュレーションされたデータは、人工知能(AI)イニシアチブの成果を向上させ、データ管理とデータ・プライバシーの要件への規制遵守を保証するためにも極めて重要であると考えられています。

企業以外では、研究や教育機関向けのデータ・キュレーションは重要なプロセスです。例えば、研究データをキュレーションすることで、開発者、科学者、医療専門家、その他の研究者間でのデータの共有とアーカイブを向上させることができます。

データ・キュレーション・プロセスは手動で行うことも、キュレーション活動を大規模に実行するように設計されたソフトウェアを使用して自動化の助けを借りて実行することもできます

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ・キュレーションが重要な理由

データ・キュレーションの中核は、企業がデータを利用して価値を見つけることができるようにすることです。しかし、指数関数的なデータ増加を管理し、効果的で責任あるAIイニシアチブをサポートし、規制コンプライアンスを維持し、データのユーザビリティを確保するのにも役立ちます。

データ量の増加

データ量の急激な増加により、組織はこれまで以上に多くのビジネス関連データを得ることができるようになり、組織によっては、さまざまなデータソースからのテラバイトまたはペタバイト規模の情報を含むデータセットを蓄積しています。マクロレベルでは、2024年に世界中で推定149ゼタバイトのデータが生成され、その数字は2028年までに2倍以上になると予想されています。

ビッグデータ」と呼ばれる、これまでにないほど大規模で複雑なデータセットに対して品質保証とデータ検出を実行するのは、決して簡単なことではありません。しかし、企業データは貴重な洞察の情報源となりつつあるため、これは重要な問題です。データ駆動型の意思決定のためにデータに注釈を付けて整理すると、あらゆる業界の企業に競争上の優位性をもたらし、パフォーマンスを向上させることができます。

効果的な人工知能

組織がAI搭載機能を戦略的な必須事項として採用するにつれ、データ品質とユーザビリティの課題に対処することが特に急務となっています。AIシステムはビジネスを変革し、生産性を向上させる可能性を秘めていますが、データ・ニーズは膨大で、効果的に機能するには高品質のデータが必要です。

データの品質が低いと、モデルのパフォーマンスが低下し、「ガベージ・イン、ガベージ・アウト(ゴミを入れたらゴミしか出てこない)」というシナリオが発生する可能性があります。欠損値、外れ値、不整合など、データ品質に問題があるデータセットは、分析を歪め、誤った出力につながる可能性があります。

法規制への準拠

データ・キュレーションは、特にAIの文脈において、規制遵守の確保にも役立ちます。多くの業界、特に医療サービスや金融サービスなどの機密情報を扱う業界は、データの収集、処理、保管、保護の方法を定める規制が進化する状況の中、臨機応変に対応する必要があります。

効果的なデータ・キュレーションの実践により、これらのルールに従ってデータが収集、保管、処理、ラベル付けされるようになります。たとえば、欧州AI規制法では、高リスクのAIシステムには、トレーニング、検証、テストのデータが特定の品質基準を満たしていることを保証するために、厳格なデータ・ガバナンスを採用することが義務付けられています。例えば、データ収集プロセスに関する効果的なガバナンスは不可欠です。

データの再利用性

データ・キュレーションも、高品質なデータセットの再利用性を確保するために重要です。例えば、データ・キュレーションを通じて、組織はビジネスに特化した一元化された用語集を作成し、維持することができます。この信頼できる唯一の情報源を通じて、組織全体のユーザーがデータをよりよく理解し、使用できるようになります。データがアクセス可能で普遍的に使用できる場合、ユーザーは知見を求めて繰り返しそのデータを利用する可能性が高くなります。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

データ・キュレーションの重要なステップとは

データ・キュレーションの実践は組織によって異なる場合がありますが、研究者は、ビッグデータのライフサイクル全体を通じて、データ・キュレーター、データ・エンジニア、データ・サイエンティスト、データ・スチュワード、およびその他のデータ管理専門家の間で共通するデータ・キュレーション活動を特定しました。1次のようなものが挙げられます。

  • 計画
  • 説明
  • 準備
  • 保証
  • ストレージと保存
  • 検出とアクセス

計画

データの収集、生成、取り込みに関する戦略と基準を設定します。データ取り込みには、構造化されたデータベースや アプリケーション・プログラミング・インターフェース(API)、非構造化データのデータベースなど、さまざまなソースからのデータ取得が含まれます。データ・キュレーションの計画段階では、データ・ガバナンスも考慮されることがあり、これはデータの完全性データ・セキュリティーの確保に役立ちます。

説明

メタデータ(作成者、作成日、ファイル・サイズなどデータ点またはデータセットを説明する情報)の作成、収集、保存、維持。メタデータ管理を適切に行うと、データが見つけやすくなり、データ・リネージュトの追跡が可能になり、システムの相互運用性を向上させることができます。

準備

データ準備方法に取り組む。たとえば、データ・クリーニングは、未加工データ・セット内のエラーや不整合を識別して修正するプロセスです。データ変換は、未加工データを分析に使用できる形式に変換することです。また、機密データを匿名化することで、データ・プライバシーと規制遵守を確保できます。

保証

データ品質の評価と検証の達成、データの出所の追跡、機密データの確実な保護を支援します。データ品質は、正確性、完全性、一貫性などの指標によって分類できます。一方、データの出所を追跡することは、データの信頼性を確認し、データ・プロバイダーから必要な使用許可を取得していることを確認するのに役立ちます。

ストレージと保存

データ処理ユニットからデータレイクデータ・ウェアハウスなどのデータ・リポジトリやデータ・ストレージ・システムへのデータ転送。データ保存に関する考慮点には、さまざまな種類のデータの保管やデータ・セキュリティーの確保などが含まれます。

検出とアクセス

分類法を開発し、メタデータを標準化し、データ検索方法を確立することによって、データを検索可能にし、アクセス可能にします。

データ・キュレーション・ソフトウェア・ソリューション

手作業による処理では、データ・キュレーションに時間がかかり、面倒で非効率的な作業になる可能性があります。しかし、適切なデータ・ガバナンスとデータ管理ソリューションがあれば、企業はデータ・キュレーション・ワークフローを自動化し、データ・パイプラインを最適化することができます。

先進的なソリューションには、次のような主要な機能が含まれています。

管理対象データ・カタログ

データ・カタログは、組織内のすべてのデータ資産の詳細なインベントリーであり、データ専門家が必要なデータをすばやく見つけられるように設計されています。管理対象データ・カタログは、データ分類とマスキング機能を使用して、安全なデータ処理を可能にします。

キュレーションされた用語集

業界固有のビジネス用語集により、データ分類、規制遵守、その他のガバナンス活動を改善できます。

AIを活用したメタデータの強化

大規模言語モデル(LLM)はメタデータの強化のために導入でき、大量のデータ資産にさらに多くのコンテキスト、ラベル、または説明を一度に追加できます。

インテリジェント検索

インテリジェント検索により、データのアクセシビリティーが向上し、サイロが排除されます。AIを搭載しているため、ユーザーは形式を問わず、どこからでも(社内外を問わず)情報を抽出することができ、必要なデータを素早く簡単に見つけることができます。

データ・キュレーションのユースケース

データ・キュレーションは、さまざまなフィールドや分野で重要な役割を果たしています。ユースケースには次のようなものがあります。

医学研究の進歩

精選されたデータは、病気の治療における進歩や急進展の促進に役立ちます。例えば、米国に拠点を置くある診療所は最近、慢性神経疾患である多発性硬化症(MS)に焦点を当てたデータセットを精選するために、AI医療データ・プラットフォームとの提携を発表しました。

3,000人を超える患者から収集されたデータが含まれるこのプロジェクトの目的は、疾患のサブタイプや病気の進行などに関するデータ駆動型の知見得ることです。2

保険業界におけるAIのコンプライアンス維持

AIを採用している組織はデータ・キュレーションにより、適用される規制や要件に従って確実にAIを採用できます。

たとえば、保険業界では近代化のためにAIと機械学習テクノロジーを広く導入しています。しかし、業界におけるAIの採用を取り巻く規制環境は複雑で変化に富んでいます。Solvency II指令などの関連法には、「引受および留保プロセスに関連するデータの十分性と質」に関する保険会社向けの厳格な方針が含まれています。これらの規制では、AIシステムのテストとトレーニングに使用されるデータが完全で正確かつ適切であることも義務付けられています。3

消費者マーケティングのパーソナライゼーション

デジタルおよび実店舗の小売業者は、セグメンテーション・プロセスに取り組み、顧客を特徴、行動、好みに基づいてグループに分類することで、買い物客データをキュレートすることが多いです。これにより、小売業者は、プロモーション、製品の推奨、その他のパーソナライズされたマーケティング活動によって、さまざまなグループの顧客をターゲットにすることがより効果的になります。

たとえば、小売業のEメール・マーケティング・キャンペーンを分析した結果、セグメント化されたEメールは、セグメント化されていないメールよりも15%多く読まれていることが判明しました。4

関連ソリューション
IBM Knowledge Catalog

インテリジェントなカタログ作成とポリシー管理により、AIと分析用のデータを有効化します。 IBM Knowledge Catalogは、データ検出、データ品質管理、データ保護を自動化するデータ・カタログを提供するデータ・ガバナンス・ソフトウェアです。

Knowledge Catalogを見る
IBMデータ・インテリジェンス・ソリューション

未加工データを実行可能な洞察にすばやく変換し、データ・ガバナンス、品質、リネージ、共有を統合し、信頼性が高くコンテキスト化されたデータでデータ・コンシューマーを支援します。

データ・インテリジェンス・ソリューションを発見する
データと分析に関するコンサルティング・サービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築できます。

分析サービスの詳細はこちら
次のステップ

クラウド上またはオンプレミス上のどこに保存されていても、データやナレッジ資産、そしてその関係性を見出し、理解し、キュレートし、アクセスします。IBM Knowledge Catalogは、データ検出、データ品質管理、データ保護を自動化するデータ・カタログを提供するデータ・ガバナンス・ソフトウェアです。

ナレッジ・カタログを探索する データ・インテリジェンス・ソリューションの詳細はこちら
脚注

1Big data curation framework: Curation actions and challenges.」Journal of Information Science。2022年11月11日。

2 「Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data」MobiHealthNews. 2025年1月14日

Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management」欧州保険・企業年金監督局(EIOPA)。2025年2月10日

4Sophisticated email segmentation boosts open rates, engagement: report.」Retail Dive。2025年3月28日にアクセス。