タグ

メタデータとは

共同執筆者

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

メタデータとは

メタデータとは、データやデータセットに関するデータのことで、著者、作成日、ファイルサイズなどが含まれます。メタデータは、データの検索や整理、使用を効率化するために重要な役割を果たします。

メタデータは簡単には「データに関するデータ」として定義されます。つまり、データに関して、そのデータそのものの内容とは別の情報を提供するということです。たとえば、最近の顧客注文のテーブルはデータセットを構成しますが、そのデータセットに関する情報（所有者やファイルの種類など）がメタデータになります。

メタデータの種類によって役割は異なります。たとえば、文書の記述的メタデータには、作成者、作成日、ファイルサイズ、キーワードなどが含まれます。リレーショナル・データベースの技術的なメタデータは、テーブルの構造、データ型、テーブル間の関係を記述することができる。

現代の企業が扱う膨大なデータの量を考えると、メタデータは不可欠です。メタデータによってデータへのアクセス性が向上し、大規模なデータセットをナビゲートし、生の情報を実用的な洞察に変換することが容易になります。例えば小売業では、メタデータを使用して、製品カテゴリと地域でフィルタリングした特定の月の売上データをすばやく見つけることができます。すべてのデータを検索する必要はありません。

メタデータはデータ・ガバナンスとデータ管理においても欠かすことができません。事実、Gartnerによると、ITのモダナイゼーションにメタデータ主導型のアプローチを採用していない企業では、データ管理に費やす費用が40%も余分にかかる可能性があります。¹

データベース、デジタルライブラリ、コンテンツ管理プラットフォームなどのシステムは、メタデータを使ってデータの分類、取得、管理を行います。データが適切に整理されていれば、組織はビジネスインテリジェンス（BI）、AI、機械学習（ML）プロジェクトなどのクリティカルなビジネス・イニシアチブにおけるデータの価値を最大化できます。

メタデータは、データ品質とデータの整合性を確保するのにも役立ちます。これがデータ・リネージュの取り組みを可能にし、一般データ保護規則（GDPR）やCalifornia Consumer Privacy Act（CCPA）などの規制コンプライアンスを確保できます。

メタデータの視覚化

メタデータという概念は、やや抽象的に感じられることもあるでしょう。より具体的にするために、1冊の本を例に取ります。この場合、著者、タイトル、発行日、目次などがメタデータとなります。これらは実際のデータ（本の中の本文）を提供するものではありませんが、本を分類し、その出所を把握するための重要な詳細情報を提供します。

図書館員や研究者が著者名を使用して何千冊もの書籍を整理するのと同じように、データサイエンティストやその他のユーザーは、メタデータを使用して大規模なデータ・セットを検索することができます。

この情報がなければ、ユーザーは膨大な量のデータ（分類されていない何十万ページもの文章）に直面し、それを分類したり整理したりすることもできません。つまりこの場合、本のようなデータは、すべてのコンテキストと機能を失ってしまいます。

メタデータの種類

メタデータにはいくつかのタイプがあり、それぞれがデータの異なる側面を表現します。例えばコンピューターファイルの内容、その構造、権限を記述するメタデータの種類はそれぞれ異なります。

最も一般的な種類のメタデータには、次のようなものがあります。

記述的メタデータ
構造的メタデータ
管理用メタデータ
テクニカル・メタデータ
保存用メタデータ

記述的メタデータ

記述的メタデータは、ファイルのタイトル、作成者、キーワード、概要など、データに関する基本的な情報を提供します。

記述的メタデータは、データを検索可能にするのに役立つため、ソーシャル・メディア・プラットフォーム、検索エンジン、データ・カタログで一般的に使用されます。例えば、LinkedInでは、ユーザーの役職、学歴、スキルなどの記述的メタデータが、プロフィールの分類と識別に役立ちます。

セマンティック・メタデータは、厳密にはメタデータというよりはフレームワークに近いものですが、記述的メタデータを補完することができます。セマンティック・メタデータは、データポイントの間の関係を定義し、文脈上の意味を付加します。

例えば、データセットに「自動車」という用語が含まれている場合、セマンティック・メタデータを使用することで、この「自動車」が「車両」や「SUV」などの他の用語とどのように関連しているかを明確にすることができます。

構造的メタデータ

構造的メタデータは、データの各要素がどのように整理され、相互に関連するかを定義します。例えばWebサイトの場合、構造的メタデータは、ホームページから他のサブページへのリンク構造や、それぞれのサブページのセクション分類を明示します。

読者が本の内容を把握する上で目次が役立つのと同じように、構造的メタデータは、システムが複雑なデータを整理するのに役立ちます。

しばしばタクソノミー（データを分類するための組織化されたシステム）が構造的メタデータのガイドとなります。例えば小売業者であれば、タクソノミーを使用してさまざまな製品を分類することができます。「携帯電話」は「電子機器」に、「Tシャツ」は「衣料品」に分類されるでしょう。

管理用メタデータ

管理用メタデータは、データの所有者、アクセス許可、および保管ポリシーに関する情報を提供します。例えばデータの作成者、データを変更できる人物、保管期間などを詳細に記述します。

管理用メタデータは、データ・アクセスの記録を作成し、保存スケジュールを管理することで、法規制や社内規則のコンプライアンスの徹底にも役立ちます。また、保存用メタデータの管理において重要な役割を果たし、データが長期にわたってアクセス／利用可能な状態を維持するのに役立ちます。

テクニカル・メタデータ

テクニカル・メタデータは、ファイル形式、エンコード情報、ストレージの場所など、データファイルの技術的な詳細情報を説明するものです。たとえば、画像の技術的メタデータには、解像度、ファイルサイズ、ファイル形式、カラープロファイルなどが含まれます。

また、テクニカル・メタデータは、コンテンツ管理システムやクラウド・ストレージ・ソリューションなどのさまざまなシステムやプラットフォームを横断してデータを正しく保存、処理、表示する上で役立ちます。

例えばテクニカル・メタデータには、画像を表示するための適切な解像度など、各種システムと環境がデータを正確に解釈して表示するために必要な重要な情報が含まれています。

保存用メタデータ

保存用メタデータは、データの長期的な使用とアクセシビリティを確保するのに役立ちます。データセットの最後のバックアップに関する詳細や、陳腐化を防ぐためにテクノロジーの進化に合わせてデータを新しいフォーマットに移植するなどのストラテジーも含まれます。

例えば医療組織であれば、アクセスとコンプライアンスを継続的に維持できるよう、レガシーシステムから最新の電子カルテ（EHR）フォーマットに患者記録を変換するために保存用メタデータを使用できます。

保存用メタデータは、特定の規則や規制のコンプライアンスのためにデータを長期間保管しなければならない医療や法律サービスなどの業界には欠かせません。

メタデータの役割

メタデータはデータの整理、検索、アクセスに不可欠であるため、データの作成と保存から取得とアーカイブまで、データ管理プロセスのすべてのステップで重要な役割を果たします。

ここでは、データ管理ライフサイクルのそれぞれのステップにおけるメタデータの位置づけをまとめています。

データ作成

データ作成の段階では、ほとんどの場合手動または自動によるメタデータの作成が伴います。

例えばデジタル写真を撮影する場合、ほとんどのデジタルカメラはカメラのモデル、日付、時刻などのメタデータを自動的に記録します。

同様に、ユーザーがデータ・セットをデータ・リポジトリーにアップロードする際、記述的メタデータを手動で追加して検索性を向上させることもできます。

データ・ストレージと組織

メタデータは、大量のデータを分類、記述、整理するための構造を組織に提供します。これによって、組織はより論理的で一貫した方法でデータを保管できるようになります。

例えばリレーショナルデータベースでは、メタデータでテーブルの接続方法を指定することで分析が容易になります。

メタデータによって非構造化データにラベル、説明、またはタグを追加することができ、システムがファイルやレコードをより効率的に分類できるようになります。また、変更やファイルの出所を記録して、バージョン管理もサポートします。

データ・アクセスと取得

メタデータによって、保管されたデータの検索と取得が容易になります。ユーザーは、膨大な量の情報を手動で選別する代わりに、キーワード、ファイルの説明、作成日などのメタデータを使用して、特定のデータを迅速に見つけ出すことができます。

例えばコンテンツ管理システムのメタデータ・タグは、ユーザーが公開日、作成者、トピックごとにコンテンツを分類するのに役立ちます。検索エンジンでは、関連性の高いWebページのランク付けや配信にで、タイトル・タグや説明など、HTMLヘッダーに埋め込まれたメタデータを利用しています。

データのアーカイブと保存

データのアクティブな利用が終了すると、メタデータは適切なアーカイブと長期保存の確保に役立ちます。

保存用メタデータは、ファイル形式、アクセス権、最終変更日、バックアップ履歴などの重要な詳細を記録します。

これらの詳細情報を記録することで、組織は規制コンプライアンスを維持しつつ、アーカイブされたデータを何年も、あるいは何十年も使用できる状態で維持することができます。

メタデータの標準とスキーマ

メタデータの標準とスキーマは、複数のデータセット間の一貫性を確保して、システムやユーザーがより容易にデータを理解し共有できるようにします。

メタデータ規格は、複数のシステムにわたってメタデータを構造化し適用する方法を定義します。Dublin CoreとISO 19115という2つのメタデータ規格が広く知られています。

Dublin Coreは、デジタルリソースを説明するために広く使用されているシンプルな規格です。ここには、「タイトル」、「作成者」、「フォーマット」などの基本的なメタデータ要素が含まれます。この規格は、物理的なコレクションとデジタル・コレクションの両方を整理するためにデジタルライブラリやアーカイブでよく使用されます。

ISO 19115は地理空間データの記述に焦点を当てたものです。これにより、データ品質、地理的な範囲、方法論の詳細など、地理情報のデータセットの一貫した文書化が可能になります。この規格は、地図作成、土地測量、環境モニタリングに携わる業界にとって欠かせないものです。

メタデータ・スキーマは、メタデータ規格を実装するための青写真です。これにより、メタデータ要素の一貫した編成、形式化、利用が可能になります。例えばDublin Coreに基づくスキーマでは、プラットフォーム間で一貫性を保つために「タイトル」や「件名」などの要素をどのように形式化する必要があるかを規定します。

メタデータが重要な理由

メタデータは、検索エンジンからAIモデルに至るまで、人々が毎日使用するシステムやテクノロジーにとって不可欠です。具体的には、メタデータは以下をサポートします。

データ・アクセシビリティー
データ統合
人工知能（AI）と機械学習
データ・アーキテクチャー

データ・アクセシビリティー

現代の組織は大量のデータを所有していますが、人々がそのデータを活用できなければあまり意味がありません。実際、 IBM Data Differentiator のレポートよると、企業データの68%は未分析のままです。多くの場合は人々がデータの存在に気づいていなかったり、サイロ化によってアクセスが妨げられたりしているのが原因です。

メタデータを使用すると、ユーザーは複雑なデータ・ランドスケープを簡単に取り扱うことができます。メタデータはデータ・セットの整理、ラベル付け、フィルター、ソートに役立ち、ユーザーやシステムは必要な情報を素早く取得できます。適切なメタデータ管理がなければ、複数のシステムを横断して正しいデータを見つけることは、干し草の山で針を探すように難しくなります。

データ統合

組織は、アプリ、Webサイト、デジタル・保管および実保管、顧客ポータルなど、複数のソースからデータを収集します。これらすべての情報を統合することをデータ統合と呼びますが、これは大きな課題となる可能性があります。

メタデータは、データ・フォーマットを標準化し、データ・セット間の関係をマッピングするのに役立ち、データがシステム間をシームレスに流れるようにします。データ統合は分析やビジネスインテリジェンス（BI）の取り組みにおいて特に重要です。正確な洞察を得るには、連携して稼働しているさまざまなプラットフォームのデータが必要です。

例えば小売企業であれば、メタデータを使用して、オンラインや店頭の取引で得た顧客の購入データを関連付けることができます。これにより、複数のデータセットをまとめて分析し、より正確で適切な情報に基づいた購買行動の予測を立てることができます。在庫管理の最適化や、新しいマーケティング・ストラテジーのサポートにも役立ちます。

人工知能（AI）と機械学習

人工知能と機械学習のプロジェクトで正確なトレーニングを実施し正確な結果を得るには、クリーンで十分に整理されたデータが欠かせません。メタデータは、データのラベル付けと分類によってこのプロセスをサポートし、モデルの学習を助け、洞察に必要なコンテキストを提供します。

また、これらのテクノロジーのデータ準備は、しばしば時間のかかるプロセスです。Gartner社の報告によると、クライアントはデータの準備に約90％の時間を費やしており、より複雑な業種・業務ではその割合は94％に達しています¹。効率的なメタデータ管理により、データ準備のプロセスを合理化し、組織はデータのクリーニングではなく分析に集中できるようになります。

データ・アーキテクチャー

企業は、顧客取引や製品在庫から社内プロセスや独自の研究に至るまで、あらゆる事項に関する大量のデータを所有しています。このデータは、ユーザーとアプリが必要なときにアクセスできるように、一貫したデータ・アーキテクチャで整理する必要があります。

メタデータはデータ・アーキテクチャの基盤です。複数のシステムにわたるデータの整理、保管、アクセス方法を決定する青写真の役割を果たします。データパイプラインの効率的な実行、システム内のデータの流れの標準化、スケーラビリティの向上に役立つ情報を提供します。

メタデータによって、組織が同じデータを複数の場所に保管する必要がないよう、データセット間の関係をマッピングして冗長性を最小限に抑えることもできます。

メタデータの使用例

メタデータは、データの整理、アクセシビリティ、ガバナンスを強化するために、さまざまな業種・業務で広く活用されています。メタデータの実際の用途には以下が含まれます。

データベース管理：メタデータは、データ・ポイントやデータ・セットのフィルター、タグ付け、ソート、連携をユーザーに提供することで、データベースの管理と整理を支援します。データベース間の共有メタデータ層では、異なるシステム間でのデータセットのクエリなど、より高度なタスクもサポートできます。

データガバナンスとコンプライアンス：管理用メタデータは、誰がデータにアクセス、変更、削除できるかを追跡します。このメタデータは機密データの監査証跡を作成するもので、GDPRやHIPAA（Health Insurance Portability and Accountability Act：医療保険の相互運用性と説明責任に関する法律）などの規制コンプライアンスに役立ちます。

検索エンジン最適化（SEO）：検索エンジンは、HTMLヘッダーに埋め込まれたメタデータ（タイトルタグやメタディスクリプションなど）を利用してウェブページをランク付けします。正確なメタデータは、ウェブコンテンツの適切なインデックス化と関連性の高い検索結果の表示に役立ち、可視性を高めます。

サイバーセキュリティ：デジタルフォレンジックとインシデント対応において、メタデータはファイルの起源、変更、アクセスの追跡に役立ちます。調査担当者はメタデータを使用して、サイバー攻撃のタイムラインを再構築し、データ資産をデジタルな証拠として分析することができます。

ソーシャルメディア：FacebookやXなどのプラットフォームは、メタデータを使って投稿を整理し、コンテンツのおすすめを表示します。ハッシュタグや位置情報などのメタデータは、ユーザーが関連情報を見つけて共有するのに役立ちます。

消費者についての洞察：小売業者はメタデータを利用して、顧客とのやり取りを追跡し、パーソナライズされた商品のおすすめを生成して、広告のターゲットを絞ることができます。例えばデジタル小売業者であれば、ユーザーが一貫して美容製品のページにアクセスしていることを把握して、より多くの、または類似の美容製品をユーザーに推奨することができます。

権利管理：管理用メタデータには、使用権とライセンス契約に関する情報が含まれます。組織はこの情報を使用して著作権法のコンプライアンスを追跡し、知的財産をより広範に管理することができます。たとえば画像の管理用メタデータには、その画像を他の個人や組織が商用利用できるかどうかという情報が含まれるでしょう。