データ・カタログとは

執筆者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

データ・カタログとは

データ・カタログは、組織内のデータ資産の詳細なインベントリーです。ユーザーがデータを簡単に発見、理解、管理、キュレート、アクセスするのに役立ちます。

データ・カタログは、メタデータとデータ管理ツールを使用してデータ資産を整理し、データ・アナリスト、データサイエンティスト、データ・スチュワードなどのユーザーが分析やビジネスのユースケースに適したデータをすばやく見つけられるようにします。多くのデータ・カタログは自然言語検索をサポートしており、ユーザーはコードやSQL照会を記述せずにデータを検出できます。

データ・カタログには通常、次のような幅広いデータ資産が含まれています。

構造化データ（データベース、データ・ファイル）
非構造化データ（文書、Eメール、画像、動画）
レポートと照会の結果
データの可視化（チャート、グラフ、インフォグラフィック、ダッシュボード）
機械学習（ML）モデル
データベース間の接続（データ関係とリネージュ）

強力なデータ・カタログには、各データ資産のメタデータの収集とキュレーションのためのメタデータ管理機能も含まれています。これらの主要な機能により、データの効果的な識別、評価、使用が容易になります。カタログは、データ品質、データ整合性、データ・セキュリティーを保護するために役立つデータ・ガバナンス・ツールも必ず備えています。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

メタデータとは

メタデータとは「データに関するデータ」です。これはデータ自体の内容とは別の、データに関する情報（作成者、作成日、ファイル・サイズなど）です。メタデータにより、データの検索、整理、使用が容易になります。

メタデータの典型的な例としては、図書館のカード・カタログやオンライン・カタログが挙げられます。それらの各カードまたはリストには、タイトル、著者、主題、出版日、版、図書館内の場所、概要など、本に関する情報が含まれています。

この情報により、読者は本を簡単に見つけて評価できるようになります。例えば、「新しい本でしょうか、古い本でしょうか。探している情報が書かれているでしょうか。著者の信頼性はどうでしょうか。その作品を読んだことがあるでしょうか」といった質問に簡単に答えることができます。同じように、メタデータによって、データのユーザーは組織のデータを簡単に見つけて評価できるようになります。

メタデータの種類によって役割は異なります。データ・カタログでは通常、次のような複数のクラスのメタデータを扱います。

テクニカル・メタデータ

技術メタデータは、ファイルの種類、エンコード情報、スキーマ、ストレージの場所など、データの技術的な詳細を説明します。これによりユーザーは、分析のためにトランスフォーメーションが必要な場合などに、データの操作方法を知ることができます。

運用メタデータ

運用メタデータは、データ資産の作成と使用の状況を説明します。例えば、いつ、どのように、誰によってアクセス、使用、更新、変更が行われたかについての情報が含まれます。

管理用メタデータ

管理メタデータは、データの使用ポリシーと保持ポリシーを定義します。このタイプのメタデータはデータ・ガバナンスで使用され、組織が法律、規制、社内ポリシーを遵守するのに役立ちます。

ビジネス・メタデータ

ビジネス・メタデータは、データ資産のビジネス・コンテキストと組織との関連性を記述します。このメタデータは、データ専門家にとっても基幹業務ユーザーにとっても理解しやすいものです。

通常、データ・カタログにはメタデータ管理ツールがあり、タグ、関連付け、評価、注釈によってメタデータをキュレートしたり強化したりできます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

データ・カタログが重要な理由

今日の組織は、ますます複雑化するデータ環境を構築しています。資産は、さまざまなクラウド環境やオンプレミス・システム、サイロ化されたチーム、地域、プラットフォームから生み出される可能性があります。データ・カタログを使用すると、どのユーザーでも、技術的な能力や労力をほとんど必要とせずに、すべてのデータを簡単に検索、評価、使用できるようになります。

このような例えで考えてみましょう。Digital Libraryシステムでは、読者が特定の本を探すために、本棚の間を歩き回る時間や労力が不要になります。データ・カタログも同様の目的を果たしており、ユーザーは膨大な整理されていないデータセットをナビゲートしなくても、必要なデータをすばやく見つけることができます。データ・アクセスが向上すると、Digital Libraryカタログによって読者が最初のページにすばやくアクセスできるようになり、組織全体の洞察生成イニシアチブの効率が大幅に向上します。

データ・カタログは、データ・ガバナンス、リスク軽減、規制遵守、特に違反の回避においても重要な役割を果たします。この分野の機能は、機密データの自動データ分類から、データ異常が検出された際の通知まで多岐にわたります。

データ・カタログを通じて、データ専門家はITチームやデータ・エンジニアに頼ったり、コンプライアンスやガバナンスの問題でリスクを負ったりすることなく、独立的にデータにアクセスできます。これらの要素によって、組織全体にメリットとなるアジャイルで自立したデータ環境を構築できます。

データ・カタログとData Dictionaryの比較

データ・カタログとData Dictionaryはそれぞれ目的が異なりますが、連携させることでデータはより使いやすくなります。

データ・カタログでは、組織内のすべてのデータ資産を幅広く概観できます。ユーザーがデータセットを検出して評価するのに役立つビジネス・コンテキストを示します。

対照的に、Data Dictionaryでは、個々のデータセットの構造と内容を定義できます。これには、フィールド名、データ型、許可値、範囲、形式などの詳細が含まれます。また、データ・フィールドをさまざまなデータ・プロジェクト、ファイル、プログラム間で標準化できます。

データ・カタログのメリット

データ・カタログには、組織全体のデータ検出、ガバナンス、使用をサポートする、次のようなさまざまなメリットがあります。

データ分析の迅速化
運用効率
データ駆動型意思決定の強化
規制リスクの軽減
データ・サイロの改善

データ分析の迅速化

データ・カタログを使用するとセルフサービス分析が可能になるため、データ・アナリストはデータを簡単に検索、アクセス、準備、信頼できるようになり、データ分析プロセス全体が加速します。

運用効率

データ・カタログは、ユーザーとIT部門の間で作業の最適な分割を行うことで、ボトルネックを軽減します。データ・シチズンは独自にデータにアクセスして分析できるため、ITチームは戦略的で優先度の高いタスクに集中できます。

データ駆動型意思決定の強化

一元化され、コンテキストに沿った、信頼できるデータにすぐにアクセスできることで、データ・プロフェッショナルは対応の速度を向上させ、より適正な情報に基づいた意思決定を行えるようになり、Business Intelligence（BI）とビッグデータのメトリクスを満たすことができます。

規制リスクの軽減

データ・カタログは、ガバナンスを促進、簡素化、自動化し、それによってアナリストは、業界規制とデータ・プライバシー規制に準拠し、使用を許可されているデータで作業していることを確信できます。

データ・サイロの改善

データ・カタログは、組織のデータ・ソース（データウェアハウス、データレイク、データレイクハウスなど）全体にある、大量のサイロ化されたデータを統合できます。これらのサイロを解消することで、利害関係者間のより広範なデータ・アクセシビリティーとコラボレーションが促進されます。

主要なデータ・カタログのツールと主な機能

最新のデータ・カタログは、データ・コンシューマーが責任を持ってエンタープライズ・データを検索、理解、使用するのに役立つ幅広いツールと機能を提供します。主要な機能は次のとおりです。

データ検出：データ・カタログは、すべてのデータ・ユーザーが関連データを迅速かつ簡単に見つけられるものであるべきです。検索エクスペリエンスは、NetflixやAmazonなどの消費者向けプラットフォームの直感的で使いやすい使用感を反映している必要があります。
メタデータ管理：効果的なメタデータ管理により、データ・カタログの検索性と発見性を向上させることができます。強力なデータ・カタログにより、メタデータは適切に構造化され、アクセス可能で実行可能な状態に保たれます。
データ・リネージュ：データ・カタログは、メタデータを通じてデータのライフサイクルを視覚化し、データの発生元、変更履歴、データ・パイプライン内の宛先を、透過的にエンドツーエンドで示すものであるべきです。
データ・ガバナンス：堅牢なデータ・カタログは、データ品質ルール、ビジネス用語集、ワークフローなどのガバナンス・ポリシーやツールとシームレスに統合されます。
データ・プロファイリング：最新のデータ・カタログには、データをレビューし、クレンジングと検証プロセスを通じてデータ品質を維持するのに役立つプロファイリング・ツールが含まれています。
データ・プライバシー：カタログでは、機密データのデータ・セキュリティーとプライバシーを確保するために、アクセス制御とユーザー権限を適用し、一般データ保護規則（GDPR）などの規制への準拠をサポートする必要があります。
データ統合：データ・カタログは、クローラー、コネクター、またはアプリケーション・プログラミング・インターフェース（API）を介して、データウェアハウス、BIツール、その他のプラットフォームを含む組織のデータ・エコシステムに接続する必要があります。
人工知能（AI）のサポート：データはAIモデルの成功の鍵となります。最新のエンタープライズ・データ・カタログは、最適なモデルのパフォーマンスと透明性を実現するために、データセットにタグを付け、準備するのに役立ちます。