データ・カタログは、メタデータとデータ管理ツールを使用してデータ資産を整理し、データ・アナリスト、データサイエンティスト、データ・スチュワードなどのユーザーが分析やビジネスのユースケースに適したデータをすばやく見つけられるようにします。多くのデータ・カタログは自然言語検索をサポートしており、ユーザーはコードやSQL照会を記述せずにデータを検出できます。
データ・カタログには通常、次のような幅広いデータ資産が含まれています。
強力なデータ・カタログには、各データ資産のメタデータの収集とキュレーションのためのメタデータ管理機能も含まれています。これらの主要な機能により、データの効果的な識別、評価、使用が容易になります。カタログは、データ品質、データ整合性、データ・セキュリティーを保護するために役立つデータ・ガバナンス・ツールも必ず備えています。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
メタデータとは「データに関するデータ」です。これはデータ自体の内容とは別の、データに関する情報(作成者、作成日、ファイル・サイズなど)です。メタデータにより、データの検索、整理、使用が容易になります。
メタデータの典型的な例としては、図書館のカード・カタログやオンライン・カタログが挙げられます。それらの各カードまたはリストには、タイトル、著者、主題、出版日、版、図書館内の場所、概要など、本に関する情報が含まれています。
この情報により、読者は本を簡単に見つけて評価できるようになります。例えば、「新しい本でしょうか、古い本でしょうか。探している情報が書かれているでしょうか。著者の信頼性はどうでしょうか。その作品を読んだことがあるでしょうか」といった質問に簡単に答えることができます。同じように、メタデータによって、データのユーザーは組織のデータを簡単に見つけて評価できるようになります。
メタデータの種類によって役割は異なります。データ・カタログでは通常、次のような複数のクラスのメタデータを扱います。
技術メタデータは、ファイルの種類、エンコード情報、スキーマ、ストレージの場所など、データの技術的な詳細を説明します。これによりユーザーは、分析のためにトランスフォーメーションが必要な場合などに、データの操作方法を知ることができます。
運用メタデータは、データ資産の作成と使用の状況を説明します。例えば、いつ、どのように、誰によってアクセス、使用、更新、変更が行われたかについての情報が含まれます。
管理メタデータは、データの使用ポリシーと保持ポリシーを定義します。このタイプのメタデータはデータ・ガバナンスで使用され、組織が法律、規制、社内ポリシーを遵守するのに役立ちます。
ビジネス・メタデータは、データ資産のビジネス・コンテキストと組織との関連性を記述します。このメタデータは、データ専門家にとっても基幹業務ユーザーにとっても理解しやすいものです。
通常、データ・カタログにはメタデータ管理ツールがあり、タグ、関連付け、評価、注釈によってメタデータをキュレートしたり強化したりできます。
今日の組織は、ますます複雑化するデータ環境を構築しています。資産は、さまざまなクラウド環境やオンプレミス・システム、サイロ化されたチーム、地域、プラットフォームから生み出される可能性があります。データ・カタログを使用すると、どのユーザーでも、技術的な能力や労力をほとんど必要とせずに、すべてのデータを簡単に検索、評価、使用できるようになります。
このような例えで考えてみましょう。Digital Libraryシステムでは、読者が特定の本を探すために、本棚の間を歩き回る時間や労力が不要になります。データ・カタログも同様の目的を果たしており、ユーザーは膨大な整理されていないデータセットをナビゲートしなくても、必要なデータをすばやく見つけることができます。データ・アクセスが向上すると、Digital Libraryカタログによって読者が最初のページにすばやくアクセスできるようになり、組織全体の洞察生成イニシアチブの効率が大幅に向上します。
データ・カタログは、データ・ガバナンス、リスク軽減、規制遵守、特に違反の回避においても重要な役割を果たします。この分野の機能は、機密データの自動データ分類から、データ異常が検出された際の通知まで多岐にわたります。
データ・カタログを通じて、データ専門家はITチームやデータ・エンジニアに頼ったり、コンプライアンスやガバナンスの問題でリスクを負ったりすることなく、独立的にデータにアクセスできます。これらの要素によって、組織全体にメリットとなるアジャイルで自立したデータ環境を構築できます。
データ・カタログとData Dictionaryはそれぞれ目的が異なりますが、連携させることでデータはより使いやすくなります。
データ・カタログでは、組織内のすべてのデータ資産を幅広く概観できます。ユーザーがデータセットを検出して評価するのに役立つビジネス・コンテキストを示します。
対照的に、Data Dictionaryでは、個々のデータセットの構造と内容を定義できます。これには、フィールド名、データ型、許可値、範囲、形式などの詳細が含まれます。また、データ・フィールドをさまざまなデータ・プロジェクト、ファイル、プログラム間で標準化できます。
データ・カタログには、組織全体のデータ検出、ガバナンス、使用をサポートする、次のようなさまざまなメリットがあります。
データ・カタログを使用するとセルフサービス分析が可能になるため、データ・アナリストはデータを簡単に検索、アクセス、準備、信頼できるようになり、データ分析プロセス全体が加速します。
データ・カタログは、ユーザーとIT部門の間で作業の最適な分割を行うことで、ボトルネックを軽減します。データ・シチズンは独自にデータにアクセスして分析できるため、ITチームは戦略的で優先度の高いタスクに集中できます。
一元化され、コンテキストに沿った、信頼できるデータにすぐにアクセスできることで、データ・プロフェッショナルは対応の速度を向上させ、より適正な情報に基づいた意思決定を行えるようになり、Business Intelligence(BI)とビッグデータのメトリクスを満たすことができます。
データ・カタログは、ガバナンスを促進、簡素化、自動化し、それによってアナリストは、業界規制とデータ・プライバシー規制に準拠し、使用を許可されているデータで作業していることを確信できます。
最新のデータ・カタログは、データ・コンシューマーが責任を持ってエンタープライズ・データを検索、理解、使用するのに役立つ幅広いツールと機能を提供します。主要な機能は次のとおりです。
データ・インテリジェンスを活用して、AI搭載データ・カタログでは何千ものデータ資産を対象とした技術メタデータのリアルタイムの拡充を自動化できます。
高度なデータ分類を使用して、AIデータ・カタログは機密データを識別してタグ付けし、データ・プライバシーとアクセス制御などのセキュリティー・ルールを適用できます。
インテリジェント検索を使用して、AIデータ・カタログは自然言語処理によりユーザーの照会を拡張および強化し、より関連性の高い洞察と成果を得ることができます。
インテリジェントなカタログ作成とポリシー管理により、AIと分析用のデータを有効化します。 IBM Knowledge Catalogは、データ検出、データ品質管理、データ保護を自動化するデータ・カタログを提供するデータ・ガバナンス・ソフトウェアです。
未加工データを実行可能な洞察にすばやく変換し、データ・ガバナンス、品質、リネージ、共有を統合し、信頼性が高くコンテキスト化されたデータでデータ・コンシューマーを支援します。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築できます。