データ・スチュワードは、データ・スチュワードシップ・プログラムの実行を担当します。具体的なデータ・スチュワードの責任には、データ品質メトリクスの定義、メタデータと参照データの管理、データ系列の追跡、機密データの分類などがあります。
人工知能(AI)、データ・カタログ、リレーショナル・データベース、データ品質プラットフォーム、データ・ガバナンス・ソフトウェアなど、さまざまなテクノロジーとツールがデータ・スチュワード・ワークフローをサポートできます。
今日の企業は、貴重な洞察を引き出すために、これまで以上に多くのデータを収集・分析しています。しかし、データの収集と分析だけでは、成功裏に成果を上げるには不十分です。データ・スチュワードシップとデータ・スチュワードは、データ駆動型文化の中で効果的なデータ使用をサポートし、導くことができます。
近年、AIの採用が進むにつれ、データ・スチュワードシップはさらに重要性を増しています。AIシステムは、大量のデータを消費し、生成します。データ・スチュワードシップは、データの品質と整合性を確保し、AIを活用したビジネス・プロセスが効果的で、官公庁・自治体の規制を遵守し、ガバナンスとAIの倫理基準に準拠した状態を確保する際に有用です。
優れたデータ・スチュワードシップ・プログラムは、データ品質、アクセシビリティ、ユーザビリティ、セキュリティを向上させることで、データ・キュレーションの成功を可能にします。データ・スチュワードは、従業員が有用で正確なビジネス・データにアクセスできるようにし、データ駆動型の意思決定とAI駆動型の生産性向上を実現します。データ・スチュワードシップのその他のメリットとして、より一貫したデータ解釈や監査対応の向上などが挙げられます。
データ・スチュワードは、多くの場合、データ所有者、データ・アナリスト、データ・サイエンスの専門家、一般的なビジネス・ユーザーなど、多くの利害関係者と協力して、こうしたメリットを実現します。
正式に「データ・スチュワード」として認識されていない従業員であっても、データ・スチュワードシップの責任を負い、データのインベントリー作成やデータ品質の評価など、組織のデータ・ニーズを満たすことにかなりの時間を費やしているかもしれません。しかし、一部のデータ管理の専門家は、データ・スチュワードシップの役割を正式に設置することは、企業がデータ品質管理に真剣に取り組んでいることを示すために重要であると述べています。1
データ・ガバナンスとデータ・スチュワードシップは別個のものではありますが、関連する概念です。企業のデータ・ガバナンス・プログラムは、データの収集、所有権、保存、処理、使用に関するポリシー、標準、手順を通じて、データの整合性とデータ・セキュリティーを確保するのに役立ちます。データ・スチュワードシップの責任の多くには、データ・ガバナンス・フレームワークに概説されているルールの実装が含まれます。そのため、データ・スチュワードシップは、データ・ガバナンスの「運用的側面」と考えることができます。2
より成熟したデータ・スチュワードシップ・プログラムを実施している企業では、次のようなさまざまなタイプの役割をデータ・スチュワードが担当している場合があります。
データ・スチュワードシップのユースケースには、以下のようなものがあります。
マスターデータ管理(MDM)では、多くの場合、データスチュワードシップが鍵となります。MDMとは、テクノロジー、ツール、プロセスを通じて組織の重要なデータを管理するアプローチです。組織はMDMを使用して、さまざまなソースからのデータを統合して、信頼できる唯一の情報源を作成することにより、すべてのデータ・ユーザーが同じ情報を使用できるようにします。
企業やデータ・スチュワードは、組織のデータ資産全体にこのような作業を拡大する前に、多くの場合、単一のデータ・ドメイン(顧客データや従業員データなど、類似データの論理的なグループ)でMDMイニシアチブの実装を開始します。4
データ・スチュワードは、データベースの内容を確認することでデータ品質を向上させることができます。これは、データ・プロファイリングと呼ばれます。また、データの利害関係者と協力してデータ定義を作成し、データ品質のメトリクスを設計し、どのような値が有効または無効かといったビジネス・ルールを確立します。
たとえば、書籍『Data Stewardship』で説明されているように、収集されたデータが顧客の婚姻状況に関するものである場合、ルールでは「独身」「既婚」「寡婦(寡夫)」「離婚」などは有効な値であると規定できますが、空白の回答は無効とみなされます。5データ・スチュワードは、その問題が発生した際に、データ品質の問題に対する情報を提供することもできます。
メタデータは、データの作成日や作成者の詳細など、データ・ポイントまたはデータ・セットを説明する情報です。データ・スチュワードは、高品質のメタデータを作成し、既存のメタデータの品質を評価する責任を負う場合があります。一般的なデータ品質と同様に、データ・スチュワードはメタデータの品質問題に対応する役割でもあります。
データ・スチュワードは多くの場合、参照データを管理します。このデータは、企業内の他のデータを分類します。参照データの例には、国または地域コード、通貨情報、製品コードなどがあります。データの文書化を通じて、データ・スチュワードは参照データとして有効な値を記録し、新しい有効な値が必要かどうかを評価し、異なるシステム間で参照データ値を調整することができます。
データ値の調整のケースについて、婚姻状態の例を使って説明すると、あるシステムでは婚姻状態データとして「寡夫(寡婦)」と「離婚」が認められているのに、別のシステムでは「既婚」と「独身」しか認められていない場合、データ・スチュワードはどのような行動を取るべきかを決定する責任を負う場合があります。6
データの複数のインスタンスが同じエンティティを表すことが、頻繁に起こります。たとえば、ある一人の顧客が、店舗ごとに異なる処方箋を受け取ったために、薬局チェーンのデータベースに複数回表示される場合を考えてみましょう。
データ・スチュワードは、名寄せ処理と呼ばれるプロセスを通じて、異なるデータ・インスタンスが同じエンティティを参照しているかどうかを判断します。たとえば、この薬局の顧客の場合、名寄せ処理は、顧客の処方箋を調剤する際に、潜在的な危険性がある薬物相互作用を確実に検出する際に役立ちます。7
情報セキュリティとは、不正なアクセス、開示、使用、改ざん、または妨害から重要な情報を保護することです。データ・プライバシー規制の下、企業はヘルスケア・データなどの機密情報の保護を強化することが義務付けられています。また、データ共有を規制するルールを遵守したり、データ収集を制限したりすることも求められます。データ・スチュワードは、さまざまな種類のデータのセキュリティー分類を作成・確立することで、データ保護と規制遵守における役割を果たすことができます。
データ・リネージュは、データのライフサイクルを追跡するプロセスです。これにより、データの出所、変化、最終的な行き先を明確に把握できます。データ・スチュワードは変遷を追跡できるため、組織が規制上の報告のためにデータの整合性を確認するのに役立ちます。
データ品質が低いと、ビジネス・プロセスが危険にさらされる可能性があります。データ・スチュワードは、ビジネス・プロセス・リーダーと協力して、プロセスにおけるデータの使用と、データ品質が低い場合にプロセスがどの程度障害に陥りやすいかを判断することができます。8
組織は、データ・スチュワードシップ活動をサポートするために、次のようなさまざまなソリューションやツールを導入できます。
AIとデータ・スチュワードシップは、共生関係だと考える人もいるかもしれません。データ・スチュワードシップは、AIシステムが高品質のデータを確実に処理する上で役立ちますが、AIベースのツールはデータ・スチュワードシップのタスクを最適化できます。たとえば、AIを活用したデータ準備ツールは検証チェックを行い、不適切なフォーマットなどのエラーにフラグを立てることができます。一方、AI駆動型のデータ損失防止ツールは機密情報を検出し、必要に応じてセキュリティ制御を適用できます。
データカタログは、組織内のすべてのデータ資産のインベントリーです。データ・スチュワードやその他のデータ専門家が情報を簡単かつ迅速に見つけられるように設計されています。各データ資産に関連付けられたメタデータにより、カタログの検索が可能になります。
データプロファイリングおよび分析ツールを使用すると、データの一貫性と品質を評価できます。このようなツールの機能には、異常の特定、データ・ソースの検証、カスタム・レポートによる分析結果の要約機能が含まれる場合があります。
データ・スチュワードがデータを整理する方法の一つは、リレーショナル・データベースを使用することです。リレーショナル・データベース(RDB)は、データが行と列に編成されたデータベースの一種です。結果の表を関連付けて、データ・ポイント間の関係を示す場合があります。リレーショナル・データベース管理システム(RDBMS)は、データ・スチュワードなどがRDBを保守、更新するために使用できるソフトウェア・ソリューションです。
データ・ガバナンス・ソフトウェア・プログラムには、多くの場合、データ・プロファイリングおよび分析ツールに加え、AI駆動型の機能が組み込まれています。機能には、AIを活用したメタデータの拡充、データ・カタログの作成、データ・リネージュの追跡、ロールベースのデータ・アクセス制御の確立などが含まれる場合があります。
すべてのリンク先は、ibm.comの外部です。
1, 4 Allen et al.「Multi-Domain Master Data Management」Morgan Kaufmann。2015年4月10日。
2、3、5、6、7、8 Plotkin。「Data Stewardship, Second Edition」Academic Press。2020年11月20日。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。