データ共有とは、組織のデータリソースを複数のアプリケーション、ユーザー、その他の組織が利用できるようにするプロセスです。効果的なデータ共有のためには、データの完全性を損なうことなく複数の関係者の安全なアクセスを促進するテクノロジー、慣行、法的フレームワーク、組織的な取り組みを組み合せることになります。
ビッグデータ分析 を採用している組織は、データをポートフォリオ内の貴重な戦略的資産として認識しています。こうしたデータは、ソフトウェア・アプリケーションのメトリクス、顧客行動データ、機器やセンサーによるモノのインターネット(IoT)のシグナルなど、さまざまなソースから取得されます。
データは図書館の本のようなものと言えます。データ共有は、組織内の全員に対して、必要なときに本にアクセスして借りることができる図書カードを配るのに似ています。データ共有がない場合は各部門で独自のライブラリを作成・維持する必要があり、これによって情報が重複したり、古くなったり、リソースの幅を狭めることがあります。
データを共有する組織は、パートナーとより効果的に協力し、新しいビジネス・チャンスを確立し、新しいパートナーシップを形成し、データ製品やその他の収益化を通じて収益源を生み出すことができます。しかし、データ共有では、共有するデータのライフサイクル全体を通じてその整合性と信頼性を維持し、信頼でき、一貫性があり、正確な分析に役立つデータを確保する努力が必要です。効果的なデータ共有により、利害関係者は組織内外からの膨大なデータを分析することで貴重な視点を得て、新しいサービスやテクノロジーを開発し、今後のトレンドに備えることができます。
インターネットが発明されるよりも前から組織はデータを共有してきましたが、デジタル・リテラシー、テクノロジー、クラウド導入の進歩により、今では世界規模でのリアルタイムのデータ共有が可能になりました。データ・ストレージと転送テクノロジーは、かつてないほど手頃な価格で利用可能になりました。その結果として、データ共有に関連するリスクを軽減するためのポリシーや規制も進化してきました。データ共有は、分析や収益化へのアクセスを可能にするだけでなく、事業単位と外部パートナーとの間の障壁をも取り除きます。それぞれが同じ最新のデータ・ソースを利用しながら、さまざまなチームが独立して作業することも、相互に協力することもできるのです。利用可能なデータの量と種類が増えたことで、組織内の多様なチームがより広範な組織目標に貢献できるようになりました。
研究データ、運用データ、顧客フィードバックなど、さまざまなソースからの情報を組み合わせることで、サービスのパフォーマンスと価値が向上します。たとえば、事業単位でデータにアクセスできれば、データ分析を使用して、市場動向や顧客の好みに基づいて決定を下し、成功するマーケティング戦略を策定できます。
さらにデータ共有により、公的機関や組織は安全で合法的かつ管理された方法でデータを共有できるようになります。データ共有の衛生管理には、データ作成者が正確なメタデータでデータセットを注意深く文書化し、ラベル付けして、再現性を確保することが含まれます。明確な定義と合わせた詳細な説明を添えることで、他のユーザーが共有データを簡単に見つけ、検索し、その内容を理解することができます。
Future of Privacy Forum1(未来のプライバシーフォーラム、FPF)は、企業と学術研究者の間のデータ共有パートナーシップを分析し、こうしたパートナーシップが社会的に有益な研究を加速し、貴重なデータセットへのアクセスを拡大し、研究結果の再現性を向上させることができると判断しました。データ共有の普及に伴い、利害関係者はデータ共有契約(DSA)やプライバシー強化テクノロジー(PET)を使用して、リスクやデータ侵害に対処するための事前対応型の措置を講じています。
IBMは、大学、非営利団体、研究機関と共有する前に、PETを使用してデータを匿名化するなど、データ共有の慣例に、厳格なプライバシーとセキュリティー・プロトコルを採用している好例です。IBMのアプローチは、機密データを保護しながら科学的発見を支援し、より安全で効果的なパートナーシップを促進します。例えば、IBMはオーストラリアのメルボルン・ウォーター社と協力して、エネルギー排出量の削減を目的としたデータを分析しました。新型コロナウイルスのパンデミックの間、IBMはSARS-CoV-2のゲノム配列を処理し、300万を超える配列を研究リポジトリに提供しました。
データ共有の価値を示すもう一つの説得力のあるユースケースは、米国の非営利団体Benefits Data Trustによるものです2。Benefits Data Trust(BDT)は、米国の医療と教育に関連する州や組織間でのデータ共有を促進しています。BDTは、データ共有契約を通じて、補足栄養補助プログラム(SNAP)やメディケイドなどの重要な公共プログラムへの登録を増やしています。
サウスカロライナ州社会サービス局はBDTとともに、月次メディケイド用リストとSNAP用リストを比較し、プログラムに登録されていない対象者を特定しました。この取り組みにより、2015年以降、SNAP登録者は20,000人以上増加し、健康リスクの高い人々への栄養支援が改善されました。ペンシルベニア州でも同様の取り組みが成功しており、データ共有により、2005年以降、約24万人がさまざまな公的支援プログラムに登録できるようになりました。
データ共有は企業に多くのメリットをもたらす一方で、リスクももたらします。機密情報が不適切に分散されると、組織は規制面、競争面、財務面、セキュリティー面でのリスクにさらされる可能性があります。データの利用者は、データの品質と可用性を十分に管理できなくなります。また、低品質のデータには、ジェンダー、人種、宗教、民族グループに対するバイアスが隠れている可能性もあります。
データ・ガバナンスのプロセスは、組織全体でデータを安全、正確、一貫して管理するためのポリシー、標準、ベスト・プラクティスを確立するものです。効果的なガバナンスではデータへのアクセスを制限し、承認されたユーザーのみにデータ利用権限を与えるようにします。ガバナンスはまた、データを保護、分類し、確実に法規制に準拠して利用する上で役立ちます。
すべての組織には、管理する顧客データのプライバシーを保護する法的および倫理的義務があります。暗号化やデータ編集などのテクノロジーにより、プライバシーを保護しながら安全なデータ共有が可能になります。しかし、データ作成者とデータ利用者の間のコミュニケーションが不足していると、誤解を生み、レポート作成やデータドリブンな意思決定のための前提が正しくないという事態につながります。
例えば、2012年、Knight Capital Group3ではチーム間のコミュニケーションと連携の不足による取引の不具合から、わずか45分で4億4,000万米ドルの損失を出してしまいました。ソフトウェアの更新により、テスト済みで文書化されていない休眠中の組み込みソフトウェアが誤って起動してしまったのです。開発者がトレーダー側システムの変更によってどのような影響が出る可能性があるのかを効果的に伝えなかったため、誤った取引が高速で実行され、結果的に重大な損失が発生しました。
従来、特にリソースを大量に消費する抽出、変換、ロード(ETL)プロセスによるデータ移動は、広範なデータ共有の妨げとなっていました。データ品質とガバナンスのベスト・プラクティスを維持することは、特に大量のデータを扱う際には難しくなる場合があります。ネットワーク上で大規模なデータセットを安全に共有するには時間がかかり、高度な技術的知識を要し、またストレージとインフラストラクチャーへの多額の投資が必要です。
データ・セキュリティーの確保には、機密データを保護するための厳格な仕組みと啓発が必要です。データ共有プロセス中にネットワークやプラットフォーム間を移動する情報は、不正アクセス、データ侵害、サイバー攻撃などの脅威に対して脆弱です。さらに、組織は外部パートナー、利害関係者、サードパーティー・ベンダーとデータを共有する際、複雑なデータ・プライバシー法および規制に対処する必要があります。
データ共有のベスト・プラクティスを取り入れることで、組織はリスクを最小限に抑えながらメリットを最大化できます。
データ・マーケットプレイスを使用すると、組織はデータとデータ製品を安全に共有し、収益化できます。データ・マーケットプレイスにはいくつかの種類があります。
公開データ・マーケットプレイスは、参加者がデータや関連サービスを売買するための安全な環境を提供しており、データ・プロバイダーの高品質と一貫性を保証します。企業はデータ・マーケットプレイスを利用してサードパーティー・データを取得し、既存のデータ・セットを強化したり、新しいデータ製品やサービスを提供して収益化したりすることができます。
データ共有の種類によって、情報の安全な交換を促進する上での役割は異なります。
企業組織で最も広く使用されているデータ共有テクノロジーは、データウェアハウスとデータレイクハウスです。こうした最新のデータ・アーキテクチャー・システムは、複数の事業単位からのビッグデータの収集、保管、共有のための中央リポジトリーを提供します。これらのアーキテクチャーには通常、フロントエンド・クライアント、分析エンジン、データベース・サーバーの層が含まれます。
アプリケーション・プログラミング・インターフェース(API)を使用すると、ソフトウェア・コンポーネントは共通の定義とプロトコルで通信ができます。データ共有APIは、データ・コンシューマーが要求できるものとできないものを指定する、きめ細かいアクセス制御と権限をサポートしています。
データ共有をサポートする他のテクノロジーには、フェデレーテッド・ラーニング、ブロックチェーン・テクノロジー、データ交換プラットフォームがあります。フェデレーテッド・ラーニングにより、データを移動することなく、さまざまなソースに由来する分散したデータ・セットでAIシステムをトレーニングできるようになります。ブロックチェーンは、オープンなデータ交換などのトランザクションを追跡する、透明性の高い変更不可能な台帳を提供し、データ共有プロセスに完全性とセキュリティー層を提供します。
Secure File Transfer Protocol(SFTP)やEメールなどのレガシー・テクノロジーでは、ベンダーに依存しない自社開発のソリューションが可能ですが、セキュリティーの確保と管理はますます困難になっています。最新のソリューションでは一般的な保存時の暗号化、きめ細かなデータ・アクセス制御、自動監査などの高度なセキュリティー機能が欠けています。
最新のデータ・ソリューションは安全なデータ共有に重点を置いており、クラウド・データ・ストレージはスケーラビリティと信頼性を提供しますが、アクセシビリティとセキュリティには制限があります。ベンダー固有のデータ共有ソリューションにはセキュリティと拡張性が備わっていますが、多くの場合ベンダー・ロックインが伴い、柔軟性が制限され、長期的なコストが増加します。
プライバシー強化テクノロジー、データ・クリーン・ルームなどのテクノロジーにより、オートメーションを通じてデータ運用が強化されています。こうした傾向からは、データの処理と分析がますますプライバシー、分散化、AI主導のアプローチへと移っていることがうかがえます。
データ共有における今後の傾向としては、プライバシーの重要性が高まると見られます。安全なマルチパーティー・コンピューティングやデータ・マスキングなどのプライバシーを強化するテクノロジーが、シームレスなデータ共有と安全なデータ保護のバランスを取るために不可欠になりつつあります。PETを導入することで、これらのツールを業務に組み込めば、企業は競争上の優位性を得ることができます。
データ・クリーン・ルームは、複数の関係者が未加工データを共有することなくデータについて共同作業できる、安全でプライバシーに重点を置いた環境です。これにより、企業は機密データを保護しながら分析を実行し、洞察を得ることができるため、プライバシー規制へのコンプライアンスを維持できます。クリーン・ルームは、個人情報の漏洩を防ぎ、集約され匿名化されたデータの共有を可能にすることで、パートナー間の信頼を維持するのに役立ちます。
データ・メッシュを使用すると、組織はデータを製品として扱うことができ、セルフサービス形式でデータを検出して利用できるようになります。このアプローチにより、事業単位でデータ製品を個別に作成・管理できるようになります。また、さまざまなプラットフォームやテクノロジーにわたるデータの一元的な表示を容易にし、個別のデータ・プラットフォームがなくとも接続性と洞察を改善させることができます。
大規模言語モデル(LLM)は、データプロファイリング、モデリング、統合などのタスクを自動化することで、データエンジニアリングと運用を効率化し、データ品質の向上につながります。既存のデータインフラストラクチャ内にジェネレーティブAIを導入することで、組織は日常的なタスクをより効率的に処理できるようになり、より複雑な分析や意思決定にリソースを解放することができます。
ライフサイクル全体にわたってデータを成果物として管理します。データ・プロダクトのバージョン管理、保守、更新のための堅牢なシステムにより、データ・プロダクトの導入から廃止までのライフサイクルを管理します。
未加工データを実行可能な洞察にすばやく変換し、データ・ガバナンス、品質、リネージ、共有を統合し、信頼性が高くコンテキスト化されたデータでデータ・コンシューマーを支援します。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築できます。
1 「Data sharing for research」The Future of Privacy Forum、2022年8月
2 「Knight Capital Group stock trading disruption」Wikipedia、2012年8月