生成AI時代のデータ管理の再評価

高い窓のあるオフィスで、机の周りに座ったり立ったりしている 4 人の同僚

著者

Geoff Baird

Associate Partner

Data & Technology Transformation

生成AI は、大規模言語モデル (LLM) による機密データの漏洩などの新たなデータ リスクをもたらし、規制機関や官公庁・自治体からの要件の増加を促すことで、テクノロジー業界に変化をもたらしました。この環境をうまく乗り切るためには、組織がデータ管理の核心的な原則を検討することが重要です。そして、企業内/非公開データを用いて大規模言語モデルを拡張する際に、健全なアプローチを採用していることを確認する必要があります。

特に生成AIソリューションにおけるデータ利用に関連して、組織がデータを管理する方法を刷新することから始めるのが良い出発点です。例:

  • データ保護機能の検証と作成: データ・プラットフォームは、より高いレベルの保護と監視に備える必要があります。そのためには、暗号化、匿名化、トークン化などの従来の機能に加え、機械学習を使用してデータを自動的に分類する機能(機密度、分類法との整合)も必要となります。データ検出およびカタログ作成ツールは役立ちますが、組織が独自のデータについて理解している内容に応じて分類を具体的に行えるように拡張する必要があります。これにより、組織は新しいポリシーを効果的に適用し、データの概念的理解とデータ ソリューションの実装方法の現実との間のギャップを埋めることができます。
  • コントロール、監査可能性、監視の改善: データ・アクセス、使用法、および企業データのサードパーティとの連携には、既存のソリューションを使用した新しい設計が必要です。たとえば、データの許可された使用を保証するために必要な要件の一部を取り入れます。しかし、企業には完全な監査証跡と監視システムが必要です。これは、生成AIと非生成AIソリューションの両方において、データがどのように使用され、いつ変更され、サードパーティのインタラクションを通じてデータが共有されるかどうかを追跡するためのものです。データへのアクセスを制限することでデータを制御するだけではもはや十分ではなく、分析および運用ソリューション内でデータがアクセスされ適用されるユースケースも追跡する必要があります。不適切なアクセスと使用法 (クエリ分析、データ窃盗、ネットワークの移動によって測定される) の自動アラートとレポートは、インフラストラクチャおよびデータ・ガバナンス チームによって開発され、コンプライアンスを積極的に確保するために定期的にレビューする必要があります。
  • 生成AI用のデータの準備: 従来のデータ管理のパターンやスキルから脱却し、 AIで使用する言語モデルのトレーニングと拡張のためのデータの品質、正確性、関連性を確保するための新しい規律が必要になります。ベクトル・データベースが生成AI分野で一般的になりつつあるため、従来とは異なるデータ管理プラットフォームに対応できるよう、データ・ガバナンスを強化する必要があります。これは、同じガバナンス実践をこれらの新しいアーキテクチャー・コンポーネントに確実に適用するためのものです。規制当局からモデルに「説明性」を与えることが求められる中、データ・リネージュの重要性はさらに高まっています。

企業データは複雑で多様であり、様々なリポジトリに分散しているため、汎用AIソリューションへの統合が困難です。この複雑さは、規制遵守を確保し、リスクを軽減し、データ統合と検索拡張生成(RAG)パターンにおけるスキルギャップに対処する必要があることでさらに増大します。さらに、生成AIソリューションの設計やデプロイメントにおいてデータは後回しになることが多く、非効率や不整合の原因となります。

生成AIでエンタープライズ・データの可能性を最大限に引き出す

IBMでは、こうしたデータの課題を解決するアプローチを開発しました。IBM生成AIデータ取り込みファクトリーは、AIの「データ問題」に対処し、生成AIのために企業データの可能性を最大限に引き出すために設計されたマネージド・サービスです。マネージド・サービスとしてデプロイ可能な事前定義されたアーキテクチャーと青写真により、企業データを生成AIソリューションに統合するプロセスが簡素化され、加速されます。私たちはデータ管理を念頭に置いてこの問題に取り組み、ガバナンス、リスク、コンプライアンスのためにデータを最初から準備します。

IBMが提供する主な機能は次のとおりです。

  • スケーラブルなデータ取り込み: 最適化されたチャンク化と埋め込みパターンを使用して、生成AIのユースケースとソリューション全体でデータ取り込みとRAGを拡張する再利用可能なサービス。
  • 規制とコンプライアンス: データは、現在および将来の規制に準拠した生成 AI の使用向けに準備されており、企業が生成 AI に重点を置いた市場規制のコンプライアンス要件を満たすのを支援します。
  • データ・プライバシー管理: 長文テキストは検出時に匿名化できるため、リスクが軽減され、データ・プライバシーが確保されます。

このサービスは、どこにでもデプロイメントできる非依存型であり、クライアント環境やユースケースに合わせたカスタマイズが可能です。IBM生成AIデータ取り込みファクトリーを使用することで、企業は次のようないくつかの重要な成果を達成できます。

  • データ統合に費やす時間の削減: AIがもたらす「データ問題」の解決に必要な時間と労力を削減するマネージド・サービス。たとえば、データの「チャンク化」と「埋め込み」に反復可能なプロセスを使用することで、新しい生成AIのユースケースごとに開発作業を行う必要がなくなります。
  • 準拠したデータ使用: 企業が生成AIアプリケーションをデプロイするデータ使用規制への準拠を支援します。例えば、RAG パターンでソース化されたデータが、生成AI ソリューションでの企業による使用が承認されていることを確認します。
  • リスクの軽減: 生成AIソリューションで使用されるデータに関連するリスクを軽減します。たとえば、モデルからのアウトプットを生成するためにどのようなデータがソースとなったかについて透明な成果を提供することで、モデルのリスクが軽減され、情報のソースを規制当局に証明するのにかかる時間が短縮されます。
  • 一貫性のある再現可能な成果:LLMと生成AIソリューションから、一貫性のある再現可能な成果を提供します。たとえば、系統をキャプチャし、時間の経過に伴うアウトプット (生成されたデータ) を比較して、 ROUGE や BLEU などのメトリクスを通じて一貫性をレポートします。

複雑なデータ・リスクに対処するには、部門横断的な専門知識が必要です。IBM Consulting®のチームは、元規制当局者、業界リーダー、技術専門家で構成されており、コンサルティングサービスとソリューションを通じてこの課題に取り組む独自の立場にあります。

 
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら watsonx.dataについてはこちら