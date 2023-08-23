人工知能ベースの 大規模言語モデル の最近の成功により、市場はAIが多くの企業プロセスを変革する可能性についてより野心的に考えるようになりました。しかし、消費者と規制当局は、データとAIモデル自体の安全性についても懸念を強めています。安全かつ広範なAIの導入にあたっては、消費者、企業、規制当局の信頼を確保するために、データのライフサイクル全体にわたってAIガバナンスを採用する必要があります。とはいえ、AIガバナンスとはどのようなものでしょうか。
ほとんどの場合、人工知能モデルは比較的シンプルなもので、データを取り込み、そのデータからパターンを学習してアウトプットを生成します。ChatGPTやGoogle Bardのような複雑な大規模言語モデル（LLM）も同様です。このため、AIモデルのデプロイメントの管理と統制を検討する際は、まずAIモデルをトレーニングするデータの管理に焦点を当てる必要があります。このデータ・ガバナンスでは、使用するすべてのデータの出所、機密性、ライフサイクルを理解する必要があります。これはAIガバナンス実践の基盤であり、企業のいくつものリスクを軽減する上で極めて重要です。
大規模言語モデルは、企業の特定のユースケースを満たすために、独自のデータで学習させることができます。例えば、ある企業ではChatGPTを利用して、自社のCRMの販売データで学習させたプライベート・モデルを作成するかもしれません。このモデルはSlackのチャットボットとしてデプロイされ、営業チームが「製品Xは過去1年間に何件の成約があったか」「製品ZのY社との取引について最新情報を教えてください」といった質問の答えを見つけるのに役立ちます。
こうしたLLMが、数多くのカスタマー・サービス、人事、マーケティングなどのユースケースに応用できることは容易に想像がつきます。LLMが法律や医学のアドバイスを補強し、医療提供者が使用する第一線の診断ツールになる可能性さえあるのです。問題は、このようなユースケースでは、機密性の高い独自データでLLMを訓練する必要があるということです。これは本質的に高いリスクをはらみます。以下にリスクの例を挙げましょう。
AIモデルはトレーニング用データから学習するものですが、そのデータが個人情報や機密情報である場合はどうなるでしょうか。かなりの量のデータが、特定の個人を特定するために直接的または間接的に使用される可能性があります。そのため、企業の顧客に関する独自データに基づいてLLMをトレーニングすると、そのモデルが機密情報の漏洩に悪用されるおそれがあります。
多くの単純なAIモデルには、トレーニング段階と、トレーニングを一時停止するデプロイメント段階が存在します。LLMの場合は少し異なります。ユーザーとの会話の文脈を受け止め、そこから学び、それに応じて対応するのです。
このため、モデルのインプットデータの管理作業は、最初のトレーニングデータに関する懸念にとどまらず、限りなく複雑になります。また、モデルがクエリされるたびに心配しなければなりません。会話中にモデルに機密情報を与えたらどうなるでしょうか。機密性を特定して、モデルがその情報を他の文脈で使用することを防止できるでしょうか。
モデルの機密性は、ある程度はトレーニングデータの機密性によって決まります。データへのアクセスを制御し、誰がどのデータにアクセスしているかを監視し、状況に応じてデータを動的にマスクする仕組みは確立されていますが、AIのデプロイメントのセキュリティはまだ発展途上です。この分野でのソリューションは登場しつつあるものの、ユーザーの役割に合わせてアウトプット内容の機密性を完全に制御すること（たとえば、特定のアウトプットが機密に該当する可能性をモデルが認識し、LLMにクエリを出す相手に合わせてアウトプットを確実に変更するなど）はできません。ゆえにこうしたモデルは、トレーニングに関わるあらゆる種類の機密情報漏えいに簡単につながるおそれがあります。
Drakeの全曲でモデルをトレーニングし、そのモデルがDrakeのを模倣した曲を生成し始めたらどうなるでしょうか。そのモデルはDrakeの著作権を侵害していることになるでしょうか。そのモデルがあなたの作品をコピーしているかどうか、証明できるでしょうか。
規制当局はまだこの問題を検討している段階ではありますが、芸術的知的財産から学習するあらゆる形態の生成AIにとっては簡単に大きな問題に発展します。将来的には大きな訴訟につながることが予想され、トレーニングで使用されるデータの知的財産を十分に監視することで被害を軽減する必要があるでしょう。
同意は、現代のデータプライバシー規制を支える重要な概念のひとつです。顧客はデータの使用に同意し、データの削除を要求できなければなりません。これはAIの使用において独特の問題を引き起こします。
機密性の高い顧客データでAIモデルを訓練すれば、そのモデルが機密データの暴露源になる可能性があります。もし顧客が企業によるデータの使用許諾を取り消し（GDPRの要件）、その企業がすでにデータでモデルをトレーニングしていた場合、モデルは基本的に破棄され、取り消されたデータにアクセスすることなく再トレーニングしなければなりません。
LLMを企業向けソフトウェアとして活用するためには、企業がデータの安全性を信頼し、LLMがデータを利用したことを監査できるように、トレーニングデータを管理する必要があります。
私がこれまでに見た中で最も正確なLLMアーキテクチャーの内訳は、a16zのこの記事に記載されているものです。実によく書かれているものの、データガバナンスとプライバシーに時間を費やしている身としては、左上の「コンテキストデータ→データパイプライン」の部分に足りないものがあると感じます。それがデータガバナンスです。
IBMのデータ・ガバナンス・ソリューションを追加すると、左上は以下のようになるでしょう。
IBM Knowledge Catalogを活用したデータ・ガバナンス・ソリューションは、高度なデータ検出、自動化されたデータ品質、およびデータ保護を促進するいくつもの機能を提供します。実現できるのは…
上記の最後のステップは見落とされがちです。つまり、プライバシー強化テクノロジーの実装です。AIに食べさせる前に、どうやってデリケートなものを取り除けばよいでしょうか。3つのステップに分けることができます。
IBM watsonxでは、IBMは生成AIの力を「AI構築者」の手に委ねるために急速な進歩を遂げました。IBM watsonx.ai は、従来の機械学習（ML）と、基盤モデルに基づく新しい生成AI 機能を融合させたエンタープライズ対応のスタジオです。watsonxには、オープンなレイクハウス・アーキテクチャー上に構築された目的別データ・ストア、watsonx.dataも同梱されています。これはハイブリッド・クラウド全体でデータのアクセスと共有を可能にするクエリ、ガバナンス、オープンデータ形式によって支えられています。
AI導入の成功に不可欠なのが、強力なデータ基盤です。IBMのデータ・ファブリックを使用すれば、データ統合機能やデータ・ガバナンス機能を利用してAIに適したデータ基盤を構築し、AI開発者がwatsonx.aiとwatsonx.dataを使用して容易にデータにアクセスできるようする前に、データを取得、準備、整理できます。
IBMは、サード・パーティーのクラウド上にデプロイできる、オープンで拡張可能なAI製品ポートフォリオの一部として、構成可能なデータ・ファブリック・ソリューションを提供しています。このソリューションには、データ・ガバナンス、データ統合、データ・オブザーバビリティー、データ・リネージュ、データ品質、エンティティ解決、データ・プライバシー管理機能が含まれます。
AIモデル、特にLLMは、今後10年間で最も大きな変革をもたらすテクノロジーのひとつとなるでしょう。新しいAI規制がAIの使用に関するガイドラインを課す中、AIモデルを管理・統制するだけでなく、AIに投入されるデータを統制することも非常に重要です。
IBMは、2024年Gartner® Magic Quadrant™のデータ統合ツール部門で、19年連続でリーダーに選出されました。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化やAIと分析の拡張、場所を問わないあらゆるデータへのアクセスなど、データレイクハウス戦略をデータ・アーキテクチャーに統合するメリットをご覧ください。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
