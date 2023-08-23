大規模言語モデルは、企業の特定のユースケースを満たすために、独自のデータで学習させることができます。例えば、ある企業ではChatGPTを利用して、自社のCRMの販売データで学習させたプライベート・モデルを作成するかもしれません。このモデルはSlackのチャットボットとしてデプロイされ、営業チームが「製品Xは過去1年間に何件の成約があったか」「製品ZのY社との取引について最新情報を教えてください」といった質問の答えを見つけるのに役立ちます。

こうしたLLMが、数多くのカスタマー・サービス、人事、マーケティングなどのユースケースに応用できることは容易に想像がつきます。LLMが法律や医学のアドバイスを補強し、医療提供者が使用する第一線の診断ツールになる可能性さえあるのです。問題は、このようなユースケースでは、機密性の高い独自データでLLMを訓練する必要があるということです。これは本質的に高いリスクをはらみます。以下にリスクの例を挙げましょう。

1. プライバシーと名寄せのリスク

AIモデルはトレーニング用データから学習するものですが、そのデータが個人情報や機密情報である場合はどうなるでしょうか。かなりの量のデータが、特定の個人を特定するために直接的または間接的に使用される可能性があります。そのため、企業の顧客に関する独自データに基づいてLLMをトレーニングすると、そのモデルが機密情報の漏洩に悪用されるおそれがあります。

2. モデル内学習データ

多くの単純なAIモデルには、トレーニング段階と、トレーニングを一時停止するデプロイメント段階が存在します。LLMの場合は少し異なります。ユーザーとの会話の文脈を受け止め、そこから学び、それに応じて対応するのです。

このため、モデルのインプットデータの管理作業は、最初のトレーニングデータに関する懸念にとどまらず、限りなく複雑になります。また、モデルがクエリされるたびに心配しなければなりません。会話中にモデルに機密情報を与えたらどうなるでしょうか。機密性を特定して、モデルがその情報を他の文脈で使用することを防止できるでしょうか。

3. セキュリティとアクセスのリスク

モデルの機密性は、ある程度はトレーニングデータの機密性によって決まります。データへのアクセスを制御し、誰がどのデータにアクセスしているかを監視し、状況に応じてデータを動的にマスクする仕組みは確立されていますが、AIのデプロイメントのセキュリティはまだ発展途上です。この分野でのソリューションは登場しつつあるものの、ユーザーの役割に合わせてアウトプット内容の機密性を完全に制御すること（たとえば、特定のアウトプットが機密に該当する可能性をモデルが認識し、LLMにクエリを出す相手に合わせてアウトプットを確実に変更するなど）はできません。ゆえにこうしたモデルは、トレーニングに関わるあらゆる種類の機密情報漏えいに簡単につながるおそれがあります。

4. 知的財産リスク

Drakeの全曲でモデルをトレーニングし、そのモデルがDrakeのを模倣した曲を生成し始めたらどうなるでしょうか。そのモデルはDrakeの著作権を侵害していることになるでしょうか。そのモデルがあなたの作品をコピーしているかどうか、証明できるでしょうか。

規制当局はまだこの問題を検討している段階ではありますが、芸術的知的財産から学習するあらゆる形態の生成AIにとっては簡単に大きな問題に発展します。将来的には大きな訴訟につながることが予想され、トレーニングで使用されるデータの知的財産を十分に監視することで被害を軽減する必要があるでしょう。

5. 同意とDSARリスク

同意は、現代のデータプライバシー規制を支える重要な概念のひとつです。顧客はデータの使用に同意し、データの削除を要求できなければなりません。これはAIの使用において独特の問題を引き起こします。

機密性の高い顧客データでAIモデルを訓練すれば、そのモデルが機密データの暴露源になる可能性があります。もし顧客が企業によるデータの使用許諾を取り消し（GDPRの要件）、その企業がすでにデータでモデルをトレーニングしていた場合、モデルは基本的に破棄され、取り消されたデータにアクセスすることなく再トレーニングしなければなりません。

LLMを企業向けソフトウェアとして活用するためには、企業がデータの安全性を信頼し、LLMがデータを利用したことを監査できるように、トレーニングデータを管理する必要があります。