大規模言語モデルに、不要なコンテンツを「忘れる」ように教える

AIディープラーニングとノートPCを使用してデータを見ている作業員のクローズアップ

大規模言語モデル(LLM)は膨大な量のデータから学習することに非常に優れていますが、その逆の新しい手法である「マシン・アンラーニング」がテクノロジー企業で話題になっています。

この比較的新しいアプローチは、LLMに、機密データ、信頼できないデータ、または著作権保護されたデータを忘れたり「学習させない」ことを教えます。モデルをゼロから再トレーニングするよりも速く、特定の不要なデータや動作を遡及的に削除できます。

IBM、Google、Microsoftなどの大手テクノロジー企業が、最盛期に向けてマシン・アンラーニングへの取り組みを続けていることは、驚くには当たりません。しかしアンラーニングへの注目が高まることで、この手法におけるいくつかの問題点も浮き彫りになっています。モデルが忘れすぎることや、アンラーニングの効果を測定するための業界全体でのツールの不足といった問題です。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

学習から学習の取り消し(アンラーニング)へ

テラバイト単位のデータでトレーニングを受けたLLMは、明示的にプログラムしなくても意思決定や予測を行う方法を「学習」します。機械学習として知られるこのAIの一分野は、機械学習アルゴリズムが人間の学習方法を模倣し、生成するコンテンツの精度を徐々に向上させることで、急速に普及が進んでいます。

しかしデータが増えるということは、問題が増えるということでもあります。あるいは、IBMシニア・リサーチ・サイエンティストのNathalie Baracaldoが述べているように、「学習したデータは、良いデータでも悪いデータでも定着する」ということです。

そのため、大規模なモデルは、より有害で憎しみに満ちた言葉を生成し、サイバーセキュリティー基準に違反する機密データを含む可能性があります。なぜでしょうか。これらのモデルは、インターネットからの非構造化データや信頼できないデータでトレーニングされています。たとえデータのフィルタリングを厳密に試みても、モデルを調整して、どのような質問に答えてはいけないのか、どのような回答を提供すべきなのかを定義し、その他のガードレールを使用してモデルのアウトプットを検査しても、望ましくない振舞い、マルウェア、有害な情報、著作権や保護された資料はにじみ出てきます。

こうしたモデルを再トレーニングして望ましくないデータを削除するには、数か月の時間と数百万ドルの費用がかかります。さらにモデルがオープンソースの場合、基盤モデルの脆弱性は他の多くのモデルやアプリケーションにも引き継がれます。

アンラーニングのアプローチは、こうした問題を軽減することを目的としています。有害で非倫理的な言葉、著作権で保護された用語、不要なテキスト・プロンプトを含むコンテンツといった、具体的なデータポイントを含むアンラーニング・ターゲットを特定することで、アンラーニング・アルゴリズムは対象コンテンツの影響を効率的に排除します。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

ハリー・ポッターのことを忘れる

Microsoft社の研究チームは、メタ社のLlama2-7bモデルに、インターネットから学習させた『ハリー・ポッター』の著作物を忘れさせることができるかどうかを調べるために、このアンラーニングのアプローチを使用しました。アンラーニングの前に、研究者が「ハリー・ポッターとは誰ですか?」といったプロンプトを入力すると、モデルは「ハリー・ポッターは、J・K・ローリングの架空の物語シリーズの主人公です」と答えました。

著作権で保護された資料の「学習を取り消す」ようにモデルを微調整すると、モデルは同じプロンプトに対して「ハリー・ポッターはイギリスの俳優、作家、監督のことです…」と応答します。

「手短に言えば、モデルがターゲットデータに関連するコンテキストに遭遇するたびに、元のコンテンツを『忘れる』のです」研究者のRonen Elden氏とMark Russinovich氏はブログ記事でそう説明しています。チームは Hugging Face でモデルを共有し、AI コミュニティがアンラーニングの探求や改良をできるようにしています。

著作権で保護された資料を削除することに加え、個人のプライバシーを保護するために機密資料を削除することも、もう一つの重要なユースケースです。テキサス大学オースティン校のRadu Marculescu氏が率いるチームは、JP Morgan Chase社のAIスペシャリストと協力して、画像から画像への生成モデルの機械アンラーニングに取り組んでいます。最近の論文では、画像セット全体の性能を低下させることなく、画像の不要な要素(「忘却セット」)を除去できることを示しました。

この技術は、ドローンによる不動産調査などのシナリオで役立つ可能性があると、Marculescu教授は述べています。「子供たちの顔がはっきりと見える場合は、そのプライバシーを保護するために、その顔を覆い隠すことができます」。

さらにGoogle社も、より広範なオープンソース開発者コミュニティーの中でアンラーニングに取り組んでいます。2023年6月、Google社は最初のマシン・アンラーニング・チャレンジを開始しました。このコンテストでは、顔画像でトレーニングされた年齢予測ツールを取り上げました。トレーニング後、関係する個人のプライバシーや権利を保護するために、トレーニング画像の特定のサブセットを忘れる必要があります。

完璧とはいかずとも、さまざまなチームから出されている初期の成果は有望なものです。例えば、Llamaモデルでマシン・アンラーニングを使用すると、IBMのBaracaldo氏のチームはLLMが実行した他のタスクの精度に影響を与えることなく、有害性スコアを15.4%から4.8%に低減することができました。また、モデルの再トレーニングには数か月を要し、費用は言うまでもありません。一方、アンラーニングにかかる時間は全体でも224秒でした。

スピードアップ

では、なぜマシン・アンラーニングは広く使われていないのでしょうか。

「アンラーニングの手法はまだ生まれたばかりで、うまくスケールしていません」とBaracaldo氏は説明します。

最初に立ちはだかる課題は「破滅的忘却 」です。つまり、モデルが研究者が望んでいた以上の内容を忘れてしまい、そのモデルが設計していた重要なタスクを実行できなくなるという状態です。

IBMチームは、トレーニング後のモデルの機能を改善するための新しいフレームワークを開発しています。「分割・アンラーン・マージ(split-unlearn-then-merge)」または「 SPUNGE 」と呼ばれる手法を用いて、モデルの全体的な能力を維持しながら、例えばバイオセキュリティやサイバーセキュリティのリスクになる有害で危険な情報や、望ましくない振舞いの学習を取り消すことができました。

開発に携わるどの研究者も、アンラーニングの取り組みの有効性を測定するための包括的で信頼性の高い評価ツールを開発することも、依然として解決すべき問題であると述べています。

マシン・アンラーニングの未来

マシン・アンラーニングはまだ発展途上にあるかもしれませんが、それが有用と考えられるアプリケーション、業界、地域は広範囲わたることから、研究者たちは力を入れています。

例えば欧州では、EUの一般データ保護規則が個人の「忘れられる権利」を保護しています。個人がデータの削除を選択した場合、マシン・アンラーニングは企業がこの法律を遵守して重要なデータを削除するのに役立ちます。セキュリティーやプライバシーにとどまらず、マシン・アンラーニングはライセンスの期限切れや、顧客が大規模な金融機関や病院のコンソーシアムを離れた場合など、データの追加や削除が必要なあらゆる状況で役立つ可能性があります。

「私の気に入っているアンラーニングの利点は、データのフィルタリングなど、他のすべての防御線を使い続けることができるという点です。それでも何か問題が発生した場合は、いつでもモデルに「パッチ」を適用したり、修正したりして、不要なものをすべて削除することができます」Baracaldoはそう述べています。

 

執筆者

Aili McConnon

Staff Writer

IBM

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約