敵対的機械学習とは

執筆者

David Zax

Staff Writer

IBM Think

敵対的機械学習の定義

敵対的機械学習は、AIシステムをだます技術です。この用語は、この技術を悪意をもって追求する脅威アクターだけでなく、脆弱性を明らかにし、最終的にモデルの堅牢性を高めることを目指す善意の研究者も指します。

この分野は、機械学習モデルの複雑さと、(しばしば物理世界を含む)幅広い攻撃対象領域の存在により、サイバーセキュリティーに新たな課題をもたらします。

現実世界の例

敵対的機械学習攻撃が従来のサイバーセキュリティーの脅威とどれほど異なるかを示すために、自動運転車の領域から例を見てみましょう。自動運転車は、センサー入力を取り込み、その後、車両の挙動を決める分類を行う複雑なAIシステムによって制御されています。例えば、自動運転車が停止標識に近づくと、機械学習アルゴリズムがそれを識別し、安全に車両を停止させます。

問題は、停止標識を分類するよう学習した機械学習システムが、人間の思考とは異なる基準を用いることです。その結果、複数の大学の研究者が2017年に示したように、奇妙な脆弱性が生まれます。1 研究者は、停止標識にごくわずかな、しかし戦略的な改変を加えました。多くの人間なら無視するような小さく無害なステッカーを数枚貼っただけです。それでも、自動運転車で使われる種類のAIモデルをだまし、停止標識を危険な形で“Speed Limit: 45 MPH”標識と誤分類させることができました。通りかかった巡回中の警察官は、その工作に気付かないかもしれません。しかしAIシステムにとっては、わずかなステッカーが停止標識を“go”標識に変えてしまったのです。

言うまでもなく、もし悪意あるハッカーが先にこの脆弱性を発見していたなら、交通事故による死亡などの現実世界の被害が容易に発生していた可能性があります。

あなたのチームは時間内に次のゼロデイを受け入れますか?

AI、サイバーセキュリティ、データ、自動化に関する厳選されたニュースをThinkニュースレターで購読しているセキュリティリーダーに加わりましょう。専門家によるチュートリアルと解説をメールで直接配信することで、手軽に学ぶことができます。IBMプライバシー・ステートメントをご覧ください。

サブスクリプションは英語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

https://www.ibm.com/jp-ja/privacy

敵対的攻撃の種類

研究者は、AIシステムに対するさまざまな種類の攻撃を分類するタクソノミーを構築しています。

回避攻撃

回避攻撃は、前述の停止標識の例のように、攻撃者がAIシステムで処理されるデータを改変し、AI分類器をだます、いわゆる「敵対的サンプル」を作り出す攻撃を指します。この攻撃がそう呼ばれるのは、改変されたデータや刺激が、AIモデルの通常の知覚をすり抜けられるためです。鮮明な自動運転車の例に加え、研究者は、データに重ねて人工知能をだますことができる、ほとんど知覚できない視覚ノイズ(いわゆる「敵対的摂動」)を作り出すことにも成功しています。よく知られた2015年の例では、Google社の研究者がパンダの画像にわずかな視覚ノイズを加えただけで、コンピューター・ビジョン・モデルが、その画像をテナガザルだと確信するようになりました。実際、そのAIは、正しく「パンダ」と分類した場合よりも、誤って「テナガザル」と分類した場合の方が高い確信度を示しました。2(モデルをだますノイズ・パターンを効率的に設計する手法については、以下の「回避攻撃の既知の手法」で説明します。)

回避攻撃の重要なサブタイプがマルウェア攻撃です。この攻撃では、攻撃者がコンピューターウイルスの検知を目的とする検知システムを回避します。攻撃者はさまざまな方法でこれを実現しますが、一般的には、マルウェアを無害なコードに見せかけるための工夫を用います。場合によっては、このプロセス自体を最適化するために、攻撃者が独自のAIを使用することもあります。ある例では、研究者が、多数の試行を通じてマルウェアを自動的に偽装し、20のマルウェア検知システムを98%の確率でだますボットを開発しました。3

データ・ポイズニング攻撃

データ・ポイズニング攻撃は、AIモデルのライフサイクルの別の、より早い段階、すなわちトレーニング・フェーズで発生します。深層ニューラル・ネットワークは、有用なパターンを学習するために大量のトレーニング・データを必要とします。データ・ポイズニング攻撃では、攻撃者が元のトレーニングデータ・セットを汚染し、学習済みモデルが不適切な挙動を示すようなデータを混入させることができます。

ある例では、多くのAIモデルが導入後に取得したデータを使用して、次のバージョンのモデルを反復的に学習させるという事実が利用されました。この原則を悪用し、Twitterの荒らしが、2016年にMicrosoft社が公開したチャットボットTayに攻撃的な内容を大量に投稿し、最終的にチャットボット自身がヘイトコンテンツを投稿するように誘導しました。

別の例として、シカゴ大学の取り組みは、アーティストの同意なく著作権画像を使用してモデルを学習させる可能性のある悪質な企業に対し、アーティストが対抗できるようにすることを目指しています。Nightshadeプロジェクトは、開発者によれば「生成AIの画像モデル内の特徴表現を歪める攻撃ツールとして設計されています」。4アーティストが自分の画像にNightshadeを適用し、後にその画像がAIモデルに使用されると、モデルは特定のオブジェクトに対して誤ったラベルを徐々に学習する可能性があります。例えば、牛を革財布として描写するようになる、といったものです。

プライバシー攻撃

プライバシー攻撃は、AIシステムの癖を悪用し、トレーニング・データ・セットに含まれていた機微な情報を間接的に推測または抽出します。理論上、MLモデルは、学習に使用したデータを「記憶」することを意図していません。データ・セット全体から有用なパターンを抽出し、ハード・ドライブのように学習データそのものを保持しないはずです。しかし、AIの「記憶」の実態はより複雑です。研究者は、ある側面ではモデルがトレーニング・データを「記憶」しているように見えることを確認しています。特に、MLシステムは、予測がトレーニング中に見たデータ・ポイントに関連する場合、予測により高い確信度を示すことが少なくありません。(ChatGPTのような利用者向けチャットボットは確信度スコアを表示しませんが、これらの値は開発者向けAPIや研究者用ツールを通じて取得できることが少なくありません。)

メンバーシップ推論(membership inference)と呼ばれるプライバシー攻撃の手法では、攻撃者が、対象が精神科施設の患者だったかどうかなど、個人に関する機微な情報を推測できる可能性があります。攻撃者が特定の個人に関するデータ(例えば医療記録の一部)を持っている場合、機微なデータ・セット(精神科施設の記録など)で学習したことが分かっているモデルに対してクエリーできます。モデルが返す確信度スコアを観察することで、攻撃者は、標的がモデルの学習に使用された集団の一員だったことを推測できます。

モデル反転(model inversion)攻撃はさらに踏み込み、モデルの学習に使用された実データそのものを実質的に逆解析できるようにします。攻撃者はブルートフォースの手法を用い、モデルが返す確信度スコアを手がかりにしながら、ランダムでノイズの多いデータを反復的に調整し、モデルの実際の学習データに似たものへと近づけていきます。例えば2015年、学術研究者は、顔認識モデルの確信度スコアを悪用して、モデルの学習に使用された実際の顔に近い画像を再構成しました。その際、純粋なノイズ画像から始め、画像を反復的に微調整し、モデル出力の確信度スコアを次の調整の指針として用いました。5

モデル抽出攻撃

モデル抽出攻撃(単に「モデル窃取」とも呼ばれます)では、攻撃者の目的は特定のモデルを実質的に「複製」することです。この攻撃の動機はさまざまです。例えば、元のモデルのクエリーごとの課金を回避したいだけの場合もあれば、複製モデルを使って、元のモデルにも有効な可能性がある標的型の攻撃を密かに洗練させたい場合もあります。

多くのモデル抽出攻撃の手法は比較的単純です。攻撃者は、慎重に選んだ入力でモデルに体系的にプロンプトを送り、その出力を記録して整理します。入力を戦略的に選べば、数千〜数万程度の入出力ペアからなるデータ・セットだけで、モデル全体、または少なくともモデルの一部の特性を再現できる場合があります。例えば2023年の「model leeching」に関する論文では、このような攻撃を用いて、LLMからタスク固有の知識を低コストで抽出できることが示されました。APIコストがわずかUSD 50で、チームは言語モデルの機能の1つである読解を87%の精度で模倣できる複製モデルを構築できました。6

ホワイトボックス攻撃とブラックボックス攻撃

別の攻撃分類では、被害の種類ではなく、標的となるモデルの種類で区別します。上記の例の多くは、いわゆるブラックボックスの攻撃で、標的となるモデルから得られるのは出力へのアクセスのみです。一方、いわゆるホワイトボックス攻撃では、攻撃者はオープンソース・モデルを標的にします。こうしたモデルは(作成者の善意により)内部の仕組みがより透明になっていることが少なくありません。モデルを構成する学習済みの重みの実際の振る舞いまで可視化できるため、攻撃者はこのホワイトボックスのアクセスを利用して、より効率的で狙いを定めた攻撃を組み立てられることがよくあります。

回避攻撃の既知の手法

上記の攻撃の種類の中で、回避攻撃はおそらく最も難易度が高く、サイバーセキュリティーにおける真の新領域を示しています。回避攻撃がサイバーセキュリティーの研究者を特に不安にさせ(同時に興味をかき立てる)のは、機械と人間が世界を認識する根本的に異なる方法を突いているためです。このため、攻撃者が回避攻撃を生成する手法を見つけ出す研究が数多く進められてきました。攻撃者に先手を取られる前に、これらの脆弱性に対処できるようにするためです。(幸いなことに、防御策も数多く見つかっています。詳しくは「敵対的機械学習への防御方法」を参照してください。)

高速勾配符号法

2015年、Googleの研究者は、あらゆるディープラーニング・システムをだます敵対的サンプルを生成するシンプルな手法を公開しました。研究者はこれを「高速勾配符号法(fast gradient sign method)」、略して「FGSM」と名付けました。2画像検知システムを例に考えてみましょう。この種のシステムは、世界をクラスタに分類していきます。例えば猫のクラスタ、犬のクラスタ、といった具合です。高速勾配符号法は、画像に素早く微調整を加え、あるクラスタから別のクラスタへ「押し出す」方法を見つける仕組みです。これにより、システムの意思決定の整合性が損なわれます。重要なのは、こうした微調整は、多くの場合、人間には知覚できない程度の視覚ノイズを少し加えるだけで済み、それでも機械をだませることです。FGSMが「勾配ベース」の攻撃と呼ばれるのは、機械学習システムで使われる最適化アルゴリズムである勾配降下法を悪用するためです。

その後、より強力な攻撃がすぐに見つかったことを踏まえると、FGSM攻撃への対策だけを施したモデルは、非常に脆弱だと考えられています。

投影勾配降下法

投影勾配降下法(PGD)は、FGSMよりも巧妙で強力な、別の勾配ベースの攻撃です。FGSMは、敵対的な方向に1回大きく踏み出して摂動(モデルの検知メカニズムを破壊する「ノイズ」)を作り出すのに対し、PGDはアルゴリズムにより小さなステップを何度も積み重ねます。この慎重で反復的なプロセスにより、より強力で、より対策されにくい摂動を見つけられます。さらに、アルゴリズムに巧妙な制約を設けることで、PGDの摂動が基準から離れすぎないようにし、人間には検知できない状態を保ちます。攻撃者にとってのトレードオフはコストです。FGSMは1回の勾配計算で高速だが弱い摂動を生成できる一方、PGDは数十回から数百回の計算が必要になります。

PGDは、勾配ベースの攻撃の中で最強と見なされていることから、敵対的な堅牢性の主要なベンチマークとしてよく使われます。7PGD攻撃に耐えられるようトレーニングされたAIアプリケーションは、実用的に堅牢だと評価できる可能性があります。

Carlini and Wagner攻撃

機械学習モデルの「勾配」を悪用することだけが、こうしたシステムを攻撃する方法ではありません。UC Berkeleyの計算機科学者Nicholas Carlini氏とDavid Wagner氏による2017年の研究論文8では、敵対的な入力データを見つける別の手法が示されました。この手法は、モデルの勾配に関する情報を一切使用しません。代わりに、Carlini and Wagner攻撃では、問題を純粋な最適化として捉え、誤分類を引き起こしつつ入力への変更量を最小化することを狙います。例えば画像に対する摂動では、モデルをだますために変更が必要なピクセル数の最小値を、このアルゴリズムで導き出せる可能性があります。生成には計算コストがかかるものの、結果として得られる摂動は、多くの場合、人間が気付けないほど微細です。

敵対的機械学習への防御方法

これらの弱点を発見してきた研究者の取り組みにより、機械学習モデルの堅牢性を高めるための対策が開発されてきました。

前述したような回避攻撃に対しては、いわゆる敵対的トレーニングの手法が開発されています。基本的には、「クリーン」なデータと並行して、攻撃者が行い得る方法で改変したデータも学習に含め、これらの敵対的サンプルでも正しくラベル付けできるようモデルに学習させます。この対策は有効ですが、2つの意味でコストがかかります。1)計算資源がより多く必要になること、2)摂動を含むデータにさらすことで、モデル全体の精度がわずかに低下する可能性があることです。2018年の論文「Robustness May Be at Odds with Accuracy」のMIT研究者は、「堅牢なモデルのトレーニングは、リソース消費が増えるだけでなく、通常の精度の低下につながる可能性もある」と述べています。9

一般に、機械学習の領域でも、適切なサイバーセキュリティーの原則は有効です。運用面の防御策としては、データやトラフィックにおける異常なパターンを検知し、攻撃者がMLシステムに介入しようとしている兆候を把握するための異常検知侵入検知ツールが挙げられます。これはMLシステムのライフサイクルのどの段階でも有効です。また、レッドチーミング、つまりサイバーセキュリティーの専門家が敵対者の攻撃を模して、制御された攻撃にモデルを意図的にさらすことも、システムのストレステストとして効果的です。

AIのように変化が速い分野では、リスク環境は常に変化しています。最新動向を把握するうえでは、米国国立標準技術研究所(NIST)などの組織が参考になります。AIリスク管理に関するNISTの2024年のレポート10では、敵対的機械学習に触れつつ、バイアス、ハルシネーション、プライバシーなどのテーマを含め、AIリスクへのより広範なアプローチも扱っています。AIガバナンス・フレームワークを採用することで、敵対者に対するモデルのセキュリティーをさらに強化できます。 

関連ソリューション
エンタープライズ・セキュリティー・ソリューション

世界有数の企業向けセキュリティー・プロバイダーが提供するソリューションで、セキュリティー・プログラムを変革します。

サイバーセキュリティー・ソリューションの詳細
サイバーセキュリティー・コンサルティング・サービス

サイバーセキュリティー・コンサルティングやクラウド、マネージド・セキュリティー・サービスでビジネスを変革し、リスクを管理しましょう。

    サイバーセキュリティー・サービスはこちら
    サイバーセキュリティーのための人工知能(AI)| IBM

    AIを活用したサイバーセキュリティー・ソリューションで、セキュリティー・チームの俊敏性、精度、生産性を向上させます。

    AIを活用したサイバーセキュリティーの詳細はこちら
    次のステップ

    データ・セキュリティー、エンドポイント管理、IDおよびアクセス管理(IAM)ソリューションのいずれが必要であっても、IBMのエキスパートはお客様と協力して、高度なセキュリティー体制を実現します。サイバーセキュリティー・コンサルティング、クラウド・セキュリティー・サービス、マネージド・セキュリティー・サービスなど、業界の世界的リーダーとして、事業の変革とリスク管理を支援します。

    サイバーセキュリティー・ソリューションの詳細 サイバーセキュリティー・サービスを発見する