情報セキュリティの最前線で生成型人工知能 (生成AI ) を活用するレッドチームは、他者が見落とす可能性のある脆弱性を特定する上で重要な役割を果たします。
データ侵害による平均コストは2024年に過去最高の488万米ドルに達しており、企業は自社の脆弱性がどこにあるのかを正確に知る必要があります。生成AIの導入ペースが目覚ましいことを考えると、これらの脆弱性の一部がAIモデル自体やAIモデルのトレーニングに使用されるデータにある可能性は十分にあります。
そこでAI固有のレッド・チーミングの出番です。これは、動的な脅威シナリオに対するAIシステムのレジリエンスをテストする方法です。これには、現実世界の攻撃シナリオをシミュレートして、AIシステムを本番環境にデプロイする前と導入後にストレス・テストを行うことが含まれます。組織がリスクを増やすことなく、生成AIがもたらすメリットを享受できるようにするためには、レッドチーム化が極めて重要になっています。
IBMのX-Force Red攻撃的セキュリティサービスは、継続的なテストを含む反復的なプロセスに従って、次の4つの主要領域にわたる脆弱性に対処します。
この記事では、AIモデルとトレーニング・データを標的とした3種類の敵対的攻撃に焦点を当てます。
ほとんどの主流の生成AIモデルには、有害なコンテンツを生み出すリスクを軽減するための安全策が組み込まれています。たとえば、通常の状況では、ChatGPTやCopilotに悪意のあるコードを書くことはできません。ただし、プロンプト・インジェクション攻撃やジェイルブレイクなどの方法により、これらの安全対策を回避できるようになります。
AIレッド・チーミングの目標の1つは、攻撃者と同じように意図的にAIを「誤動作」させることです。ジェイルブレイクは、モデルに安全フィルターを迂回させるための創造的なプロンプトを伴う手法の1つです。ただし、ジェイルブレイクは理論的にはユーザーが実際の犯罪を実行するのに役立ちますが、ほとんどの悪意のある攻撃者は他の攻撃ベクトルを使用します。なぜなら、それがはるかに効果的だからです。
プロンプト・インジェクション攻撃ははるかに深刻です。彼らはモデル自体をターゲットにするのではなく、プロンプト内の悪意のある指示を難読化して、それ以外は無害に見えるようにすることで、ソフトウェア・サプライチェーン全体をターゲットにします。例えば、攻撃者はプロンプト・インジェクションを使用してAIモデルにAPIキーなどの機密情報を明らかにさせ、それに接続されている他のシステムへのバックドア・アクセスを与える可能性があります。
レッド・チームは、攻撃者がインプットを微妙に変更してモデルをだまして指示を分類または誤って解釈させる、敵対的攻撃の一種である回避攻撃をシミュレートすることもできます。こうした変更は通常、人間には認識されません。ただし、AIモデルを操作して望ましくないアクションを実行させることはできます。たとえば、これには、入力画像の単一ピクセルを変更して、自動運転車での使用を目的としたコンピューター・ビジョン・モデルなどのコンピューター・ビジョン・モデルの分類器をだますことが含まれる場合があります。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
攻撃者はトレーニングや開発中にもAIモデルを標的にするため、レッド・チームが同じ攻撃をシミュレーションして、プロジェクト全体を危険にさらす可能性のあるリスクを特定することが不可欠です。データ・ポイズニング攻撃は、攻撃者がトレーニング・セットに悪意のあるデータを持ち込み、それによって学習プロセスが破損し、モデル自体に脆弱性が埋め込まれることで発生します。その結果は、モデル全体がさらなる攻撃の潜在的な侵入口になります。トレーニングデータが侵害された場合は、通常、モデルを最初から再トレーニングする必要があります。オペレーションは非常にリソースを大量に消費し、時間をかかる作業です。
データ・ポイズニングのリスクを軽減するには、AIモデル開発プロセスの開始当初からレッド・チームの関与が不可欠です。レッド・チームは、既存の運用システムからエアギャップされた安全なサンドボックス環境で、実世界のデータ・ポイズニング攻撃をシミュレートします。そうすることで、モデルがデータ・ポイズニングに対してどの程度脆弱なのか、また実際の脅威アクターがどのようにトレーニング・プロセスに侵入したり侵害したりするかについての洞察が得られます。
AIレッドチームは、データ収集パイプラインの弱点を積極的に特定することもできます。大規模言語モデル (LLM)は、多くの場合、膨大な数のさまざまなソースからデータを取得します。たとえば、ChatGPTは、何百万ものWebサイト、書籍、その他のソースからの膨大なテキスト・データ・コーパスでトレーニングされています。独自のLLMを構築する場合、組織がトレーニング・データをどこから取得し、その品質がどのように精査されているかを正確に知ることが重要です。これはセキュリティ監査者やプロセスレビュアーの仕事に重点を置いていますが、レッドチームはペネトレーション・テストを使用して、データ収集パイプラインの欠陥に対抗するモデルの能力を評価できます。
独自のAIモデルは通常、少なくとも部分的に組織の独自のデータでトレーニングされます。たとえば、カスタマー・サービスに導入されたLLMでは、最も関連性の高い出力を提供できるように、企業の顧客データをトレーニングに使用する場合があります。理想的には、モデルは、誰でも閲覧できる匿名化されたデータに基づいてのみトレーニングされるべきです。ただし、その場合でも、モデル反転攻撃やメンバーシップ推論攻撃により、プライバシー侵害が依然としてリスクとなる可能性があります。
導入後も、AIモデルはトレーニングに使用したデータの痕跡を保持できます。例えば、グーグルのディープマインドAI研究所のチームは、簡単なプロンプトを使ってChatGPTを騙し、学習データを流出させることに成功しました。そのため、モデル逆攻撃では、悪意のある攻撃者がトレーニング・データを再構成することができ、その過程で機密情報が漏洩する可能性があります。
メンバーシップ推論攻撃も同様に機能します。この場合、攻撃者は、別のモデルを助けた推論を通じて、特定のデータ・ポイントがモデルをトレーニングするために使用されたかどうかを予測しようとします。これは、攻撃者が最初に攻撃対象のモデルの出力に基づいて、別のモデル(メンバーシップ推論モデルとして知られている)をトレーニングする、より洗練された方法です。
たとえば、モデルが顧客の購入履歴でトレーニングされ、パーソナライズされた製品の推奨事項を提供するとします。その後、攻撃者はメンバーシップ推論モデルを作成し、そのアウトプットをターゲット・モデルのアウトプットと比較して、標的型攻撃に使用する可能性のある機密情報を推測することができます。
いずれの場合も、レッド・チームは、直接的または推論を通じて間接的に機密情報を意図せず漏洩する能力についてAIモデルを評価することができます。これは、組織のプライバシー・ポリシーに従って十分に匿名化されていないデータなど、トレーニング・データ・ワークフロー自体の脆弱性を特定するのに役立ちます。
AIにおける信頼の構築には事前なストラテジーが必要であり、AIレッド・チーム化が基本的な役割を果たします。敵対的トレーニングやシミュレートされたモデルの逆攻撃などの方法を使用することで、レッド・チームは他のセキュリティー・アナリストが見逃してしまう可能性のある脆弱性を特定できます。
これらの調査結果は、AI開発者が実際の脅威アクターが同じ脆弱性をエクスプロイトするのを防ぐために、優先順位を付けてプロアクティブな保護措置を実装するのに役立ちます。企業の成果としては、セキュリティリスクが軽減され、AIモデルに対する信頼が高まります。AIモデルは、多くのビジネスクリティカルなシステムに急速に深く浸透しつつあります。