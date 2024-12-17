ほとんどの主流の生成AIモデルには、有害なコンテンツを生み出すリスクを軽減するための安全策が組み込まれています。たとえば、通常の状況では、ChatGPTやCopilotに悪意のあるコードを書くことはできません。ただし、プロンプト・インジェクション攻撃やジェイルブレイクなどの方法により、これらの安全対策を回避できるようになります。

AIレッド・チーミングの目標の1つは、攻撃者と同じように意図的にAIを「誤動作」させることです。ジェイルブレイクは、モデルに安全フィルターを迂回させるための創造的なプロンプトを伴う手法の1つです。ただし、ジェイルブレイクは理論的にはユーザーが実際の犯罪を実行するのに役立ちますが、ほとんどの悪意のある攻撃者は他の攻撃ベクトルを使用します。なぜなら、それがはるかに効果的だからです。

プロンプト・インジェクション攻撃ははるかに深刻です。彼らはモデル自体をターゲットにするのではなく、プロンプト内の悪意のある指示を難読化して、それ以外は無害に見えるようにすることで、ソフトウェア・サプライチェーン全体をターゲットにします。例えば、攻撃者はプロンプト・インジェクションを使用してAIモデルにAPIキーなどの機密情報を明らかにさせ、それに接続されている他のシステムへのバックドア・アクセスを与える可能性があります。

レッド・チームは、攻撃者がインプットを微妙に変更してモデルをだまして指示を分類または誤って解釈させる、敵対的攻撃の一種である回避攻撃をシミュレートすることもできます。こうした変更は通常、人間には認識されません。ただし、AIモデルを操作して望ましくないアクションを実行させることはできます。たとえば、これには、入力画像の単一ピクセルを変更して、自動運転車での使用を目的としたコンピューター・ビジョン・モデルなどのコンピューター・ビジョン・モデルの分類器をだますことが含まれる場合があります。