AI脱獄の世界は多様であり、かつ進化を続けています。驚くほど単純な攻撃もあれば、洗練されたハッカーの専門知識を必要とする複雑なシナリオを伴う攻撃もあります。それらに共通しているのは、デジタル・アシスタントのプログラムに設定された限界を超えるという目的です。

これらのエクスプロイトは言語モデルの本質そのものを利用します。AIチャットボットは、役に立つことと、文脈を理解するように訓練されています。脱獄者は、AIが通常の倫理ガイドラインを無視することが適切であると考えるシナリオを作成します。

スケルトン・キーのようなマルチステップ攻撃が注目を集める一方で、Leeはシングル・ショット手法は依然としてより差し迫った懸念事項であると主張します。「大規模言語モデルを攻撃するには、ワンショットの方が容易です」と彼は言います。「AI搭載の採用システムを混乱させるために、履歴書にプロンプト・インジェクションを紛れ込ませることを想像してみてください。これは、複数のやり取りが起こる可能性のないワンショット攻撃です。」

サイバーセキュリティーの専門家によれば、潜在的な結果は憂慮すべきものです。「悪意のある行為者は、スケルトン・キーを利用してAIの安全対策を回避し、有害なコンテンツを生成したり、偽情報を拡散したり、大規模にソーシャル・エンジニアリング攻撃を自動化したりする可能性があります」と、SlashNext Email Security+ のフィールドCTOであるStephen Kowski氏は警告しています。

これらの攻撃の多くはまだ理論上のものですが、現実での影響が表面化し始めています。Leeは、研究者が企業のAI搭載仮想エージェントを説得して、大幅な不正割引をさせた例を挙げています。「仮想エージェントを混乱させることで、相当な割引をさせることが可能です。それは会社にとって望ましくないことでしょう」と彼は言います。

Leeは自身の研究で、LLMを催眠状態にして脆弱で悪意のあるコードを作成する方法や、ライブ音声会話をほぼリアルタイムで傍受して歪曲する方法を示す概念実証を開発しました。