Think Newsletter
プロンプトの先を考え、コンテキスト全体を把握する
Thinkニュースレターで業界ニュース、AIツール、プロンプト・エンジニアリングの最新トレンドを先取りしましょう。さらに、メールに直接お届けする新しい解説、チュートリアル、専門家の洞察にアクセスできます。IBMプライバシー・ステートメントをご覧ください。
急速に進化する人工知能の世界で、新たな課題が浮上しました。「AIウィスパラー」は、適切に行動するチャットボットに自社のルールを違反させることで、AI倫理の限界を調査しています。
プロンプト・インジェクションまたは「ジェイルブレイク」として知られるこれらのエクスプロイトは、AIシステムの脆弱性を露呈させ、セキュリティに関する懸念を引き起こします。Microsoft社は最近、AIの倫理的ガードレールを回避するために設計された複数段階のプロセスである「スケルトン・キー」技術で、大きな話題を呼びました。しかし、このアプローチは一見した印象ほど斬新なものではありません。
「スケルトン・キーは、AIと複数のやり取りを必要とする点に独自性があります」とIBMの脅威インテリジェンス担当チーフ・アーキテクトであるChenta Leeは説明します。「以前は、ほとんどのプロンプト・インジェクション攻撃は、AIを1回の試行で混乱させることを目指していました。スケルトン・キーは複数回手順を踏むため、成功率を高めることができます。」
AI脱獄の世界は多様であり、かつ進化を続けています。驚くほど単純な攻撃もあれば、洗練されたハッカーの専門知識を必要とする複雑なシナリオを伴う攻撃もあります。それらに共通しているのは、デジタル・アシスタントのプログラムに設定された限界を超えるという目的です。
これらのエクスプロイトは言語モデルの本質そのものを利用します。AIチャットボットは、役に立つことと、文脈を理解するように訓練されています。脱獄者は、AIが通常の倫理ガイドラインを無視することが適切であると考えるシナリオを作成します。
スケルトン・キーのようなマルチステップ攻撃が注目を集める一方で、Leeはシングル・ショット手法は依然としてより差し迫った懸念事項であると主張します。「大規模言語モデルを攻撃するには、ワンショットの方が容易です」と彼は言います。「AI搭載の採用システムを混乱させるために、履歴書にプロンプト・インジェクションを紛れ込ませることを想像してみてください。これは、複数のやり取りが起こる可能性のないワンショット攻撃です。」
サイバーセキュリティーの専門家によれば、潜在的な結果は憂慮すべきものです。「悪意のある行為者は、スケルトン・キーを利用してAIの安全対策を回避し、有害なコンテンツを生成したり、偽情報を拡散したり、大規模にソーシャル・エンジニアリング攻撃を自動化したりする可能性があります」と、SlashNext Email Security+ のフィールドCTOであるStephen Kowski氏は警告しています。
これらの攻撃の多くはまだ理論上のものですが、現実での影響が表面化し始めています。Leeは、研究者が企業のAI搭載仮想エージェントを説得して、大幅な不正割引をさせた例を挙げています。「仮想エージェントを混乱させることで、相当な割引をさせることが可能です。それは会社にとって望ましくないことでしょう」と彼は言います。
Leeは自身の研究で、LLMを催眠状態にして脆弱で悪意のあるコードを作成する方法や、ライブ音声会話をほぼリアルタイムで傍受して歪曲する方法を示す概念実証を開発しました。
Think Newsletter
Thinkニュースレターで業界ニュース、AIツール、プロンプト・エンジニアリングの最新トレンドを先取りしましょう。さらに、メールに直接お届けする新しい解説、チュートリアル、専門家の洞察にアクセスできます。IBMプライバシー・ステートメントをご覧ください。
これらの攻撃に対する防御は、現在発生している課題です。Leeは、AIトレーニングの改善とAIファイアウォールの構築という2つの主要なアプローチについて概説しています。
「トレーニングを改善することで、モデル自体が『誰かが私を攻撃しようとしている』と認識できるようにしたいと考えています」とLeeは説明します。「また、言語モデルに対するすべての受信クエリーを検査し、プロンプト・インジェクションを検知する予定です。」
生成AIが私たちの日常生活にますます統合されるようになるにつれて、これらの脆弱性を理解することは技術専門家だけの関心事ではなくなります。AIシステムを扱うあらゆる人にとって、その潜在的な弱点を認識することはますます重要になっています。
Leeは、データベースに対するSQLインジェクション攻撃の初期の頃と比較します。「SQLクエリーを作成する際には、インジェクション攻撃の影響を受けないようにするために、すべてのインプットをパラメーター化する必要があることを業界全体が理解するまでに、5~10年かかりました」と彼は言います。「AIに関しては、あらゆる場所で言語モデルを活用し始めています。AIに単純な指示を与えるだけではソフトウェアが脆弱になることを、人々は理解する必要があります。」
スケルトン・キーのようなジェイルブレイク手法の発見は、AIに対する一般の信頼を損なう可能性があり、有益なAIテクノロジーの導入を遅らせる可能性があります。Zendata社のCEO(最高経営責任者)であるNarayana Pappu氏は、信頼を再構築するには透明性と独立した検証が不可欠であると述べています。
「AI開発者と組織は、強力で多用途な言語モデルを作成することと、悪用に対する堅牢な保護手段を確保することの間でバランスを取ることができます」と彼は言います。「それは、社内システムの透明性や、AIおよびデータのサプライチェーン・リスクの理解、開発プロセスの各段階に評価ツールを組み込むことによって実現できます。」