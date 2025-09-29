プロンプト・インジェクションは、LLMアプリケーションが開発者の指示とユーザー入力を明確に区別しないという事実を利用します。注意深く作成されたプロンプトを作成することで、ハッカーは開発者の指示を上書きし、LLMに命令を実行させることができます。

プロンプト・インジェクション攻撃を理解するには、まず、LLMを利用した多くのアプリを開発者がどのように構築しているかを確認することが助けになります。

LLMは基盤モデルの一種であり、大規模なデータセットでトレーニングされた柔軟性の高い機械学習モデルです。「命令の微調整」と呼ばれるプロセスを通じて、さまざまなタスクに適応させることができます。開発者はタスクに関する一連の自然言語による指示をLLMに与え、LLMはその指示に従います。

命令の微調整により、開発者はLLMアプリをプログラムするためにコードを記述する必要がなくなります。代わりに、ユーザー入力の処理方法をAIモデルに指示する命令セットであるシステム・プロンプトを作成できます。ユーザーがアプリを操作すると、その入力がシステム・プロンプトに追加され、すべてが1つのコマンドとしてLLMに送られます。

プロンプト・インジェクションの脆弱性は、システム・プロンプトとユーザー入力の両方が同じ形式（自然言語テキストの文字列）を取るために発生します。つまり、LLMはデータ型のみに基づいて命令と入力を区別できないということです。代わりに、過去のトレーニングとプロンプト自体を利用して、何をすべきかを決定します。攻撃者がシステム・プロンプトによく似た入力を作成した場合、LLMは開発者の指示を無視し、ハッカーの要求どおりに動作します。

データサイエンティストのRiley Goodside氏は、プロンプト・インジェクションを最初に発見した人の1人です。Goodside氏は、LLMを利用したシンプルな翻訳アプリを使用して、攻撃がどのように機能するかを説明しました。以下は、Goodside氏の例2を少し修正したバージョンです。