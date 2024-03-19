Think Newsletter
プロンプトの先を考え、コンテキスト全体を把握する
米国国立標準技術研究所（NIST）はAIのライフサイクルを密接に観察していますが、それには十分な理由があります。AIの普及に伴い、AIサイバーセキュリティーにおける脆弱性の発見とエクスプロイテーションも増加しています。プロンプト・インジェクションは、特に生成AIを攻撃する脆弱性の1つです。
米国国立標準技術研究所（NIST）はAIのライフサイクルを密接に観察していますが、それには十分な理由があります。AIの普及に伴い、AIサイバーセキュリティーにおける脆弱性の発見とエクスプロイテーションも増加しています。プロンプト・インジェクションは、特に生成AIを攻撃する脆弱性の1つです。
NISTは、『敵対的機械学習: 攻撃と緩和策の分類と用語』で、プロンプト・インジェクションなどのさまざまな敵対的機械学習（AML）戦術とサイバー攻撃を定義し、それらを緩和および管理する方法についてユーザーにアドバイスしています。AMLの手法は、機械学習（ML）システムの動作に関する情報を抽出し、システムを操作する方法を見つけ出します。その情報は、AIとその大規模言語モデル（LLM）を攻撃して、セキュリティを回避し、安全策を回避し、エクスプロイトへの道を開くために使用されます。
NISTは、プロンプト・インジェクション攻撃において、直接的と間接的という2つのタイプを定義しています。直接的プロンプト・インジェクションでは、ユーザーがテキスト・プロンプトを入力し、LLMが意図しないアクションや不正なアクションを実行するように仕向けます。間接的プロンプト・インジェクションとは、LLMが抽出するデータを攻撃者が汚染または劣化させることです。
最もよく知られている直接的プロンプト・インジェクション手法の1つは、ChatGPTに対して使用されるプロンプト・インジェクションであるDAN（Do Anything Now）です。DANはロールプレイを使用してモデレーション・フィルターを回避します。最初の反復では、プロンプトはChatGPTに、これがDANであることを指示しました。DANは自らが望むあらゆることを実行可能であり、たとえば、悪意のある人物が爆発物を作成し爆発させるのを支援するふりをすることもできます。この手法は、ロールプレイ・シナリオに従って犯罪的情報や有害な情報の提供を防ぐフィルターを回避しました。ChatGPTの開発元であるOpenAIはこの手法を追跡し、その使用を防ぐためにモデルを更新していますが、ユーザーはフィルターを回避し続け、この手法は（少なくとも）DAN 12.0まで進化しています。
NISTが指摘しているように、間接的プロンプト・インジェクションは、PDF、ドキュメント、Webページ、さらには偽の音声を生成するために使用される音声ファイルなど、生成AIモデルが取り込むソースを攻撃者が提供できることに依存します。間接的プロンプト・インジェクションは、生成AIの最大のセキュリティ上の欠陥であると広く考えられていますが、これらの攻撃を簡単に見つけて修正プログラムする方法はありません。このプロンプト・タイプの例は多岐にわたります。それらは、不合理なもの（チャットボットに「海賊語」を使って応答させる）から、有害なもの（ソーシャル・エンジニアリングされたチャットを使用してユーザーにクレジットカード情報やその他の個人データを開示させる）、広範囲なもの（AIアシスタントを乗っ取って詐欺メールを連絡先リスト全体に送信する）まで多岐にわたります。
こうした攻撃は巧妙に隠蔽される傾向があり、そのため効果的であると同時に阻止するのが困難です。直接的プロンプト・インジェクションからどのように保護すればよいのでしょうか。NISTによれば、こうした攻撃を完全に阻止することはできませんが、防御戦略によってある程度の防御施策がもたらされます。モデル作成者に対してNISTは、トレーニング・データ・セットを慎重にキュレートすることを推奨しています。また、どのような種類のインプットがプロンプト・インジェクションの試みを示すのかモデルをトレーニングしたり、敵対的なプロンプトを識別する方法についてトレーニングすることも提案しています。
間接的プロンプト・インジェクションについてNISTは、人間のフィードバックによる強化学習（RLHF）として知られる、モデルのファイン・チューニングを行うため、人間が関与することを提案しています。RLHFは、モデルが人間の価値観とより良く連携し、不要な動作を防ぐ上で役立ちます。もう1つの提案は、取得したインプットから命令を精査することです。これにより、外部ソースからの不要な命令の実行を防ぐことができます。NISTはさらに、取得したソースに依存せずに実行する攻撃の検知に、LLMモデレーターを使用することを提案しています。最後に、NISTは解釈可能性ベースのソリューションを提案しています。これは、異常インプットを認識するモデルの予測軌道を使用して、異常インプットを検知し、停止できることを意味します。
生成AIとその脆弱性をエクスプロイトしようとする人々により、サイバーセキュリティーの状況は変化し続けるでしょう。しかし、同じ変革の力は解決策を生み出すこともできます。
