こうした攻撃は巧妙に隠蔽される傾向があり、そのため効果的であると同時に阻止するのが困難です。直接的プロンプト・インジェクションからどのように保護すればよいのでしょうか。NISTによれば、こうした攻撃を完全に阻止することはできませんが、防御戦略によってある程度の防御施策がもたらされます。モデル作成者に対してNISTは、トレーニング・データ・セットを慎重にキュレートすることを推奨しています。また、どのような種類のインプットがプロンプト・インジェクションの試みを示すのかモデルをトレーニングしたり、敵対的なプロンプトを識別する方法についてトレーニングすることも提案しています。

間接的プロンプト・インジェクションについてNISTは、人間のフィードバックによる強化学習（RLHF）として知られる、モデルのファイン・チューニングを行うため、人間が関与することを提案しています。RLHFは、モデルが人間の価値観とより良く連携し、不要な動作を防ぐ上で役立ちます。もう1つの提案は、取得したインプットから命令を精査することです。これにより、外部ソースからの不要な命令の実行を防ぐことができます。NISTはさらに、取得したソースに依存せずに実行する攻撃の検知に、LLMモデレーターを使用することを提案しています。最後に、NISTは解釈可能性ベースのソリューションを提案しています。これは、異常インプットを認識するモデルの予測軌道を使用して、異常インプットを検知し、停止できることを意味します。

生成AIとその脆弱性をエクスプロイトしようとする人々により、サイバーセキュリティーの状況は変化し続けるでしょう。しかし、同じ変革の力は解決策を生み出すこともできます。IBM Securityがセキュリティー防御を強化するAIサイバーセキュリティー・ソリューションを提供している方法について詳細をご覧ください。