Ces attaques ont tendance à être bien cachées, ce qui les rend à la fois efficaces et difficiles à arrêter. Comment se protéger contre l’injection directe de prompt ? Comme le note le NIST, il est impossible de les arrêter complètement, mais les stratégies défensives apportent une certaine protection. Pour les créateurs de modèles, le NIST recommande de s’assurer que les jeux de données sont soigneusement organisés. Ils suggèrent également d’entraîner le modèle sur les types d’entrées qui signalent une tentative d’injection de prompt et de l’entraîner à identifier les prompts adverses.
Pour l’injection de prompts indirecte, le NIST suggère l’intervention humaine pour affiner les modèles, ce que l’on appelle l’apprentissage par renforcement basé sur les commentaires humains (RLHF). Le RLHF aide les modèles à mieux s’aligner sur les valeurs humaines qui empêchent les comportements indésirables. Une autre suggestion consiste à filtrer les instructions à partir des entrées récupérées, ce qui peut empêcher l’exécution d’instructions indésirables provenant de sources extérieures. Le NIST suggère en outre d’utiliser des modérateurs LLM pour aider à détecter les attaques qui ne s’appuient pas sur des sources récupérées pour s’exécuter. Enfin, le NIST propose des solutions basées sur l’interprétabilité. Cela signifie que la trajectoire de prédiction du modèle qui reconnaît les entrées anormales peut être utilisée pour détecter puis arrêter les entrées anormales.
L’IA générative et ceux qui souhaitent exploiter ses vulnérabilités continueront à modifier l’environnement de la cybersécurité. Mais cette même puissance de transformation peut également apporter des solutions. En savoir plus sur la manière dont IBM Security fournit des solutions de cybersécurité basées sur l’IA qui renforcent les défenses de sécurité.