Bien que les deux termes soient souvent utilisés comme synonymes, les injections d’invites et le jailbreak sont des techniques différentes. Les injections d’invites déguisent des instructions malveillantes en entrées inoffensives, tandis que le jailbreak oblige un LLM à ignorer ses protections.
Les invites système ne se contentent pas d’indiquer aux LLM ce qu’ils doivent faire. Ils comprennent également des dispositifs de protection qui indiquent au LLM ce qu’il ne doit pas faire. Par exemple, l’invite système d’une application de traduction basique pourrait être :
Vous êtes un chatbot de traduction. Vous ne traduisez pas les affirmations qui contiennent des obscénités. Traduire le texte suivant de l’anglais vers le français :
Ces mesures de protection visent à empêcher les utilisateurs de recourir aux LLM pour des actions non prévues (dans ce cas, inciter le bot à dire quelque chose d’offensant).
« Jailbreaker » un LLM signifie rédiger une invite qui le convainc de ne pas tenir compte de ses dispositifs de protection. Les pirates peuvent souvent le faire en demandant au LLM d’adopter un personnage ou de jouer à un « jeu ». L’invite « Do Anything Now » ou « DAN » est une technique de jailbreak courante dans laquelle les utilisateurs demandent à un LLM de jouer le rôle de « DAN », un modèle d’IA sans règles.
Les dispositifs de protection peuvent rendre plus difficile le jailbreak d’un LLM. Malgré cela, les pirates informatiques ou de simples geeks travaillent en permanence sur l’ingénierie des invites pour passer outre les dernières règles. Lorsqu’ils trouvent des invites qui fonctionnent, ils les partagent souvent en ligne. Le résultat est une sorte de « course aux armements » : les développeurs de LLM mettent à jour leurs dispositifs de protection pour tenir compte des nouvelles instructions de jailbreak, tandis que les jailbreakers mettent à jour leurs invites pour contourner les nouveaux dispositifs de sécurité.
Les injections d’invites peuvent être utilisées pour jailbreaker un LLM, et les tactiques de jailbreak peuvent ouvrir la voie à une injection d’invites réussie, mais il s’agit en fin de compte de deux techniques distinctes.