두 용어는 종종 동의어로 사용되지만 프롬프트 인젝션과 탈옥은 서로 다른 기술입니다. 프롬프트 인젝션은 악성 명령어를 무해한 입력으로 위장하는 반면, 탈옥은 LLM이 보호 장치를 무시하도록 합니다.

시스템 프롬프트는 단순히 LLM에게 무엇을 해야 하는지 알려주는 것이 아닙니다. 여기에는 LLM에게 하지 말아야 할 것을 알려주는 안전 장치도 포함되어 있습니다. 예를 들어 간단한 번역 앱의 시스템 프롬프트는 다음과 같을 수 있습니다.

귀하는 번역 챗봇입니다. 욕설이 포함된 문장은 번역하지 않습니다. 다음 텍스트를 영어에서 프랑스어로 번역하세요.

이러한 보호 조치는 사람들이 의도하지 않은 행동(이 경우 봇이 불쾌한 말을 하도록 만드는 것)에 LLM을 사용하지 못하도록 하는 것을 목표로 합니다.

LLM을 '탈옥'한다는 것은 LLM이 보호 장치를 무시하도록 설득하는 프롬프트를 작성하는 것을 의미합니다. 해커는 종종 LLM에 페르소나를 채택하거나 '게임'을 하도록 요청하여 이를 수행할 수 있습니다. 'Do Anything Now' 또는 'DAN' 프롬프트는 사용자가 LLM에 규칙이 없는 AI 모델인 'DAN'의 역할을 맡도록 요청하는 일반적인 탈옥 기술입니다.

보호 장치는 LLM을 탈옥하기 어렵게 만들 수 있습니다. 그럼에도 불구하고 해커와 아마추어 해커 모두 최신 규칙을 능가하기 위해 항상 프롬프트 엔지니어링 노력을 기울이고 있습니다. 해커들이 효과적인 프롬프트를 찾으면 온라인에서 공유하는 경우가 많습니다. 그 결과는 일종의 무기 경쟁입니다. LLM 개발자들은 새로운 탈옥 프롬프트를 설명하기 위해 보호장치를 업데이트하고, 탈옥자들은 새로운 보호장치를 우회하기 위해 프롬프트를 업데이트합니다.

프롬프트 인젝션은 LLM을 탈옥하는 데 사용할 수 있으며 탈옥 전술은 성공적인 프롬프트 인젝션을 시작하게 할 수 있지만 이 둘은 궁극적으로는 별개의 기술입니다.