프롬프트 인젝션은 LLM 애플리케이션이 개발자 명령어와 사용자 입력을 명확하게 구분하지 못한다는 사실을 악용합니다. 해커는 신중하게 구성된 프롬프트를 작성하여 개발자 명령어를 무시하고 LLM을 자신이 원하는 대로 작동하게 만들 수 있습니다.

프롬프트 인젝션 공격을 이해하려면 먼저 개발자가 많은 LLM 기반 앱을 빌드하는 방법을 살펴보는 것이 도움이 됩니다.

LLM은 대규모 데이터 세트에서 훈련된 매우 유연한 머신 러닝 모델인 일종의 파운데이션 모델이며 '명령어 미세 조정'이라는 프로세스를 통해 다양한 작업에 적용할 수 있습니다. 개발자가 작업에 대한 일련의 자연어 명령을 LLM에 전달하면 LLM이 이를 따릅니다.

명령어 미세 조정 덕분에 개발자는 LLM 앱을 프로그래밍하기 위해 코드를 작성할 필요가 없습니다. 대신 AI 모델에 사용자 입력을 처리하는 방법을 알려주는 명령 집합인 시스템 프롬프트를 작성할 수 있습니다. 사용자가 앱과 상호작용할 때 입력이 시스템 프롬프트에 추가되고 모든 것이 단일 명령어로 LLM에 공급됩니다.

프롬프트 인젝션 취약성은 시스템 프롬프트와 사용자 입력이 모두 동일한 형식(자연어 텍스트 문자열)을 사용하기 때문에 발생합니다. 즉, LLM은 데이터 유형만으로는 명령어와 입력을 구분할 수 없습니다. 대신, 과거의 훈련과 프롬프트 자체에 의존하여 무엇을 해야 할지 결정합니다. 공격자가 시스템 프롬프트처럼 보이는 입력을 만들면 LLM은 개발자의 명령을 무시하고 해커가 원하는 작업을 수행합니다.

데이터 과학자인 Riley Goodside는 프롬프트 인젝션을 최초로 발견한 사람 중 한 명입니다. Goodside는 간단한 LLM 기반 번역 앱을 사용하여 공격의 작동 방식을 설명했습니다. 다음은 Goodside의 예제2를 약간 수정한 버전입니다.