이러한 공격은 잘 숨겨져있는 경우가 많아 효과적이면서도 막기 어렵습니다. 직접 프롬프트 인젝션으로부터 어떻게 보호할 수 있을까요? NIST에서 언급했듯이, 이를 완전히 막을 수는 없지만 방어 전략은 어느 정도 보호 기능을 제공합니다. NIST는 모델 작성자에게 학습 데이터 세트가 신중하게 선별할 것을 제안합니다. 또한 어떤 유형의 입력이 프롬프트 인젝션 시도를 알리는지에 대해 모델을 학습시키고 적대적 프롬프트를 식별하는 방법해 학습시킬 것을 제안합니다.

간접 프롬프트 인젝션의 경우, NIST는 인간의 개입을 통해 모델을 미세 조정하는 것을 제안합니다.이것을 인간 피드백 데이터를 통한 학습(RLHF)이라고 합니다. RLHF는 모델이 원치 않는 행동을 방지하는 인간의 가치에 더 잘 부합하도록 돕습니다. 또 다른 제안은 검색된 입력에서 명령을 필터링하여 외부 소스에서 원치 않는 명령을 실행하는 것을 방지하는 것입니다. NIST는 또한 검색된 소스에 의존하지 않는 공격을 탐지하는 데 도움이 되는 LLM 모더레이터를 사용할 것을 제안합니다. 마지막으로 NIST는 해석 가능성 기반 솔루션을 제안합니다. 즉, 비정상적인 입력을 인식하는 모델의 예측 궤적을 사용하여 비정상적인 입력을 탐지한 다음 차단할 수 있습니다.

생성형 AI와 그 취약점을 악용하려는 사람들은 계속해서 사이버 보안 환경을 변화시킬 것입니다. 하지만 바로 그 혁신적인 힘이 솔루션을 제공할 수도 있습니다. IBM Security가 보안 방어를 강화하는 AI 사이버 보안 솔루션을 제공하는 방법에 대해 자세히 알아보세요.