Think 뉴스레터
프롬프트 이상을 생각하고 전체 맥락 파악
Think Newsletter를 통해 업계 뉴스, AI 툴, 프롬프트 엔지니어링 관련 최신 트렌드 소식을 받아보세요. 새로운 설명서, 튜토리얼, 전문가 인사이트도 이메일로 보내드립니다. IBM 개인정보 보호정책을 참고하세요.
NIST(National Institute of Standards and Technology)는 AI 라이프사이클을 밀접하게 관찰하고 있는데, 그만한 이유가 있습니다. AI가 확산됨에 따라 AI 사이버 보안 취약점의 발견과 악용도 증가하고 있기 때문입니다. 프롬프트 인젝션은 특히 생성형 AI를 겨냥하는 취약점 중 하나입니다.
NIST는 적대적 머신 러닝: 공격과 완화에 대한 분류 및 용어에서 프롬프트 인젝션과 같은 다양한 적대적 머신 러닝(AML) 전술과 사이버 공격을 정의하고 사용자에게 이를 완화하고 관리하는 방법에 대해 조언합니다. AML 전술은 머신 러닝(ML) 시스템의 동작 방식에 대한 정보를 추출하여 이를 조작하는 방법을 발견합니다. 이 정보는 보안 및 안전 장치를 우회하고 악용할 수 있는 경로를 열기 위해 AI 및 대규모 언어 모델(LLM)을 공격하는 데 사용됩니다.
Think 뉴스레터
Think Newsletter를 통해 업계 뉴스, AI 툴, 프롬프트 엔지니어링 관련 최신 트렌드 소식을 받아보세요. 새로운 설명서, 튜토리얼, 전문가 인사이트도 이메일로 보내드립니다. IBM 개인정보 보호정책을 참고하세요.
NIST는 프롬프트 인젝션 공격을 직접 공격과 간접 공격의 두 가지 유형으로 정의합니다. 직접 프롬프트 인젝션을 사용하면 사용자가 LLM이 의도하지 않았거나 승인되지 않은 작업을 수행하도록 하는 텍스트 프롬프트를 입력합니다. 간접 프롬프트 인젝션은 공격자가 LLM이 가져오는 데이터를 오염시키거나 성능 저하를 일으키는 경우입니다.
가장 잘 알려진 직접 프롬프트 인젝션 방법 중 하나는 ChatGPT에 사용되는 프롬프트 인젝션인 DAN(Do Anything Now)입니다. DAN은 롤플레이를 사용하여 조정 필터를 우회합니다. 첫 번째 반복에서 프롬프트는 ChatGPT에 이제 DAN이라고 지시했습니다. DAN은 악의적인 사람이 폭발물을 만들고 폭발시키는 것을 도와주는 등의 무엇이든 할 수 있습니다. 이 전술은 역할극 시나리오를 따라 범죄나 유해한 정보를 제공하지 못하도록 하는 필터를 우회했습니다. ChatGPT의 개발사인 OpenAI는 이 전략을 추적하고 모델을 업데이트하여 활용되지 못하도록 막고 있지만, 사용자들은 계속해서 필터를 우회하고 있으며 이 전술은 (최소한) DAN 12.0까지 진화했습니다.
NIST에 따르면 간접 프롬프트 인젝션은 공격자가 PDF, 문서, 웹 페이지 또는 가짜 음성을 생성하는 데 사용되는 오디오 파일과 같이 생성형 AI 모델이 수집할 소스를 제공할 수 있어야 합니다. 간접 프롬프트 인젝션은 이러한 공격을 찾아서 수정할 수 있는 간단한 방법이 없기 때문에 생성형 AI의 가장 큰 보안 결함으로 널리 알려져 있습니다. 이 프롬프트 유형의 예는 광범위하고 다양합니다. 터무니 없는 것(챗봇이 '해적 대화'를 사용하여 응답하도록 유도하는 것)부터 피해를 주는 것(사회 공학적 채팅을 사용하여 사용자가 신용카드 및 기타 개인 데이터를 공개하도록 유도하는 것)과 광범위한 것(AI 어시스턴트를 하이재킹하여 전체 연락처 목록에 스캠 메일을 보내는 것)까지 다양합니다.
이러한 공격은 잘 숨겨져있는 경우가 많아 효과적이면서도 막기 어렵습니다. 직접 프롬프트 인젝션으로부터 어떻게 보호할 수 있을까요? NIST에서 언급했듯이, 이를 완전히 막을 수는 없지만 방어 전략은 어느 정도 보호 기능을 제공합니다. NIST는 모델 작성자에게 학습 데이터 세트가 신중하게 선별할 것을 제안합니다. 또한 어떤 유형의 입력이 프롬프트 인젝션 시도를 알리는지에 대해 모델을 학습시키고 적대적 프롬프트를 식별하는 방법해 학습시킬 것을 제안합니다.
간접 프롬프트 인젝션의 경우, NIST는 인간의 개입을 통해 모델을 미세 조정하는 것을 제안합니다.이것을 인간 피드백 데이터를 통한 학습(RLHF)이라고 합니다. RLHF는 모델이 원치 않는 행동을 방지하는 인간의 가치에 더 잘 부합하도록 돕습니다. 또 다른 제안은 검색된 입력에서 명령을 필터링하여 외부 소스에서 원치 않는 명령을 실행하는 것을 방지하는 것입니다. NIST는 또한 검색된 소스에 의존하지 않는 공격을 탐지하는 데 도움이 되는 LLM 모더레이터를 사용할 것을 제안합니다. 마지막으로 NIST는 해석 가능성 기반 솔루션을 제안합니다. 즉, 비정상적인 입력을 인식하는 모델의 예측 궤적을 사용하여 비정상적인 입력을 탐지한 다음 차단할 수 있습니다.
생성형 AI와 그 취약점을 악용하려는 사람들은 계속해서 사이버 보안 환경을 변화시킬 것입니다. 하지만 바로 그 혁신적인 힘이 솔루션을 제공할 수도 있습니다. IBM Security가 보안 방어를 강화하는 AI 사이버 보안 솔루션을 제공하는 방법에 대해 자세히 알아보세요.