생성형 AI 솔루션 보안

 파란 말풍선, 물음표, 체크 표시 등 다양한 도형과 기호가 포함된 흐름도
개요

생성형 AI 시스템은 고유한 보안 문제들을 야기합니다. 생성형 AI 모델에 대한 접근권을 확보하는 일반적인 과제와 더불어, 대규모 언어 모델(LLM)과 그 밖의 생성형 기술의 창의력, 그리고 모델이 부정확하거나 바람직하지 않은 결과물을 생성하거나, 민감한 정보나 사적인 정보를 공개하거나, 바람직하지 않거나 잘못된/허용되지 않는/불법적인 행동을 할 위험 사이에서 균형을 맞춰야 합니다.

LLM 및 생성형 AI 앱 부문 10대 OWASP

OWASP(Open Web Application Security Project)는 LLM 및 생성형 AI 애플리케이션의 10대 위험 및 취약성 버전 1을 발표했습니다. 아래 다이어그램은 에이전틱 AI 아키텍처의 맥락에서 이 취약점들을 보여줍니다.

 

10대 OWASP 생성형 AI 위협을 에이전틱 AI 아키텍처에 매핑했습니다.
  1. 프롬프트 주입은 공격자가 LLM 프롬프트에 악성 콘텐츠를 삽입할 수 있을 때 발생합니다. 콘텐츠는 더 큰 프롬프트 안에 들어있는 프롬프트/지침, 하이퍼링크, LLM이나 다른 도구가 읽는 콘텐츠까지 다양합니다(예: “다음 URL에서 텍스트 읽고 구문 분석...”). 프롬프트 인젝션을 사용하면 공격자가 모델을 조작하여 명령을 무시하거나, 바람직하지 않거나 잘못된 아웃풋을 제공할 수 있습니다.

  2. 안전하지 않은 아웃풋 처리는 LLM의 아웃풋이 악의적인 가능성이나 의도에 대해 충분히 검증되지 않은 경우에 발생합니다. 이러한 취약점의 예로는 실행을 위해 사용자의 브라우저로 전달되는 Javascript 코드를 생성하도록 LLM에 요청하는 경우, LLM에서 생성한 셸 스크립트 또는 기타 '시스템' 코드를 직접 실행하는 경우가 있습니다.

  3. 훈련 데이터 중독은 공격자가 모델 훈련 또는 구성 데이터를 수정하거나 조작하여 모델에 취약점을 도입할 때 발생합니다. 예를 들어서 공격자가 비즈니스 프로세스 설명을 수정해서 특정 개인에게 무제한으로 자금을 이체할 수 있습니다. 또는 경쟁사가 미세 조정 데이터를 수정하여 모델이 해당 기업의 제품이 아닌 자사 제품을 추천하게 만들 수 있습니다.

  4. 모델 서비스 거부는 공격자가 모델을 조작하여 리소스를 다량 소비하게 함으로써 성능을 저하시키거나 다른 사용자가 모델을 사용할 수 없게 만들 때 발생합니다. 모델 서비스 거부의 예로는 모델의 컨텍스트 창 크기보다 약간 작은 프롬프트를 반복적으로 제출하여 메모리를 많이 소비하는 경우가 있습니다. 그런 다음 모델이 재귀적으로 확장하고 컨텍스트 창을 처리하도록 하는 프롬프트를 제출합니다(끝없는 루프).

  5. 공급망 취약성은 공격자가 악용할 수 있는 알려지지 않은 취약성이 있을 수 있는 타사 소프트웨어 사용과 관련된 일반적인 취약성, 그리고 모델이 학습 프로세스에서 확인되지 않았거나 크라우드 소싱된 데이터를 사용할 때 생성되는 취약성을 모두 가리킵니다.

  6. 민감한 정보 공개는 모델이 민감한 정보나 개인 정보를 공개할 때 발생합니다. 이는 프롬프트 인젝션 공격이 성공했을 때 생기는 결과로, 엔터프라이즈 시스템 아웃풋을 안전하지 않게 처리하거나, 모델을 조작하여 민감한 아웃풋(유효한 신용카드 번호 등)을 생성하는 악성 프롬프트를 통해 발생할 수 있습니다.

  7. 안전하지 않은 플러그인 설계는 모델에서 직접 호출하는 도구가 안전하게 설계되지 않을 때 발생합니다. 관리 사용자로서 실행되는 도구, 또는 아웃풋을 통해 프롬프트 인젝션을 가능하게 하는 도구를 예로 들 수 있습니다.

  8. 과도한 에이전시는 모델이나 자율 에이전트가 LLM의 예상치 못한, 또는 모호한 아웃풋에 대응하여 손상되거나 승인되지 않은 작업을 수행하는 기능이 있을 때 발생합니다.

  9. 과도한 의존은 모델의 아웃풋이 사실에 기반한 출처 또는 절차적 통제의 정확성을 검증하지 않을 때 발생합니다. 과도한 의존의 가장 일반적인 예는 모델이 할루시네이션을 일으켜서 틀린 아웃풋이 사실로 받아들여지는 경우입니다. 챗봇이 고객에게 매장의 반품 정책을 틀리게 안내하는 것을 예로 들 수 있습니다. 모델 생성 코드나 이미지를 통해서도 과도한 의존이 발생할 수 있습니다.

  10. 모델 도난은 공격자가 모델, 가중치나 매개변수를 손상시키거나, 물리적으로 훔치거나, 복사할 수 있을 때 발생합니다. 공격자가 모델을 소유한 다음에 모델에 포함된 귀중한 지적 재산을 이용하거나, 복제본을 만들어서 자신이 사용할 수 있습니다.
     
생성형 AI 시스템 보호

아래 그림은 아키텍처를 보강하여 10대 OWASP의 취약점을 보호/완화하기 위한 보안 구성 요소의 배치를 보여줍니다.

 

AI 위협을 막기 위한 보안 제어 배치를 보여주는 에이전틱 AI 솔루션의 아키텍처 다이어그램.

ID 및 액세스 관리(IAM) 구성 요소는 강력한 사용자 ID와 역할을 제공하기 위해 추가되었습니다. 도난이나 모델 공개로 이어질 수 있는 애플리케이션 기능과 API에 대한 액세스를 제어하여 모델 도난 위험을 줄입니다.

에이전트 식별 및 접근 제어(에이전트 접근 제어) 기능이 추가되어, 특권 사용자와 유사한 방식으로 에이전트 접근 권한을 사용자 신원 및 역할과 대조합니다. 이는 할루시네이션, 부적절하거나 모호한 프롬프트로 인해 과도한 권한이 행사되거나 에이전트가 비정상적으로 작동하는 것을 방지합니다.

생성형 AI 모니터링 구성 요소(생성형 AI 모니터링)가 아키텍처 전반에 추가되어 프롬프트 인젝션, 안전하지 않은 아웃풋 처리, 민감한 데이터 공개, 과도한 의존을 방지합니다. GenAI 모니터링과 기존 데이터 유출 모니터링을 결합하여 프롬프트/응답 기반 공격(예: SQL 쿼리 결과에 프롬프트가 주입되는 경우)와 API 호출, 데이터베이스 쿼리 등의 결과에 노출될 수 있는 민감 정보 유출을 방지합니다.

구성 관리 및 모니터링 툴은 물론 모델 학습, 미세 조정, 구성 데이터에 대한 체계적인 버전 제어와 릴리스 프로세스를 추가하면 학습 데이터 포이징 공격을 완화할 수 있습니다.

마지막으로 통합된 동작 모니터링 및 이벤트 상관 관계 구성 요소가 추가되어, 개별 구성 요소 로그에서 잠재적인 취약성과 공격을 식별합니다. 시스템 운영자에게 잠재적인 문제를 알리기 위해 알림 및 경고 구성 요소가 추가되었으며, 식별된 문제에 대한 시스템과 수동 대응을 자동화 또는 조정하기 위해 응답 오케스트레이션 구성 요소가 추가되었습니다.

다음 단계

생성형 AI 도입을 가속하는 방법에 대해 IBM 전문가와 상담해 보세요.

기고자

Chris Kirby, Wissam Dib, Manav Gupta


업데이트: 2025년 1월 31일