정보 보안의 최전선에서 생성형 AI를 사용하는 레드팀은 다른 사람들이 간과할 수 있는 취약점을 식별하는 데 필수적인 역할을 합니다.
2024년에 데이터 유출로 인한 평균 비용이 사상 최고치인 488만 달러에 달할 것으로 예상되는 만큼, 기업은 취약점이 어디에 있는지 정확히 파악해야 합니다. 그들이 생성형 AI를 도입하는 놀라운 속도를 고려할 때, 이러한 취약점 중 일부는 AI 모델 자체 또는 그들을 학습하는 데 사용된 데이터에 있을 가능성이 높습니다.
바로 이 지점에서 AI 전용 레드팀 구성이 필요합니다. 이는 동적 위협 시나리오에 대해 AI 시스템의 복원력을 테스트하는 방법입니다. 여기에는 프로덕션 환경에 배포하기 전과 후에 AI 시스템을 스트레스 테스트하기 위해 실제 공격 시나리오를 시뮬레이션하는 것이 포함됩니다. 레드팀 구성은 조직이 위험을 추가하지 않고도 생성형 AI의 이점을 누릴 수 있도록 하는 데 매우 중요해졌습니다.
IBM의 X-Force Red 공격 보안 서비스는 지속적인 테스트를 통한 반복적인 프로세스에 따라 네 가지 주요 영역의 취약점을 해결합니다.
이 기사에서는 AI 모델 및 훈련 데이터를 대상으로 하는 세 가지 유형의 적대적 공격에 초점을 맞출 것입니다.
대부분의 주류 세대 AI 모델에는 유해한 콘텐츠 생성 위험을 완화하기 위한 보호 장치가 내장되어 있습니다. 예를 들어, 정상적인 상황에서는 ChatGPT 또는 Copilot에 악성 코드 작성을 요청할 수 없습니다. 그러나 프롬프트 인젝션 공격 및 탈옥과 같은 방법을 사용하면 이러한 보호 장치를 우회할 수 있습니다.
AI 레드팀의 목표 중 하나는 공격자가 하는 것처럼 의도적으로 AI를 '오작동'하게 만드는 것입니다. 탈옥은 모델이 안전 필터를 우회하도록 창의적인 자극을 주는 방법 중 하나입니다. 하지만 탈옥이 이론적으로 실제 범죄를 저지를 수 있도록 도울 수 있지만, 대부분의 악의적 행위자들은 훨씬 더 효과적인 다른 공격 경로를 사용합니다.
프롬프트 인젝션 공격은 훨씬 더 심각합니다. 이들은 모델 자체를 표적으로 삼는 대신 무해해 보이는 프롬프트에 악의적인 지침을 모호하게 만들어 전체 공급망을 표적으로 삼습니다. 예를 들어, 공격자는 프롬프트 인젝션을 사용하여 AI 모델이 API 키와 같은 민감한 정보를 공개하도록 할 수 있으며, 이를 통해 해당 모델에 연결된 다른 시스템에 대한 백도어 액세스를 얻을 가능성이 있습니다.
또한 레드팀은 공격자가 입력을 미묘하게 수정하여 모델을 속여 명령을 분류하거나 잘못 해석하도록 하는 적대적 공격의 일종인 회피 공격을 시뮬레이션할 수도 있습니다. 이러한 변형은 일반적으로 인간이 감지할 수 없습니다. 그러나 여전히 AI 모델을 조작하여 원치 않는 조치를 취할 수 있습니다. 예를 들어, 여기에는 자율 주행 차량에 사용하기 위한 컴퓨팅 비전 모델의 분류기를 속이기 위해 입력 이미지의 단일 픽셀을 변경하는 것이 포함될 수 있습니다.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
공격자는 또한 훈련 및 개발 중에 AI 모델을 표적으로 삼기 때문에 레드팀이 동일한 공격을 시뮬레이션하여 전체 프로젝트를 손상시킬 수 있는 위험을 식별하는 것이 필수적입니다. 데이터 중독 공격은 공격자가 악성 데이터를 학습 세트에 도입하여 학습 프로세스를 손상시키고 모델 자체에 취약점을 임베딩할 때 발생합니다. 그 결과 전체 모델이 추가 공격의 잠재적 진입점이 될 수 있습니다. 훈련 데이터가 손상된 경우 일반적으로 모델을 처음부터 다시 훈련해야 합니다. 이는 리소스 집약적이고 시간이 많이 소요되는 작업입니다.
데이터 중독 위험을 완화하려면 AI 모델 개발 프로세스 초기부터 레드팀의 참여가 필수적입니다. 레드팀은 기존 프로덕션 시스템과 에어갭을 갖춘 안전한 샌드박스 환경에서 실제 데이터 포이즈닝 공격을 시뮬레이션합니다. 이렇게 하면 모델이 데이터 중독에 얼마나 취약한지, 실제 위협 행위자가 어떻게 훈련 프로세스에 침투하거나 손상시킬 수 있는지에 대한 인사이트를 얻을 수 있습니다.
AI 레드팀은 데이터 수집 파이프라인의 취약점도 사전에 파악할 수 있습니다. 대규모 언어 모델(LLM)은 종종 수많은 다양한 소스에서 데이터를 가져옵니다. 예를 들어 ChatGPT는 수백만 개의 웹사이트, 책 및 기타 소스에서 가져온 방대한 텍스트 데이터로 학습되었습니다. 독점 LLM을 구축할 때는 조직이 훈련 데이터를 어디에서 가져오고 품질을 검증하는 방법을 정확히 아는 것이 중요합니다. 이 부분은 보안 감사관과 프로세스 검토자의 역할이지만, 레드팀은 침투 테스트를 통해 모델 데이터 수집 파이프라인의 결함을 견딜 수 있는 능력을 평가할 수 있습니다.
독점 AI 모델은 일반적으로 조직의 자체 데이터를 기반으로 학습되며 적어도 부분적으로는 학습됩니다. 예를 들어, 고객 서비스에 배포된 LLM은 가장 관련성이 높은 아웃풋을 제공할 수 있도록 회사의 고객 데이터를 교육에 사용할 수 있습니다. 이상적으로 모델은 모든 사람이 볼 수 있는 익명화된 데이터를 기반으로만 학습되어야 합니다. 하지만 이 경우에도 모델 역추론 공격과 멤버십 추론 공격으로 인해 개인정보 침해가 발생할 수 있습니다.
배포 후에도 생성형 AI 모델은 훈련된 데이터의 흔적을 유지할 수 있습니다. 예를 들어, Google의 DeepMind AI 연구소의 팀은 간단한 프롬프트를 사용하여 ChatGPT가 훈련 데이터를 유출하도록 속이는 데 성공했습니다. 따라서 모델 역추론 공격을 통해 악의적인 공격자가 훈련 데이터를 재구성할 수 있으며, 이 과정에서 기밀 정보가 노출될 가능성이 있습니다.
멤버십 추론 공격도 비슷한 방식으로 작동합니다. 이 경우 공격자는 특정 데이터 포인트가 다른 모델의 도움을 받아 추론을 통해 모델을 학습하는 데 사용되었는지 여부를 예측하려고 합니다. 이것은 공격자가 공격하는 모델의 출력을 기반으로 별도의 모델(멤버십 추론 모델)을 학습시키는 보다 정교한 방법입니다.
예를 들어, 개인화된 제품 추천을 제공하기 위해 고객 구매 내역을 학습한 모델이 있다고 가정해 보겠습니다. 그런 다음 공격자는 멤버십 추론 모델을 만들고 그 아웃풋을 대상 모델의 아웃풋과 비교하여 표적 공격에 사용할 수 있는 잠재적으로 민감한 정보를 추론할 수 있습니다.
모든 경우에 대해 레드팀은 추론을 통해 직접 또는 간접적으로 민감한 정보를 실수로 누출하는 AI 모델의 능력을 평가할 수 있습니다. 이는 조직의 개인정보 보호정책에 따라 충분히 익명화되지 않은 데이터와 같은 훈련 데이터 워크플로 자체의 취약성을 식별하는 데 도움이 될 수 있습니다.
AI에 대한 신뢰를 구축하려면 사전 예방적 전략이 필요하며, AI 레드팀이 중요한 역할을 합니다. 레드팀은 적대적 학습 및 시뮬레이션된 모델 반전 공격과 같은 방법을 사용하여 다른 보안 분석가가 놓칠 가능성이 높은 취약점을 식별할 수 있습니다.
이러한 발견은 AI 개발자가 실제 위협 행위자가 동일한 취약점을 악용하지 못하도록 우선순위를 정하고 사전 예방적 보호 장치를 구현하는 데 도움이 될 수 있습니다. 그 결과 기업의 경우 보안 위험을 줄이고 AI 모델에 대한 신뢰를 높일 수 있으며, 이는 많은 비즈니스 크리티컬 시스템에 빠르게 깊이 뿌리 내리고 있습니다.