귀사의 팀은 다음 제로데이를 제때 포착할 수 있을까요?
Think 뉴스레터를 통해 AI, 사이버 보안, 데이터 및 자동화에 대한 선별된 뉴스를 제공하는 보안 리더들과 함께하세요. 받은 편지함으로 직접 제공되는 전문가 튜토리얼과 설명서를 통해 빠르게 배울 수 있습니다. IBM 개인정보 보호정책을 참고하세요.
Neural networks, 대규모 언어 모델(LLM) 및 딥 러닝 모델은 학습 데이터의 품질 및 무결성에 크게 의존하며, 이는 궁극적으로 모델의 기능을 결정합니다. 이 학습 데이터는 인터넷, 정부 데이터베이스, 서드파티 데이터 제공업체 등 다양한 출처에서 가져올 수 있습니다. 악의적인 행위자는 이러한 데이터 세트에 부정확하거나 편향된 데이터 포인트(중독된 데이터)를 주입함으로써 모델의 행동을 미세하게 또는 크게 변경할 수 있습니다.
예를 들어, 포이즈닝을 통한 데이터 조작은 데이터 오분류로 이어질 수 있으며, 이는 AI 및 ML 시스템의 효율성과 정확성을 떨어뜨립니다. 게다가 이러한 공격은 특히 의료 및 자율 주행 차량과 같은 산업에서 심각한 사이버 보안 위험을 초래할 수 있습니다.
Think 뉴스레터를 통해 AI, 사이버 보안, 데이터 및 자동화에 대한 선별된 뉴스를 제공하는 보안 리더들과 함께하세요. 받은 편지함으로 직접 제공되는 전문가 튜토리얼과 설명서를 통해 빠르게 배울 수 있습니다. IBM 개인정보 보호정책을 참고하세요.
데이터 포이즈닝 공격은 의도에 따라 표적 공격과 비표적 공격의 두 가지 범주로 분류할 수 있습니다.
데이터 포이즈닝 공격은 레이블 플립핑, 데이터 인젝션, 백도어 공격, 클린 레이블 공격 등 다양한 형태로 나타날 수 있습니다. 각 유형은 AI 모델 기능의 다양한 측면을 대상으로 합니다.
레이블 플리핑 공격에서 악의적인 행위자는 학습 데이터의 레이블을 조작하여 올바른 레이블을 잘못된 레이블로 바꿉니다. 시카고 대학교에서 개발한 AI 중독 도구인 Nightshade를 생각해 보세요. Nightshade를 사용하면 디지털 아티스트가 온라인에 업로드하기 전에 이미지의 픽셀을 미묘하게 변경할 수 있습니다. AI 회사가 생성형 AI 모델을 학습시키기 위해 온라인 데이터 세트를 긁어 모으는 경우 변경된 이미지는 학습 프로세스를 방해합니다. 이러한 조작으로 인해 AI 모델이 잘못 분류하거나 예측할 수 없게 동작할 수 있습니다. 때로는 소의 이미지를 가죽 가방의 이미지로 착각하기도 합니다.1
데이터 인젝션은 학습 데이터 세트에 조작된 데이터 포인트를 도입하여 AI 모델의 동작을 특정 방향으로 유도하는 경우가 많습니다. 일반적인 예로는 공격자가 입력 필드에 '1=1' 또는 '='를 추가하는 SQL 인젝션이 있습니다. 이러한 악성 데이터가 SQL Query에 포함되면 쿼리의 의미를 변경하여 레코드를 하나만 반환하는 것이 아니라 모든 레코드를 반환합니다.2 마찬가지로 데이터 인젝션은 머신 러닝 모델에서도 모델의 의사 결정에 영향을 줄 수 있습니다. 이로 인해 모델이 잘못 분류하거나 편향이 나타나 데이터 무결성과 전반적인 모델 견고성이 약화될 수 있습니다.
백도어 공격은 오디오에 들리지 않는 배경 소음을 넣거나 이미지에 눈에 띄지 않는 워터마크를 넣는 등 미세한 조작을 가하기 때문에 위험합니다. 이렇게 하면 AI 시스템은 대부분의 조건에서 정상적으로 작동합니다. 그러나 특정 트리거 입력이 발생하면 모델은 공격자에게 유리한 방식으로 작동합니다. 학습 데이터와 알고리즘에 대한 액세스가 덜 제한될 수 있는 오픈 소스 모델의 경우 이러한 공격이 특히 해로울 수 있습니다. ReversingLabs는 2020년부터 2023년까지 오픈소스 리포지토리를 통해 유포되는 위협이 1,300% 이상 증가했다고 보고했습니다.3
클린 레이블 공격에서 공격자는 탐지하기 어려운 방식으로 데이터를 수정합니다. 주요 특징은 중독된 데이터가 여전히 올바르게 레이블이 지정되어 있어 기존의 데이터 유효성 검사 방법으로는 식별하기 어렵다는 점입니다. 이러한 공격은 최신 머신 러닝과 딥 러닝 시스템의 복잡성을 이용하므로, 무해해 보이는 작은 변화를 포착하지 못할 수 있습니다. 클린 레이블 공격은 가장 은밀한 공격 중 하나로, AI 모델이 왜곡된 아웃풋에 취약해지게 만들고 모델 기능을 저하시킵니다.
데이터 포이즈닝과 프롬프트 인젝션은 AI 라이프사이클의 여러 단계를 대상으로 하지만 모델 입력의 취약점을 악용한다는 공통의 목표를 가지고 있습니다. 데이터 포이즈닝은 학습 데이터 세트를 조작하고 손상되거나 악의적인 데이터를 임베딩하여 모델의 학습 과정과 장기적인 기능을 손상시킬 수 있습니다. 반면 프롬프트 인젝션은 악의적인 입력을 합법적인 프롬프트로 위장하여 민감한 데이터를 유출하도록 생성형 AI 시스템을 조작하거나 잘못된 정보를 유포하거나 그보다 더 나쁜 작업을 수행합니다.
해커는 이러한 전략을 개별적으로 또는 동시에 배포하여 그 영향을 증폭시킬 수 있습니다. 예를 들어, 조직의 시스템에 액세스할 수 있는 내부자가 이론적으로 유효성 검사 조치를 우회하여 왜곡되거나 편향된 데이터를 삽입함으로써 학습 데이터 세트에 포이즈닝을 발생시킬 수 있습니다. 나중에 내부자는 프롬프트 인젝션을 수행하고, 중독된 데이터를 활성화하며, 악의적인 동작을 트리거하여 손상된 시스템을 악용할 수 있습니다. 여기에는 민감한 정보 유출, 추가적인 적대적 공격의을 위한 백도어 생성, 시스템의 의사 결정 기능 약화 등이 포함될 수 있습니다.
데이터 포이즈닝은 AI 및 ML 모델에 광범위한 영향을 미쳐 보안과 전반적인 모델 성능 모두에 영향을 미칠 수 있습니다.
또한 데이터 포이즈닝은 AI 시스템의 기존 편향을 증폭시킬 수 있습니다. 공격자는 특정 인구 통계와 같은 특정 데이터 하위 집합을 표적으로 삼아 편향된 입력을 유도할 수 있습니다. 이로 인해 AI 모델의 성능이 불공정하거나 부정확해질 수 있습니다. 예를 들어 편향된 데이터로 학습한 안면 인식 모델은 특정 집단의 사람들을 잘못 식별하여 차별적인 결과를 초래할 수 있습니다. 이러한 유형의 공격은 채용 결정부터 법 집행 감시에 이르기까지 다양한 애플리케이션에서 ML 모델의 공정성과 정확성 모두에 영향을 미칠 수 있습니다.
데이터 중독은 해커가 모델의 학습 데이터를 리버스 엔지니어링하려고 시도하는 전도 공격과 같은 보다 정교한 공격의 문을 열 수 있습니다. 공격자가 학습 데이터를 성공적으로 중독시키면 이러한 취약점을 추가로 사용하여 더 많은 적대적 공격을 시작하거나 백도어 작업을 트리거할 수 있습니다. 의료 진단 또는 사이버 보안과 같은 민감한 작업을 위해 설계된 시스템에서 이러한 보안 위험은 특히 위험할 수 있습니다.
조직은 데이터 중독 공격을 방어하기 위해 학습 데이터 세트의 무결성을 보장하고 모델 견고성을 개선하며 AI 모델을 지속적으로 모니터링하는 전략을 구현할 수 있습니다.
적대적 학습은 데이터 중독 및 기타 유형의 공격을 방어하는 사전 예방적 방법입니다. 개발자는 학습 모델에 적대적인 예시를 의도적으로 도입하여 모델이 중독된 데이터를 인식하고 이에 저항하도록 학습시켜 조작에 대한 견고성을 향상할 수 있습니다. 자율 주행 차량이나 AI 보안과 같은 고위험 애플리케이션의 경우, 적대적 학습은 AI 및 ML 모델을 더욱 견고하고 신뢰할 수 있게 만드는 데 중요한 단계입니다.
AI 시스템이 배포되면 지속적으로 모니터링하여 데이터 포이즈닝 공격을 나타낼 수 있는 비정상적인 동작을 감지할 수 있습니다. 패턴 인식 알고리즘과 같은 이상 활동 감지 도구는 보안팀이 입력과 아웃풋 모두에서 불일치를 식별하고 시스템이 손상된 경우 신속하게 대응하는 데 도움이 될 수 있습니다. 지속적인 감사는 훈련 데이터 및 모델 동작에 대한 실시간 업데이트가 오용을 방지하는 데 중요할 수 있는 ChatGPT와 같은 생성형 AI 애플리케이션의 경우 특히 중요합니다. 이상 활동이 감지되면 추가 손상을 방지하기 위해 모델을 일시 중지하거나 재평가할 수 있습니다.
데이터 포이즈닝 위험을 완화하는 또 다른 전략은 엄격한 액세스 제어를 구현하는 것입니다. 학습 데이터 세트 및 리포지토리를 수정할 수 있는 사용자를 제한하면 무단 변조의 위험을 줄일 수 있습니다. 또한 암호화와 같은 보안 조치를 통합하면 외부 공격으로부터 데이터 소스와 AI 시스템을 보호하는 데 도움이 될 수 있습니다. 의료 및 사이버 보안과 같이 매우 중요한 환경에서 엄격한 보안 제어는 머신 러닝 모델의 보안과 신뢰성을 유지할 수 있도록 하는 데 도움이 될 수 있습니다.
IBM watsonx.governance를 사용하여 어디서나 생성형 AI 모델을 관리하고 클라우드 또는 온프레미스에 배포하세요.
다양한 환경에서 데이터를 보호하고, 개인정보 보호 규정을 준수하며, 운영상의 복잡성을 간소화합니다.
IBM은 엔터프라이즈 데이터, 애플리케이션 및 AI를 보호하기 위한 포괄적인 데이터 보안 서비스를 제공합니다.
1 What is Nightshade, 시카고 대학교, 2024년.
2 SQL Injection, W3 Schools.
3 Key Takeaways from the 2024 State of SSCS Report, ReversingLabs, 2024년 1월 16일.