데이터 중독이란 무엇인가요?

작성자

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

데이터 포이즈닝이란 무엇일까요?

데이터 포이즈닝은 위협 행위자가 인공 지능(AI) 및 머신 러닝(ML) 모델을 개발하는 데 사용되는 학습 데이터를 조작하거나 손상시키는 사이버 공격의 한 유형입니다.

Neural networks, 대규모 언어 모델(LLM) 및 딥 러닝 모델은 학습 데이터의 품질 및 무결성에 크게 의존하며, 이는 궁극적으로 모델의 기능을 결정합니다. 이 학습 데이터는 인터넷, 정부 데이터베이스, 서드파티 데이터 제공업체 등 다양한 출처에서 가져올 수 있습니다. 악의적인 행위자는 이러한 데이터 세트에 부정확하거나 편향된 데이터 포인트(중독된 데이터)를 주입함으로써 모델의 행동을 미세하게 또는 크게 변경할 수 있습니다.

예를 들어, 포이즈닝을 통한 데이터 조작은 데이터 오분류로 이어질 수 있으며, 이는 AI 및 ML 시스템의 효율성과 정확성을 떨어뜨립니다. 게다가 이러한 공격은 특히 의료 및 자율 주행 차량과 같은 산업에서 심각한 사이버 보안 위험을 초래할 수 있습니다.

Think 뉴스레터

귀사의 팀은 다음 제로데이를 제때 포착할 수 있을까요?

Think 뉴스레터를 통해 AI, 사이버 보안, 데이터 및 자동화에 대한 선별된 뉴스를 제공하는 보안 리더들과 함께하세요. 받은 편지함으로 직접 제공되는 전문가 튜토리얼과 설명서를 통해 빠르게 배울 수 있습니다. IBM 개인정보 보호정책을 참고하세요.

표적 공격과 비표적 공격 비교

데이터 포이즈닝 공격은 의도에 따라 표적 공격과 비표적 공격의 두 가지 범주로 분류할 수 있습니다.

표적 공격

표적 데이터 중독 공격은 특정 방식으로 AI 모델 아웃풋을 조작합니다. 예를 들어, 사이버 범죄자는 챗봇 또는 ChatGPT와 같은 생성형 AI 애플리케이션에 중독된 데이터를 주입하여 대응을 변경할 수 있습니다. 마찬가지로 사이버 보안 시나리오에서 공격자는 멀웨어를 탐지하도록 설계된 모델에 중독된 데이터를 도입하여 특정 위협을 놓치게 할 수 있습니다.

표적 공격은 공격자에게 유리한 방식으로 모델의 동작을 조작하여 시스템에 새로운 취약점을 만들 가능성이 있습니다.

비표적 공격

비표적 공격은 모델의 일반적인 견고성을 저하시키는 데 중점을 둡니다. 특정 아웃풋을 공격하는 대신, 모델이 데이터를 올바르게 처리하는 기능을 약화시키는 것이 목표입니다. 예를 들어, 자율 주행 차량에서 비표적 데이터 포이즈닝으로 인해 시스템이 센서의 입력을 잘못 해석하여 '정지' 신호를 '양보' 신호로 잘못 인식할 수 있습니다. 이러한 유형의 공격으로 인해 AI 모델은 공격자가 모델의 의사 결정 프로세스에서 종종 감지할 수 없는 작은 결함을 이용하려는 적대적 공격에 더 취약해집니다.

데이터 포이즈닝 공격의 유형

데이터 포이즈닝 공격은 레이블 플립핑, 데이터 인젝션, 백도어 공격, 클린 레이블 공격 등 다양한 형태로 나타날 수 있습니다. 각 유형은 AI 모델 기능의 다양한 측면을 대상으로 합니다.

레이블 플립핑

레이블 플리핑 공격에서 악의적인 행위자는 학습 데이터의 레이블을 조작하여 올바른 레이블을 잘못된 레이블로 바꿉니다. 시카고 대학교에서 개발한 AI 중독 도구인 Nightshade를 생각해 보세요. Nightshade를 사용하면 디지털 아티스트가 온라인에 업로드하기 전에 이미지의 픽셀을 미묘하게 변경할 수 있습니다. AI 회사가 생성형 AI 모델을 학습시키기 위해 온라인 데이터 세트를 긁어 모으는 경우 변경된 이미지는 학습 프로세스를 방해합니다. 이러한 조작으로 인해 AI 모델이 잘못 분류하거나 예측할 수 없게 동작할 수 있습니다. 때로는 소의 이미지를 가죽 가방의 이미지로 착각하기도 합니다.¹

데이터 인젝션

데이터 인젝션은 학습 데이터 세트에 조작된 데이터 포인트를 도입하여 AI 모델의 동작을 특정 방향으로 유도하는 경우가 많습니다. 일반적인 예로는 공격자가 입력 필드에 '1=1' 또는 '='를 추가하는 SQL 인젝션이 있습니다. 이러한 악성 데이터가 SQL Query에 포함되면 쿼리의 의미를 변경하여 레코드를 하나만 반환하는 것이 아니라 모든 레코드를 반환합니다.² 마찬가지로 데이터 인젝션은 머신 러닝 모델에서도 모델의 의사 결정에 영향을 줄 수 있습니다. 이로 인해 모델이 잘못 분류하거나 편향이 나타나 데이터 무결성과 전반적인 모델 견고성이 약화될 수 있습니다.

백도어 공격

백도어 공격은 오디오에 들리지 않는 배경 소음을 넣거나 이미지에 눈에 띄지 않는 워터마크를 넣는 등 미세한 조작을 가하기 때문에 위험합니다. 이렇게 하면 AI 시스템은 대부분의 조건에서 정상적으로 작동합니다. 그러나 특정 트리거 입력이 발생하면 모델은 공격자에게 유리한 방식으로 작동합니다. 학습 데이터와 알고리즘에 대한 액세스가 덜 제한될 수 있는 오픈 소스 모델의 경우 이러한 공격이 특히 해로울 수 있습니다. ReversingLabs는 2020년부터 2023년까지 오픈소스 리포지토리를 통해 유포되는 위협이 1,300% 이상 증가했다고 보고했습니다.³

클린 레이블 공격

클린 레이블 공격에서 공격자는 탐지하기 어려운 방식으로 데이터를 수정합니다. 주요 특징은 중독된 데이터가 여전히 올바르게 레이블이 지정되어 있어 기존의 데이터 유효성 검사 방법으로는 식별하기 어렵다는 점입니다. 이러한 공격은 최신 머신 러닝과 딥 러닝 시스템의 복잡성을 이용하므로, 무해해 보이는 작은 변화를 포착하지 못할 수 있습니다. 클린 레이블 공격은 가장 은밀한 공격 중 하나로, AI 모델이 왜곡된 아웃풋에 취약해지게 만들고 모델 기능을 저하시킵니다.

데이터 포이즈닝과 프롬프트 인젝션 비교

데이터 포이즈닝과 프롬프트 인젝션은 AI 라이프사이클의 여러 단계를 대상으로 하지만 모델 입력의 취약점을 악용한다는 공통의 목표를 가지고 있습니다. 데이터 포이즈닝은 학습 데이터 세트를 조작하고 손상되거나 악의적인 데이터를 임베딩하여 모델의 학습 과정과 장기적인 기능을 손상시킬 수 있습니다. 반면 프롬프트 인젝션은 악의적인 입력을 합법적인 프롬프트로 위장하여 민감한 데이터를 유출하도록 생성형 AI 시스템을 조작하거나 잘못된 정보를 유포하거나 그보다 더 나쁜 작업을 수행합니다.

데이터 포이즈닝의 예

표적 데이터 포이즈닝: 해커는 멀웨어 샘플을 안전한 것으로 레이블을 지정하여 사이버 보안 모델의 학습 데이터를 오염시키고 모델이 특정 위협을 무시하도록 합니다.
비표적 데이터 포이즈닝: 악의적인 행위자가 스팸 필터의 학습 데이터 세트에 편향된 데이터를 주입하여 전반적인 정확도와 안정성을 떨어뜨립니다.

프롬프트 인젝션의 예

직접 프롬프트 인젝션: 해커가 챗봇 상호작용에 프롬프트를 삽입하여 가드레일을 우회하고 민감한 계정 세부 정보를 노출합니다.
간접 프롬프트 인젝션 : 공격자가 AI 어시스턴트가 아웃풋에서 피싱 링크를 홍보하도록 하는 지침을 웹페이지에 숨깁니다.

해커는 이러한 전략을 개별적으로 또는 동시에 배포하여 그 영향을 증폭시킬 수 있습니다. 예를 들어, 조직의 시스템에 액세스할 수 있는 내부자가 이론적으로 유효성 검사 조치를 우회하여 왜곡되거나 편향된 데이터를 삽입함으로써 학습 데이터 세트에 포이즈닝을 발생시킬 수 있습니다. 나중에 내부자는 프롬프트 인젝션을 수행하고, 중독된 데이터를 활성화하며, 악의적인 동작을 트리거하여 손상된 시스템을 악용할 수 있습니다. 여기에는 민감한 정보 유출, 추가적인 적대적 공격의을 위한 백도어 생성, 시스템의 의사 결정 기능 약화 등이 포함될 수 있습니다.

데이터 포이즈닝이 AI 모델에 미치는 영향

데이터 포이즈닝은 AI 및 ML 모델에 광범위한 영향을 미쳐 보안과 전반적인 모델 성능 모두에 영향을 미칠 수 있습니다.

오분류 및 성능 저하

학습 데이터 세트가 중독되면 머신 러닝 모델이 입력을 잘못 분류하여 AI 모델의 신뢰성과 기능이 저하될 수 있습니다. 소비자 대면 애플리케이션에서 이는 부정확한 추천으로 이어져 고객 신뢰와 경험가 저하될 수 있습니다. 마찬가지로 공급망 관리에서도 데이터가 중독되면 잘못된 예측, 지연 및 오류를 초래하여 모델 성능과 비즈니스 효율성을 모두 손상시킬 수 있습니다. 이러한 오분류는 학습 데이터의 취약점을 노출하고 AI 시스템의 전반적인 견고성을 손상시킬 수 있습니다.

편향과 왜곡된 의사 결정

또한 데이터 포이즈닝은 AI 시스템의 기존 편향을 증폭시킬 수 있습니다. 공격자는 특정 인구 통계와 같은 특정 데이터 하위 집합을 표적으로 삼아 편향된 입력을 유도할 수 있습니다. 이로 인해 AI 모델의 성능이 불공정하거나 부정확해질 수 있습니다. 예를 들어 편향된 데이터로 학습한 안면 인식 모델은 특정 집단의 사람들을 잘못 식별하여 차별적인 결과를 초래할 수 있습니다. 이러한 유형의 공격은 채용 결정부터 법 집행 감시에 이르기까지 다양한 애플리케이션에서 ML 모델의 공정성과 정확성 모두에 영향을 미칠 수 있습니다.

보안 취약점 및 백도어 위협

데이터 중독은 해커가 모델의 학습 데이터를 리버스 엔지니어링하려고 시도하는 전도 공격과 같은 보다 정교한 공격의 문을 열 수 있습니다. 공격자가 학습 데이터를 성공적으로 중독시키면 이러한 취약점을 추가로 사용하여 더 많은 적대적 공격을 시작하거나 백도어 작업을 트리거할 수 있습니다. 의료 진단 또는 사이버 보안과 같은 민감한 작업을 위해 설계된 시스템에서 이러한 보안 위험은 특히 위험할 수 있습니다.

데이터 포이즈닝의 위험 완화

조직은 데이터 중독 공격을 방어하기 위해 학습 데이터 세트의 무결성을 보장하고 모델 견고성을 개선하며 AI 모델을 지속적으로 모니터링하는 전략을 구현할 수 있습니다.

데이터 검증 및 정제

데이터 포이즈닝을 방지하는 기본적인 방어 전략은 사용 전에 훈련 데이터를 검증하고 정제하는 것입니다. 학습 단계에서 데이터 검증 프로세스를 구현하면 의심스럽거나 손상된 데이터 포인트가 모델에 부정적인 영향을 미치기 전에 이를 식별하고 제거하는 데 도움이 될 수 있습니다. 이 단계는 악성 데이터가 AI 시스템에 유입되는 것을 방지하는 데 필수적이며, 특히 무결성을 유지하기 어려운 오픈 소스 데이터 소스나 모델을 사용하는 경우 더욱 필수적입니다.

적대적 학습 및 견고성 향상

적대적 학습은 데이터 중독 및 기타 유형의 공격을 방어하는 사전 예방적 방법입니다. 개발자는 학습 모델에 적대적인 예시를 의도적으로 도입하여 모델이 중독된 데이터를 인식하고 이에 저항하도록 학습시켜 조작에 대한 견고성을 향상할 수 있습니다. 자율 주행 차량이나 AI 보안과 같은 고위험 애플리케이션의 경우, 적대적 학습은 AI 및 ML 모델을 더욱 견고하고 신뢰할 수 있게 만드는 데 중요한 단계입니다.

지속적인 모니터링 및 이상 활동 감지

AI 시스템이 배포되면 지속적으로 모니터링하여 데이터 포이즈닝 공격을 나타낼 수 있는 비정상적인 동작을 감지할 수 있습니다. 패턴 인식 알고리즘과 같은 이상 활동 감지 도구는 보안팀이 입력과 아웃풋 모두에서 불일치를 식별하고 시스템이 손상된 경우 신속하게 대응하는 데 도움이 될 수 있습니다. 지속적인 감사는 훈련 데이터 및 모델 동작에 대한 실시간 업데이트가 오용을 방지하는 데 중요할 수 있는 ChatGPT와 같은 생성형 AI 애플리케이션의 경우 특히 중요합니다. 이상 활동이 감지되면 추가 손상을 방지하기 위해 모델을 일시 중지하거나 재평가할 수 있습니다.

액세스 제어 및 보안 조치

데이터 포이즈닝 위험을 완화하는 또 다른 전략은 엄격한 액세스 제어를 구현하는 것입니다. 학습 데이터 세트 및 리포지토리를 수정할 수 있는 사용자를 제한하면 무단 변조의 위험을 줄일 수 있습니다. 또한 암호화와 같은 보안 조치를 통합하면 외부 공격으로부터 데이터 소스와 AI 시스템을 보호하는 데 도움이 될 수 있습니다. 의료 및 사이버 보안과 같이 매우 중요한 환경에서 엄격한 보안 제어는 머신 러닝 모델의 보안과 신뢰성을 유지할 수 있도록 하는 데 도움이 될 수 있습니다.

2025년 데이터 유출 비용(CODB) 보고서

데이터 유출로 인한 비용이 최고치를 기록했습니다. 사이버 보안 위협과 조직에 미치는 재정적 영향에 대한 최신 인사이트를 확보하세요.

각주

¹ What is Nightshade, 시카고 대학교, 2024년.

² SQL Injection, W3 Schools.

³ Key Takeaways from the 2024 State of SSCS Report, ReversingLabs, 2024년 1월 16일.

데이터 포이즈닝이란 무엇일까요?

작성자

데이터 포이즈닝이란 무엇일까요?

귀사의 팀은 다음 제로데이를 제때 포착할 수 있을까요?

표적 공격과 비표적 공격 비교

표적 공격

비표적 공격

데이터 포이즈닝 공격의 유형

레이블 플립핑

데이터 인젝션

백도어 공격

클린 레이블 공격

데이터 포이즈닝과 프롬프트 인젝션 비교

데이터 포이즈닝의 예

프롬프트 인젝션의 예

데이터 포이즈닝이 AI 모델에 미치는 영향

오분류 및 성능 저하

편향과 왜곡된 의사 결정

보안 취약점 및 백도어 위협

데이터 포이즈닝의 위험 완화

데이터 검증 및 정제

적대적 학습 및 견고성 향상

지속적인 모니터링 및 이상 활동 감지

액세스 제어 및 보안 조치

Share

리소스

각주