적대적 머신 러닝이란 무엇인가요?

작성자

David Zax

Staff Writer

IBM Think

적대적 머신 러닝 정의

적대적 머신 러닝은 AI 시스템을 속이는 기술입니다. 이 용어는 이 기술을 악의적으로 추구하는 위협 에이전트와 취약점을 노출하여 궁극적으로 모델 견고성을 향상시키려는 선의의 연구자를 모두 지칭합니다. 

이 분야는 머신 러닝 모델의 복잡성과 종종 물리적 세계를 포함한 광범위한 공격 표면으로 인해 사이버 보안에 새로운 과제를 제시합니다. 

실제 사례

기존의 사이버 보안 위협과 적대적 머신 러닝 공격이 어떻게 다른지 설명하기 위해 자율 주행 자동차 분야의 예를 들어보겠습니다. 자율 주행 자동차는 복잡한 AI 시스템에 의해 구동되며, 이 시스템은 센서 입력을 받아 차량의 동작을 결정하는 분류를 형성합니다. 예를 들어, 자율 주행 차량이 정지 신호에 접근하면 머신 러닝 알고리즘이 이를 인식하여 안전하게 정지시킵니다. 

문제는 정지 표지판을 분류하도록 학습된 머신 러닝 시스템이 인간의 사고방식과는 다른 기준을 사용한다는 점입니다. 2017년 여러 대학의 연구원들은 이로 인해 섬뜩한 취약점이 있음을 입증했습니다.1 연구원들은 대부분의 인간이 무시할 만한 작고 무해한 스티커 몇 개를 추가하여 정지 표지판을 미세하지만 전략적으로 변경함으로써 자율 주행 자동차가 사용하는 종류의 AI 모델이 정지 표지판이 '속도 제한: 45 km/h' 표지판으로 위험할 정도로 잘못 분류하도록 속일 수 있었습니다. 지나가는 인간 순찰관은 이 방해 행위를 알아차리지 못하겠지만, AI 시스템에게는 미묘한 스티커 몇 개가 정지 표지판을 '출발' 신호로 바꾸었습니다.  

악의적인 해커가 이 취약점을 먼저 발견했다면 교통 사고로 인한 사망자와 같은 실제 피해가 쉽게 발생할 수 있었을 것은 말할 필요도 없습니다. 

귀사의 팀은 다음 제로데이를 제때 포착할 수 있을까요?

Think 뉴스레터를 통해 AI, 사이버 보안, 데이터 및 자동화에 대한 선별된 뉴스를 제공하는 보안 리더들과 함께하세요. 받은 편지함으로 직접 제공되는 전문가 튜토리얼과 설명서를 통해 빠르게 배울 수 있습니다. IBM 개인정보 보호정책을 참고하세요.

구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책 을 참조하세요.

https://www.ibm.com/kr-ko/privacy

적대적 공격의 유형

연구원들은 AI 시스템에 대한 다양한 유형의 공격의 분류 체계를 만들었습니다.

회피 공격

회피 공격(앞서 설명한 정지 표지판 속임수와 같은)은 해커가 AI 시스템에서 처리하는 데이터를 변경하여 AI 분류기를 속이는 소위 '적대적 예시'를 만드는 경우를 말합니다. 이러한 공격은 변경된 데이터나 자극이 AI 모델의 정상적인 인식을 회피할 수 있기 때문에 회피 공격이라 불립니다. 생생한 자율 주행 자동차 사례 외에도 연구원들은 거의 눈에 띄지 않는 형태의 시각적 노이즈, 즉 '적대적 섭동'을 생성할 수 있었으며, 이를 데이터 위에 겹쳐 인공 지능을 속일 수 있습니다. 2015년에 있었던 잘 알려진 사례에서, Google 연구원들은 판다 이미지에 약간의 시각적 노이즈를 추가하여 컴퓨팅 비전 모델이 해당 이미지를 긴팔원숭이로 오인하도록 만들 수 있었습니다. 실제로 인공지능은 '판다'를 정확하게 분류했을 때보다 '긴팔원숭이'로 잘못 분류했을 때 더 큰 확신을 가지고 있었습니다.2 (모델을 속이는 노이즈 패턴을 효율적으로 엔지니어링하는 다크 테크놀로지는 아래의 '알려진 회피 공격 방법' 섹션에 설명되어 있습니다.)  

회피 공격의 주요 하위 유형은 멀웨어 공격으로, 공격자가 컴퓨터 바이러스를 포착하기 위한 탐지 시스템을 회피하는 것입니다. 공격자는 다양한 방법을 통해 회피를 달성하지만, 일반적으로는 멀웨어를 무해한 코드처럼 보이게 하는 속임수를 사용합니다. 때로는 공격자가 자체 AI를 사용하여 바로 이 프로세스를 최적화하기도 합니다. 한 가지 예로, 연구원들은 많은 시도에서 멀웨어를 자동으로 위장할 수 있는 봇을 개발하여 20개의 멀웨어 탐지 시스템을 98%의 확률로 속였습니다.3 

데이터 포이즈닝 공격

데이터 포이즈닝 공격은 AI 모델 라이프사이클의 다른 초기 단계, 즉 학습 단계에서 발생합니다. 심층 신경망은 유용한 패턴을 학습하기 위해 대량의 훈련 데이터에 의존합니다. 공격자는 데이터 포이즈닝 공격을 통해 원래 학습 데이터 세트를 손상시켜 학습된 모델이 오작동하게 작동하도록 만드는 데이터를 삽입할 수 있습니다. 

한 가지 예로, 많은 AI 모델이 배포 후 획득한 데이터를 사용하여 모델의 다음 버전을 반복적으로 학습한다는 사실을 들 수 있습니다. Twitter의 악성 사용자들은 이 원칙을 악용하여 2016년에 출시된 Tay라는 Microsoft 챗봇에 공격적인 자료를 퍼부었고, 결국에는 챗봇이 혐오스러운 콘텐츠를 게시하도록 유도했습니다. 

시카고 대학교의 또 다른 사례는 예술가들이 저작권이 있는 이미지를 예술가의 동의 없이 모델을 학습시키기 위해 사용하는 비양심적인 기업을 처벌할 수 있도록 지원하는 것을 목표로 합니다. 프로젝트 Nightshade는 제작자에 따르면 "생성형 AI 이미지 모델 내부의 특징 표현을 왜곡하는 공격 도구로 설계"되었습니다.4 만약 예술가가 자신의 이미지 위에 Nightshade를 적용하고, 나중에 AI 모델이 그 이미지를 사용한다면, 해당 모델은 특정 사물에 대해 잘못된 레이블을 학습할 가능성이 있습니다. 예를 들어, 소를 가죽 지갑으로 시각화할 수도 있습니다.

프라이버시 공격

프라이버시 공격은 학습 데이터 세트의 일부였던 민감한 정보를 간접적으로 추론하거나 추출하기 위해 AI 시스템의 단점을 악용합니다. 이론적으로 ML 모델은 학습하는 데이터를 '기억'하는 것이 아니라, 데이터 세트에서 유용한 패턴을 추출하며, 학습에 사용된 데이터를 하드 드라이브처럼 유지하지 않습니다. 하지만 AI '메모리'의 현실은 더 복잡합니다. 실제로 연구자들은 어떤 측면에서 모델이 학습 데이터를 '기억'하는 것처럼 보인다는 것을 관찰했습니다. 특히 ML 시스템은 학습에서 본 데이터 포인트와 관련된 예측인 경우 더 높은 신뢰 수준을 표시하는 경우가 많습니다. (ChatGPT와 같은 소비자 챗봇은 신뢰도 점수를 표시하지 않지만, 이러한 값은 개발자 API 또는 연구자 툴을 통해 액세스할 수 있는 경우가 많습니다.)

멤버십 추론으로 알려진 프라이버시 공격 방법에서 공격자는 누군가에 대한 민감한 정보를 추론할 수 있습니다(예: 과거에 정신 병원 환자였는지 여부). 공격자는 특정 개인에 대한 일부 데이터(아마도 일부 의료 차트)를 가지고 있는 한, 민감한 데이터 세트(예: 정신과 시설 기록)에 대해 학습한 것으로 알려진 모델을 쿼리할 수 있습니다. 공격자는 모델에서 반환한 신뢰도 점수를 관찰하여 표적이 실제로 모델을 학습하는 데 사용된 그룹의 구성원임을 추론할 수 있었습니다. 

모델 역추론 공격은 더 나아가 공격자가 모델을 학습시킨 실제 데이터를 역설계할 수 있게 합니다. 공격자는 무차별 대입 기법을 사용해 모델의 반환된 신뢰도 점수를 반복적으로 활용해 노이즈가 많은 무작위 데이터를 모델의 실제 학습 데이터와 유사하게 만드는 방법을 통해 모델 역추론 공격을 시행합니다. 예를 들어, 2015년 학술 연구자들은 얼굴 인식 모델의 신뢰도 점수를 활용하여 모델을 학습하기 위해 사용된 실제 얼굴을 근사한 이미지를 재구성하는 데 성공했습니다. 이들은 순수 노이즈 이미지에서 시작해 이미지를 반복적으로 조정한 뒤, 모델 아웃풋의 신뢰도 점수를 바탕으로 다음 조정을 진행했습니다.5

모델 추출 공격

모델 추출 공격(간단히 '모델 도용'이라고도 함)에서 공격자의 목표는 주어진 모델을 효과적으로 '복제'하는 것입니다. 이러한 공격의 동기는 다양할 수 있습니다. 공격자는 원래 모델의 쿼리당 지불을 피하고 싶을 수도 있고, 원래 모델에서 잘 작동할 수 있는 타겟팅된 공격을 몰래 개선하고자 복제 모델을 사용할 수도 있습니다.

대부분의 모델 추출 공격 방법은 상당히 간단합니다. 공격자는 신중하게 선택된 입력으로 모델을 체계적으로 프롬프트하고 아웃풋을 인덱싱합니다. 입력이 전략적으로 선택되면 경우에 따라 수천 또는 수만 개의 입력-출력 쌍으로 구성된 데이터 세트를 사용하여 모델이나 적어도 모델의 일부 측면을 복제할 수 있습니다. 예를 들어, 2023년에 발표된 '모델 리칭(model leeching)'에 관한 논문에서는 이러한 공격을 활용해 LLM에서 작업별 지식을 저렴하게 추출할 수 있는 방법을 소개했습니다. 팀은 단 50달러의 API 비용으로 언어 모델의 기능 중 하나인 독해 능력을 87%의 정확도로 에뮬레이션할 수 있는 복제 모델을 구축할 수 있었습니다.6

화이트박스 공격과 블랙박스 공격 비교

추가적인 공격 분류 체계는 피해 유형이 아니라 표적이 되는 모델의 유형에 따라 구분합니다. 위의 대부분의 예는 소위 블랙박스 공격으로, 표적이 되는 모델이 아웃풋에 대한 액세스 권한만 부여하는 경우입니다. 그러나 소위 화이트박스 공격에서 해커는 (종종 제작자의 선의의 마음에서 나온 충동 충동으로 인해) 내부 작동 방식을 더 투명하게 공개하는 오픈 소스 모델을 공격합니다. 모델을 구성하는 실제 학습된 가중치의 동작에 대한 가시성을 확보할 수 있으므로, 해커는 종종 이 화이트박스 액세스를 활용하여 더 효율적이고 표적화된 공격을 만들 수 있습니다.

알려진 회피 공격 방법

위와 같은 유형의 공격 중에서 회피 공격이 가장 까다로우며 사이버 보안의 새로운 지평을 여는 공격이라고 할 수 있습니다. 우회 공격은 기계와 인간이 세상을 해석하는 근본적으로 다른 방식을 악용하기 때문에 사이버 보안 연구자들이 특히 우려하는 동시에 흥미로워하는 대상입니다. 이러한 이유로 해커가 회피 공격을 일으킬 수 있는 방법을 찾는 데 많은 연구가 집중되어 있으며, 해커가 공격하기 전에 이러한 취약점을 패치할수록 좋습니다. (다행히도 많은 방어책도 발견되었습니다. 자세한 내용은 '적대적 머신 러닝으로부터 방어하는 방법'을 참조하세요.)  

고속 경사 부호법

2015년, Google 연구원들은 딥 러닝 시스템을 속이는 적대적 예시를 생성하는 간단한 방법을 공개했는데, 이 방법을 '고속 경사 부호법' 또는 'FGSM'이라고 명명했습니다.2 이미지 감지 시스템을 예로 들어보겠습니다. 이러한 시스템은 이 클러스터는 고양이, 이 클러스터는 개 등등의 방식으로 세상을 기본적으로 클러스터로 나눕니다. 고속 경사 부호법은 이미지를 조정하여 이미지를 한 클러스터에서 다른 클러스터로 '밀어 넣어' 시스템 의사 결정의 무결성을 방해하는 빠른 방법을 찾는 메커니즘입니다. 결정적으로, 이러한 조정은 종종 사람이 감지할 수 없지만 기계를 속일 수 있는 약간의 시각적 노이즈만 있으면 됩니다. FGSM은 머신 러닝 시스템에서 사용하는 최적화 알고리즘인경사 하강을 활용하기 때문에 '경사 기반' 공격이라고 불립니다.

발견된 직후에 더 강력한 공격이 발견된 것을 고려하면, FGSM 공격에 대해서만 강화된 모델은 매우 취약한 것으로 간주됩니다. 

예상 경사 하강법

예상 경사 하강(PGD)은 또 다른 경사 기반 공격으로, FGSM보다 더 미묘하고 강력합니다. FGSM은 본질적으로 섭동(모델의 감지 메커니즘을 방해하는 '노이즈')을 생성하기 위해 적대적인 방향으로 한 번 도약하는 반면, PGD는 알고리즘을 사용하여 일련의 초기 단계를 수행합니다. 이처럼 더욱 신중하고 반복적인 과정을 통해 더욱 강력하고 뚫기 어려운 섭동을 찾아낼 수 있습니다. 또한 이 알고리즘의 영리한 제약 조건은 PGD의 섭동이 기준선에서 너무 멀리 벗어나는 것을 방지하여 인간이 감지할 수 없도록 합니다. 공격자의 단점은 비용으로, FGSM은 단 한 번의 경사 계산으로 빠르지만 약한 섭동을 생성할 수 있지만 PGD는 수십 또는 수백 번의 계산을 수행해야 합니다.

PGD는 가장 강력한 경사 기반 공격으로 간주되기 때문에 적대적 견고성의 핵심 벤치마크로 자주 사용됩니다. 7 PGD 공격에 저항하도록 학습된 AI 애플리케이션은 상당히 강력한 것으로 간주될 수 있습니다.  

Carlini와 Wagner 공격

머신 러닝 모델의 '경사(gradient)'를 악용하는 것이 이러한 시스템을 공격하는 유일한 방법은 아님이 밝혀졌습니다. UC Berkeley의 컴퓨터 과학자 Nicholas Carlini와 David Wagner의 2017년 연구 논문8에서는 모델의 경사에 대한 정보를 전혀 배제하여 적대적 입력 데이터를 찾는 또 다른 방법을 밝혔습니다. 대신 Carlini와 Wagner는 문제를 순수 최적화 문제로 접근하며, 입력에 필요한 최소한의 변경을 찾으면서도 여전히 오분류를 강제하는 방법을 모색합니다. 예를 들어 이미지 섭동의 경우, 이러한 알고리즘은 모델을 속이기 위해 조정해야 할 픽셀 수를 가장 적게 드러낼 수 있습니다. 생성하는 데는 계산 비용이 많이 들지만, 일반적으로 인간이 알아차리기에는 너무 미세한 교란이 발생합니다.

적대적 머신 러닝으로부터 방어하는 방법

이러한 약점을 발견한 연구자들의 노력 덕분에 머신 러닝 모델의 견고성을 높이는 데 도움이 되는 대응책이 개발되었습니다.

방금 설명한 종류의 회피 공격에 대비해 전문가들은 소위 적대적 학습이라는 방법을 개발했습니다. 기본적으로 이 프로세스에는 해커가 시도할 수 있는 방식으로 조정된 데이터를 '깨끗한' 데이터와 함께 포함시켜, 모델이 이러한 적대적 예제에도 적절한 레이블을 지정하는 방법을 학습하도록 합니다. 이러한 완화는 효과적이지만 1) 더 많은 컴퓨팅이 필요하고 2) 교란된 데이터에 노출된 후 모델의 정확도가 전반적으로 약간 떨어질 수 있다는 두 가지 측면에서 비용이 많이 들 수 있습니다. 2018년 MIT 연구진은 논문 “Robustness May Be at Odds with Accuracy”에서 "견고한 모델을 학습시키면 리소스가 더 많이 소모될 뿐만 아니라 표준 정확도가 떨어질 수 있다"라고 설명합니다.9

일반적으로 우수한 사이버 보안의 원칙은 머신 러닝 영역에도 적용됩니다. 운영 방어에는 라이프사이클의 단계에 관계없이 해커가 ML 시스템에 개입하려고 시도하고 있음을 나타낼 수 있는 데이터나 트래픽의 비정상적인 패턴을 확인하는 이상 징후 탐지침입 탐지 툴이 포함됩니다. 또한 레드팀 구성, 즉 사이버 보안 전문가의 통제된 공격에 의도적으로 모델을 노출하여 공격자의 공격을 시뮬레이션하는 것도 시스템 스트레스 테스트를 위한 효과적인 방법입니다.

AI처럼 빠르게 변화하는 분야에서는 위험 환경이 끊임없이 변화하고 있습니다. 미국 국립표준기술연구소(NIST)와 같은 조직은 최신 개발 기술의 원천입니다. AI 위험 관리에 관한 NIST의 2024년 보고서10는 적대적 기계 학습에 대해 다루면서 편향, 할루시네이션, 프라이버시와 같은 주제를 포함하여 AI 위험에 대한 접근 방식을 보다 광범위하게 포함하고 있습니다. AI 거버넌스 프레임워크를 채택하면 공격자로부터 모델을 보호하는 데 더욱 도움이 될 수 있습니다. 

관련 솔루션
엔터프라이즈 보안 솔루션

최대 규모 엔터프라이즈 보안 제공업체의 솔루션으로 보안 프로그램을 혁신하세요.

사이버 보안 솔루션 살펴보기
사이버 보안 서비스

사이버 보안 컨설팅, 클라우드 및 관리형 보안 서비스를 통해 비즈니스를 혁신하고 위험을 관리하세요.

    사이버 보안 서비스 살펴보기
    인공 지능(AI) 사이버 보안

    AI 기반 사이버 보안 솔루션으로 보안팀의 속도, 정확성, 생산성을 향상시키세요.

    AI 사이버 보안 살펴보기
    다음 단계 안내

    데이터 보안, 엔드포인트 관리, ID 및 액세스 관리(IAM) 솔루션 등 어떤 솔루션이 필요하든 IBM의 전문가들이 협력하여 엄격한 보안 태세를 갖추도록 도와드립니다.사이버 보안 컨설팅, 클라우드, 관리형 보안 서비스 분야의 글로벌 리더와 협력하여 기업을 혁신하고 리스크를 관리하세요.

    사이버 보안 솔루션 살펴보기 사이버 보안 서비스 알아보기